Инженерия данных утопает в маркетинговом бреде!
На luminousmen.com - вышел потрясающий разбор, все те мысли, которые были у меня в голове, но не получалось выразить одним постом:
Data Fabric, Medallion Architecture и прочие "гениальные" новинки - это реальный прорыв или старое блюдо под новым соусом?
Автор безжалостно рвёт глянец с хайповых терминов, объясняя, почему Data Fabric - лишь красивая обёртка для метаданных и виртуализации, а Medallion (Bronze-Silver-Gold) - просто переименованный Data Warehouse.
Что Zero ETL ≠ Zero Engineering, он не устраняет необходимость в разработке - он просто переносит рабочую нагрузку в другое место.
Никакие "революции" не спасут от рутины очистки данных и интеграционных головняков. Хватит верить в сказки, пора копать в суть!
👉 Читай, злись, спорь: ссылка на статью
На luminousmen.com - вышел потрясающий разбор, все те мысли, которые были у меня в голове, но не получалось выразить одним постом:
Data Fabric, Medallion Architecture и прочие "гениальные" новинки - это реальный прорыв или старое блюдо под новым соусом?
Автор безжалостно рвёт глянец с хайповых терминов, объясняя, почему Data Fabric - лишь красивая обёртка для метаданных и виртуализации, а Medallion (Bronze-Silver-Gold) - просто переименованный Data Warehouse.
Что Zero ETL ≠ Zero Engineering, он не устраняет необходимость в разработке - он просто переносит рабочую нагрузку в другое место.
Никакие "революции" не спасут от рутины очистки данных и интеграционных головняков. Хватит верить в сказки, пора копать в суть!
👉 Читай, злись, спорь: ссылка на статью
Blog | iamluminousmen
Data Engineering: Now with 30% More Bullshit
Discover the truth behind Data Engineering's buzzwords! Uncover the reality of Data Fabric, Medallion Architecture, Zero ETL, and the Modern Data Stack. Tools don't solve problems—craftsmanship does.
👍7😁1
⚔️ SQL: Общий язык технологий
В мире технологий есть один язык, который мы все понимаем - SQL. Независимо от вашей роли, этот навык объединяет нас всех.
✦ Data Scientist – Запрашивает данные для построения предсказательных моделей.
✦ Data Engineer – Перемещает и преобразует данные с помощью SQL-пайплайнов.
✦ AI/ML Engineer – Использует SQL для подготовки чистых наборов данных для обучения.
✦ Cybersecurity Analyst – Анализирует логи и угрозы, хранящиеся в базах данных.
✦ Cloud Engineer – Управляет облачными базами данных с помощью SQL.
✦ BI Analyst – Переводит бизнес-потребности в отчёты на основе данных.
✦ Full Stack Developer – Связывает приложения с базами данных через SQL-запросы.
✦ ETL Developer – Извлекает, преобразует и загружает данные с помощью SQL.
✦ Software Engineer – Создаёт серверную логику с использованием SQL-баз.
✦ Data Analyst – Раскрывает инсайты с помощью сложных запросов.
✦ Database Administrator – Мастер производительности, хранения и контроля доступа.
🔗 SQL - это не опция, это необходимость.
Учи его. Используй его. Стань мастером.
@data_whisperer
В мире технологий есть один язык, который мы все понимаем - SQL. Независимо от вашей роли, этот навык объединяет нас всех.
✦ Data Scientist – Запрашивает данные для построения предсказательных моделей.
✦ Data Engineer – Перемещает и преобразует данные с помощью SQL-пайплайнов.
✦ AI/ML Engineer – Использует SQL для подготовки чистых наборов данных для обучения.
✦ Cybersecurity Analyst – Анализирует логи и угрозы, хранящиеся в базах данных.
✦ Cloud Engineer – Управляет облачными базами данных с помощью SQL.
✦ BI Analyst – Переводит бизнес-потребности в отчёты на основе данных.
✦ Full Stack Developer – Связывает приложения с базами данных через SQL-запросы.
✦ ETL Developer – Извлекает, преобразует и загружает данные с помощью SQL.
✦ Software Engineer – Создаёт серверную логику с использованием SQL-баз.
✦ Data Analyst – Раскрывает инсайты с помощью сложных запросов.
✦ Database Administrator – Мастер производительности, хранения и контроля доступа.
🔗 SQL - это не опция, это необходимость.
Учи его. Используй его. Стань мастером.
@data_whisperer
👍4🔥4😱2
📊 Рейтинг Data Engine 2025: Выбираем лучший движок для данных!
Выбрать идеальный движок для аналитики, ML или потоковой обработки в 2025 - задача не из лёгких. Наткнулся на 3 три свежие статьи с глубоким сравнением от экспертов, чтобы помочь вам принять осознанное решение!
Статья не даёт прямых бенчмарков, но подробно описывает сценарии использования, плюсы и минусы каждого движка.
Бонус: разбор архитектур и базовых концепций, которые помогут понять, как движки работают "под капотом".
Вот краткий обзор.
🏆 Рейтинг 2025:
- Аналитика: StarRocks 🥇 > ClickHouse > Presto > Trino > Spark
- ML: Ray 🥇 > Spark > Dask
- Потоковая обработка: Flink 🥇 > Spark > Kafka Streams
- StarRocks бьёт рекорды по скорости аналитики, ClickHouse радует производительностью и простотой.
- Presto и Trino — короли SQL-запросов, но с разными подходами к масштабированию.
- Spark универсален, но может уступать в специализированных задачах.
- Ray - звезда ML, идеально интегрируется с TensorFlow и PyTorch.
- Dask - must-have для Python-фанатов в экосистеме Pandas.
- Flink доминирует в потоках с низкой задержкой, Kafka Streams хорош для экосистемы Kafka, а Spark Streaming - для тех, кто хочет унификации.
- Ray vs Spark vs Dask: Какой движок для ML выбрать?
- StarRocks vs ClickHouse vs Presto vs Trino vs Spark: Битва аналитических движков
- Flink vs Spark vs Kafka Streams: Потоковая обработка под микроскопом
@data_whisperer
Выбрать идеальный движок для аналитики, ML или потоковой обработки в 2025 - задача не из лёгких. Наткнулся на 3 три свежие статьи с глубоким сравнением от экспертов, чтобы помочь вам принять осознанное решение!
Статья не даёт прямых бенчмарков, но подробно описывает сценарии использования, плюсы и минусы каждого движка.
Бонус: разбор архитектур и базовых концепций, которые помогут понять, как движки работают "под капотом".
Вот краткий обзор.
🏆 Рейтинг 2025:
- Аналитика: StarRocks 🥇 > ClickHouse > Presto > Trino > Spark
- ML: Ray 🥇 > Spark > Dask
- Потоковая обработка: Flink 🥇 > Spark > Kafka Streams
- StarRocks бьёт рекорды по скорости аналитики, ClickHouse радует производительностью и простотой.
- Presto и Trino — короли SQL-запросов, но с разными подходами к масштабированию.
- Spark универсален, но может уступать в специализированных задачах.
- Ray - звезда ML, идеально интегрируется с TensorFlow и PyTorch.
- Dask - must-have для Python-фанатов в экосистеме Pandas.
- Flink доминирует в потоках с низкой задержкой, Kafka Streams хорош для экосистемы Kafka, а Spark Streaming - для тех, кто хочет унификации.
- Ray vs Spark vs Dask: Какой движок для ML выбрать?
- StarRocks vs ClickHouse vs Presto vs Trino vs Spark: Битва аналитических движков
- Flink vs Spark vs Kafka Streams: Потоковая обработка под микроскопом
@data_whisperer
www.onehouse.ai
Ray vs Dask vs Apache Spark™ — Comparing Data Science & Machine Learning Engines
Discover how Apache Spark™, Ray, and Dask compare for a wide variety of data science, AI, and machine learning workloads and use cases.
👍5🫡1
Apache Airflow 3.0
Релиз Airflow 3.0 уже обсудили в каждом уголке интернета, так что без лишних деталей. Что мне было интересно - реакция сообщества на Reddit!
Что говорят:
- Многие считают, что Airflow 3.0 просто “переизобрёл” Dagster:
- Новый UI - красивый, но вопросы к деплою остаются. Будет ли так же больно, как раньше? 😅
- Как сложно будет экспортировать метрики в ту же Grafana?
- Service-oriented architecture: деплоите только нужные сервисы. Круто, но…
- Обновление с 2.* на 3.0 - не просто апгрейд, а фактически новый сервис с нуля. Готовьтесь к приключениям!
Вообщем вот такие дела.
🔗 Читать обсуждение на Reddit
@data_whisperer
Релиз Airflow 3.0 уже обсудили в каждом уголке интернета, так что без лишних деталей. Что мне было интересно - реакция сообщества на Reddit!
Что говорят:
- Многие считают, что Airflow 3.0 просто “переизобрёл” Dagster:
Sooo… they reinvented Dagster
If I wanted a Dagster I would have gotten Dagster
- Новый UI - красивый, но вопросы к деплою остаются. Будет ли так же больно, как раньше? 😅
- Как сложно будет экспортировать метрики в ту же Grafana?
- Service-oriented architecture: деплоите только нужные сервисы. Круто, но…
- Обновление с 2.* на 3.0 - не просто апгрейд, а фактически новый сервис с нуля. Готовьтесь к приключениям!
Вообщем вот такие дела.
🔗 Читать обсуждение на Reddit
@data_whisperer
😁3
Zero ETL: революция в работе с данными или просто хайп?
Сегодня разберемся с модным термином Zero ETL - что это на самом деле, а чем точно не является.
Zero ETL - это подход, который автоматизирует интеграцию данных на лету. Данные из разных источников (например, SaaS-приложений, IoT-устройств) сразу доступны для анализа без промежуточных шагов. Представьте: данные из Figma или Salesforce автоматически синхронизируются с вашим облачным хранилищем.
Zero ETL ≠ EL: В чем разница?
На первый взгляд, Zero ETL похож на EL (Extract & Load), где данные просто копируются без преобразований. Но есть нюансы:
1. Скрытые трансформации
- Zero ETL не требует явного этапа преобразований, но они происходят «под капотом»:
◦ Schema-on-Read: Данные адаптируются под схему при запросе (например, Parquet/JSON в Amazon S3).
◦ Федеративные запросы: Система объединяет данные из разных источников на лету (как AWS Athena).
◦ In-Place Analytics: Анализ данных прямо в источнике (например, Snowflake без копирования).
2. Поток данных в реальном времени
- EL работает с периодическими выгрузками (раз в день/час), а Zero ETL использует:
◦ CDC (Change Data Capture): Отслеживает изменения в источниках (PostgreSQL → Kafka).
◦ Стриминг (Kinesis, Kafka): Мгновенная передача событий (например, клики в мобильном приложении).
3. Прямая интеграция облаков
- Сервисы вроде Amazon Aurora → Redshift автоматически реплицируют данные, делая их готовыми к запросам без ручного вмешательства.
4. Работа с неструктурированными данными
- Zero ETL не требует жестких схем. Данные в форматах JSON, XML анализируются через schema-on-read (пример: анализ логов IoT-устройств в DynamoDB).
Эксперты спорят: если преобразования неявные, правильнее называть это Zero-EL или EL 2.0. Но суть не в названии, а в идее:
Как внедрить Zero ETL?
1. Выберите стек:
◦ CDC: Debezium, AWS DMS.
◦ Стриминг: Kafka, Kinesis.
◦ Интеграция: Aurora + Redshift, Snowflake Data Sharing.
2. Проверьте источники:
- Данные должны быть достаточно чистыми (или готовьтесь к schema-on-read).
3. Считайте стоимость:
- Репликация в реальном времени может удорожить инфраструктуру.
Подводные камни:
• Неявные трансформации = скрытые затраты: Запросы к «сырым» данным через schema-on-read могут замедлить аналитику.
• Риск хаоса: Если в источнике нет порядка, Zero ETL перенесет бардак в хранилище.
• Зависимость от вендоров: Интеграция Amazon Aurora → Redshift удобна, но привязывает к экосистеме AWS.
• Технический долг:
Слишком быстрое внедрение без продуманной архитектуры превратит Zero ETL в «паутину» несвязанных данных.
@data_whisperer
Сегодня разберемся с модным термином Zero ETL - что это на самом деле, а чем точно не является.
Zero ETL - это подход, который автоматизирует интеграцию данных на лету. Данные из разных источников (например, SaaS-приложений, IoT-устройств) сразу доступны для анализа без промежуточных шагов. Представьте: данные из Figma или Salesforce автоматически синхронизируются с вашим облачным хранилищем.
Zero ETL ≠ EL: В чем разница?
На первый взгляд, Zero ETL похож на EL (Extract & Load), где данные просто копируются без преобразований. Но есть нюансы:
1. Скрытые трансформации
- Zero ETL не требует явного этапа преобразований, но они происходят «под капотом»:
◦ Schema-on-Read: Данные адаптируются под схему при запросе (например, Parquet/JSON в Amazon S3).
◦ Федеративные запросы: Система объединяет данные из разных источников на лету (как AWS Athena).
◦ In-Place Analytics: Анализ данных прямо в источнике (например, Snowflake без копирования).
2. Поток данных в реальном времени
- EL работает с периодическими выгрузками (раз в день/час), а Zero ETL использует:
◦ CDC (Change Data Capture): Отслеживает изменения в источниках (PostgreSQL → Kafka).
◦ Стриминг (Kinesis, Kafka): Мгновенная передача событий (например, клики в мобильном приложении).
3. Прямая интеграция облаков
- Сервисы вроде Amazon Aurora → Redshift автоматически реплицируют данные, делая их готовыми к запросам без ручного вмешательства.
4. Работа с неструктурированными данными
- Zero ETL не требует жестких схем. Данные в форматах JSON, XML анализируются через schema-on-read (пример: анализ логов IoT-устройств в DynamoDB).
Эксперты спорят: если преобразования неявные, правильнее называть это Zero-EL или EL 2.0. Но суть не в названии, а в идее:
Zero ETL - это про непрерывный поток данных через CDC, стриминг и прямую интеграцию.
Как внедрить Zero ETL?
1. Выберите стек:
◦ CDC: Debezium, AWS DMS.
◦ Стриминг: Kafka, Kinesis.
◦ Интеграция: Aurora + Redshift, Snowflake Data Sharing.
2. Проверьте источники:
- Данные должны быть достаточно чистыми (или готовьтесь к schema-on-read).
3. Считайте стоимость:
- Репликация в реальном времени может удорожить инфраструктуру.
Подводные камни:
• Неявные трансформации = скрытые затраты: Запросы к «сырым» данным через schema-on-read могут замедлить аналитику.
• Риск хаоса: Если в источнике нет порядка, Zero ETL перенесет бардак в хранилище.
• Зависимость от вендоров: Интеграция Amazon Aurora → Redshift удобна, но привязывает к экосистеме AWS.
• Технический долг:
Слишком быстрое внедрение без продуманной архитектуры превратит Zero ETL в «паутину» несвязанных данных.
@data_whisperer
🔥2
🚀 Как dbt Labs построили бизнес за $4,2 млрд на базе консалтинга двух человек
Тристан Хэнди не собирался создавать компанию с многомиллиардной оценкой.
Всё началось в 2016 с маленького консалтингового проекта, где работали всего два человека. Но их решение одной боли изменило всё.
Секрет успеха? Инструмент dbt, который превратил сырые данные в ценную аналитику с помощью простого SQL. Никакого сложного кода - только то, что реально нужно аналитикам.
Как они это сделали:
✅ 4 года без внешних инвестиций - растили продукт, ориентируясь на пользователей.
✅ Завоевали 1,000+ компаний благодаря сарафанному радио.
✅ Ежегодный рост в 3 раза - без гонки за трендами.
dbt Labs не гнались за масштабом.
Они просто решали свои собственные проблемы так хорошо, что рынок сам «подтолкнул» их к росту.
Лишь после органичного успеха компания привлекла инвестиции, достигнув сегодняшней оценки в $4,2 млрд.
Вывод: Иногда достаточно создать то, что нужно вам самим. Если продукт решает проблему идеально - масштаб придет сам.
История о том, как два консультанта переросли в «единорога», не меняя DNA.
@data_whisperer
Тристан Хэнди не собирался создавать компанию с многомиллиардной оценкой.
Всё началось в 2016 с маленького консалтингового проекта, где работали всего два человека. Но их решение одной боли изменило всё.
Секрет успеха? Инструмент dbt, который превратил сырые данные в ценную аналитику с помощью простого SQL. Никакого сложного кода - только то, что реально нужно аналитикам.
Как они это сделали:
✅ 4 года без внешних инвестиций - растили продукт, ориентируясь на пользователей.
✅ Завоевали 1,000+ компаний благодаря сарафанному радио.
✅ Ежегодный рост в 3 раза - без гонки за трендами.
dbt Labs не гнались за масштабом.
Они просто решали свои собственные проблемы так хорошо, что рынок сам «подтолкнул» их к росту.
Лишь после органичного успеха компания привлекла инвестиции, достигнув сегодняшней оценки в $4,2 млрд.
Вывод: Иногда достаточно создать то, что нужно вам самим. Если продукт решает проблему идеально - масштаб придет сам.
История о том, как два консультанта переросли в «единорога», не меняя DNA.
@data_whisperer
First Round
How dbt Labs Built a $4.2B Software Business out of a Two-Person Consultancy
Tristan Handy, CEO and co-founder of dbt Labs, shares the unorthodox moves he made to transform a Philly-based consultancy into a billion-dollar SaaS powerhouse.
🔥3❤1👏1
🚀 SQLFlow: Мощный open-source движок для потоковой обработки данных!
Знакомьтесь с SQLFlow - лёгкой альтернативой Flink, которая использует DuckDB и Apache Arrow для высокопроизводительных SQL-пайплайнов.
Что умеет:
- Потоковая обработка данных полностью на SQL - просто и понятно.
- Чтение из Kafka, WebSockets и запись в PostgreSQL, Kafka, облачные хранилища (Parquet, Iceberg).
- Поддержка агрегаций по временным окнам, обогащения потоков и пользовательских функций (UDF).
- Обрабатывает десятки тысяч сообщений в секунду на одном сервере с минимальной нагрузкой на память.
🔗 Узнать больше: SQLFlow
@data_whisperer
Знакомьтесь с SQLFlow - лёгкой альтернативой Flink, которая использует DuckDB и Apache Arrow для высокопроизводительных SQL-пайплайнов.
Что умеет:
- Потоковая обработка данных полностью на SQL - просто и понятно.
- Чтение из Kafka, WebSockets и запись в PostgreSQL, Kafka, облачные хранилища (Parquet, Iceberg).
- Поддержка агрегаций по временным окнам, обогащения потоков и пользовательских функций (UDF).
- Обрабатывает десятки тысяч сообщений в секунду на одном сервере с минимальной нагрузкой на память.
🔗 Узнать больше: SQLFlow
@data_whisperer
GitHub
GitHub - turbolytics/sql-flow: DuckDB for streaming data
DuckDB for streaming data. Contribute to turbolytics/sql-flow development by creating an account on GitHub.
🔥3
From Data Engineer to YAML Engineer
Дата-инженерия всё чаще использует декларативные подходы, снижая необходимость написания кода при создании дата-пайплайнов.
Инструменты, такие как dlt для ingestion, SQLMesh для трансформации и Rill для BI, предлагают декларативные интерфейсы, упрощающие сложные рабочие процессы, но при этом допускают императивные настройки при необходимости.
Решения вроде Starlake объединяют ingest и трансформацию в едином декларативном фреймворке, повышая эффективность и согласованность операций на более длинных сегментах жизненного цикла данных.
Оригинальный пост
Дата-инженерия всё чаще использует декларативные подходы, снижая необходимость написания кода при создании дата-пайплайнов.
Инструменты, такие как dlt для ingestion, SQLMesh для трансформации и Rill для BI, предлагают декларативные интерфейсы, упрощающие сложные рабочие процессы, но при этом допускают императивные настройки при необходимости.
Решения вроде Starlake объединяют ingest и трансформацию в едином декларативном фреймворке, повышая эффективность и согласованность операций на более длинных сегментах жизненного цикла данных.
Оригинальный пост
🔥2😁1
Новые AI стали ошибаться чаще, чем их предшественники.
Недавно американская технологическая компания OpenAI представила новейшие большие языковые модели искусственного интеллекта, получившие названия o3 и o4-mini.
Однако, как показали тесты o3 и o4-mini, по-видимому, сделали значительный шаг назад: они склонны придумывать - или галлюцинировать - сильнее, чем их более ранние версии.
По данным издания TechCrunch, новые модели OpenAI противоречат исторической тенденции, согласно которой каждая новая модель давала все меньше галлюцинаций, чем предыдущая, что позволяет предположить, что OpenAI теперь движется в неверном направлении.
Согласно результатам внутреннего тестирования OpenAI, o3 и o4-mini склонны к галлюцинациям чаще, чем старые модели, включая o1, o1-mini и даже o3-mini. Модель o3 выдала 33% ошибок на тесте точности компании. Это примерно вдвое больше, чем у предыдущих моделей OpenAI. Тогда, как o4-mini показала еще более худший результат - 48%.
Хуже того, специалисты компании, похоже, не до конца понимают, причины проблем. Согласно их техническому отчету, необходимы дополнительные исследования, чтобы понять причину этих ошибок.
А вы замечали, что модели чаще стали выдавать не правильные ответы?
Недавно американская технологическая компания OpenAI представила новейшие большие языковые модели искусственного интеллекта, получившие названия o3 и o4-mini.
Однако, как показали тесты o3 и o4-mini, по-видимому, сделали значительный шаг назад: они склонны придумывать - или галлюцинировать - сильнее, чем их более ранние версии.
По данным издания TechCrunch, новые модели OpenAI противоречат исторической тенденции, согласно которой каждая новая модель давала все меньше галлюцинаций, чем предыдущая, что позволяет предположить, что OpenAI теперь движется в неверном направлении.
Согласно результатам внутреннего тестирования OpenAI, o3 и o4-mini склонны к галлюцинациям чаще, чем старые модели, включая o1, o1-mini и даже o3-mini. Модель o3 выдала 33% ошибок на тесте точности компании. Это примерно вдвое больше, чем у предыдущих моделей OpenAI. Тогда, как o4-mini показала еще более худший результат - 48%.
Хуже того, специалисты компании, похоже, не до конца понимают, причины проблем. Согласно их техническому отчету, необходимы дополнительные исследования, чтобы понять причину этих ошибок.
А вы замечали, что модели чаще стали выдавать не правильные ответы?
TechCrunch
OpenAI's new reasoning AI models hallucinate more | TechCrunch
OpenAI's reasoning AI models are getting better, but their hallucinating isn't, according to benchmark results.
❤6👏2
Vibe Coding: The Future of Programming
Искусственный интеллект трансформирует разработку программного обеспечения, переводя программистов от написания кода к совместной работе с ИИ в рамках интент-ориентированного подхода - это и есть vibe coding. Книга «Vibe Coding: Будущее программирования» исследует, как ИИ-ассистенты, такие как GitHub Copilot и OpenAI Codex, меняют процесс создания ПО, автоматизируя рутинные задачи программирования и влияя на архитектурные и дизайнерские решения.
Вот и книга по вайб-кодингу подъехала, термин только появился, а уже книги пишут.
Вайб-чтение:
Когда ты не читаешь книгу, LLM делает это за тебя, сохраняя знания в векторной базе данных.
Тем, кто увлечён вайб-кодингом, нет смысла читать эту книгу. Вы все можете сгенерировать эмбеддинги за пару шагов.
Искусственный интеллект трансформирует разработку программного обеспечения, переводя программистов от написания кода к совместной работе с ИИ в рамках интент-ориентированного подхода - это и есть vibe coding. Книга «Vibe Coding: Будущее программирования» исследует, как ИИ-ассистенты, такие как GitHub Copilot и OpenAI Codex, меняют процесс создания ПО, автоматизируя рутинные задачи программирования и влияя на архитектурные и дизайнерские решения.
Вот и книга по вайб-кодингу подъехала, термин только появился, а уже книги пишут.
Вайб-чтение:
Когда ты не читаешь книгу, LLM делает это за тебя, сохраняя знания в векторной базе данных.
Тем, кто увлечён вайб-кодингом, нет смысла читать эту книгу. Вы все можете сгенерировать эмбеддинги за пару шагов.
👍5
Forwarded from Тысяча фичей
YouTube
1. FORK ClickHouse: Мотивация и ClickBench.
Форкнули ClickHouse и сделали его быстрее.
Статья: https://maksimkita.com/blog/ursa-clickhouse-research-fork.html
Тула для измерения перформанса: https://github.com/kitaisreal/paw
#database #cplusplus #programming #sql #clickhouse
GH: https://gi…
Статья: https://maksimkita.com/blog/ursa-clickhouse-research-fork.html
Тула для измерения перформанса: https://github.com/kitaisreal/paw
#database #cplusplus #programming #sql #clickhouse
GH: https://gi…
🔥7👍1
MCP-серверы: Будущее интеграции структурированных данных с ИИ
Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.
Новости от лидеров индустрии:
- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.
- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!
MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.
@data_whisperer
Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.
Новости от лидеров индустрии:
- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.
- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!
MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.
@data_whisperer
Getdbt
Introducing the dbt MCP Server – Bringing Structured Data to AI Workflows and Agents | dbt Developer Blog
We’re open‑sourcing an experimental dbt MCP server so LLMs and agents can discover, query, and run your dbt project.
👍5
Change Data Capture (CDC) Playground
Слышали про CDC но так и не разобрались, как эта технология работает?
Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.
@data_whisperer
Слышали про CDC но так и не разобрались, как эта технология работает?
Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.
@data_whisperer
🔥8🫡2⚡1👍1
Apache Iceberg Format Version 3: Что нового?
Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.
Ключевые новшества:
Новые типы данных:
-
-
-
-
Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!
Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.
Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.
Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.
Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.
🔗 Подробнее тут
Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.
Ключевые новшества:
Новые типы данных:
-
timestamp с поддержкой часовых поясов (наносекундная точность) -
variant для полуструктурированных данных (аналог JSON) -
geometry и geography для геопространственной аналитики -
unknown для динамических схем Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!
Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.
Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.
Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.
Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.
🔗 Подробнее тут
Dremio
What’s New in Apache Iceberg Format Version 3? | Dremio
Explore what Apache Iceberg V3 brings with support for new data types, schema evolution controls and high-performance scalability at scale.
👍7⚡2❤2
Что такое MCP и почему это прорыв для LLM и агентов?
Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!
MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.
Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).
Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!
Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.
MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.
А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.
@data_whisperer
Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!
MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.
Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).
Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!
Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.
MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.
А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.
@data_whisperer
👍5
Запутались в зоопарке AI-технологий? Ловите гайд для старта!
Как и всегда, теорию нужно совмещать с практикой!
📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.
Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.
🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!
Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.
P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет
@data_whisperer
Как и всегда, теорию нужно совмещать с практикой!
📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.
Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.
🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!
Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.
P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет
@data_whisperer
Anthropic
AI Learning Resources & Guides from Anthropic
Access comprehensive guides, tutorials, and best practices for working with Claude. Learn how to craft effective prompts and maximize AI interactions in your workflow.
⚡5🔥2❤1
MLOps Zoomcamp 2025
Сегодня начался MLOps Zoomcamp.
Вводное видео уже на YouTube.
Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!
Репозиторий курса.
@data_whisperer
Сегодня начался MLOps Zoomcamp.
Вводное видео уже на YouTube.
Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!
Репозиторий курса.
@data_whisperer
⚡3
📚 Хочешь прокачать скиллы в программировании?
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?
Присоединяйся к @neLenkin_bot!
В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое
Не откладывай -стань частью комьюнити и начни учиться уже сегодня!
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?
Присоединяйся к @neLenkin_bot!
В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое
Не откладывай -стань частью комьюнити и начни учиться уже сегодня!
👍6❤2
Void - альтернатива Cursor
Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.
Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.
GitHub
GitHub - voideditor/void
Contribute to voideditor/void development by creating an account on GitHub.
👍4🤣1
Еще одна замечательная книга, которую будем разыгрывать.
The Missing Readmi.
Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.
Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.
А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас
The Missing Readmi.
Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.
Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.
А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас
🔥8