5 minutes of data
1.89K subscribers
187 photos
4 videos
2 files
508 links
I’m making my life less dull by spending time learning and researching “how it works“ in the data engineering field.

Интерактивный учебник SQL
https://querynomic.one/#/

по всем вопросам @just_vanich
Download Telegram
Zero ETL: революция в работе с данными или просто хайп?

Сегодня разберемся с модным термином Zero ETL - что это на самом деле, а чем точно не является.

Zero ETL - это подход, который автоматизирует интеграцию данных на лету. Данные из разных источников (например, SaaS-приложений, IoT-устройств) сразу доступны для анализа без промежуточных шагов. Представьте: данные из Figma или Salesforce автоматически синхронизируются с вашим облачным хранилищем.

Zero ETL ≠ EL: В чем разница?
На первый взгляд, Zero ETL похож на EL (Extract & Load), где данные просто копируются без преобразований. Но есть нюансы:

1. Скрытые трансформации
- Zero ETL не требует явного этапа преобразований, но они происходят «под капотом»:
◦ Schema-on-Read: Данные адаптируются под схему при запросе (например, Parquet/JSON в Amazon S3).
◦ Федеративные запросы: Система объединяет данные из разных источников на лету (как AWS Athena).
◦ In-Place Analytics: Анализ данных прямо в источнике (например, Snowflake без копирования).

2. Поток данных в реальном времени
- EL работает с периодическими выгрузками (раз в день/час), а Zero ETL использует:
◦ CDC (Change Data Capture): Отслеживает изменения в источниках (PostgreSQL → Kafka).
◦ Стриминг (Kinesis, Kafka): Мгновенная передача событий (например, клики в мобильном приложении).

3. Прямая интеграция облаков
- Сервисы вроде Amazon Aurora → Redshift автоматически реплицируют данные, делая их готовыми к запросам без ручного вмешательства.

4. Работа с неструктурированными данными
- Zero ETL не требует жестких схем. Данные в форматах JSON, XML анализируются через schema-on-read (пример: анализ логов IoT-устройств в DynamoDB).

Эксперты спорят: если преобразования неявные, правильнее называть это Zero-EL или EL 2.0. Но суть не в названии, а в идее:

Zero ETL - это про непрерывный поток данных через CDC, стриминг и прямую интеграцию.


Как внедрить Zero ETL?
1. Выберите стек:
◦ CDC: Debezium, AWS DMS.
◦ Стриминг: Kafka, Kinesis.
◦ Интеграция: Aurora + Redshift, Snowflake Data Sharing.

2. Проверьте источники:
- Данные должны быть достаточно чистыми (или готовьтесь к schema-on-read).

3. Считайте стоимость:
- Репликация в реальном времени может удорожить инфраструктуру.

Подводные камни:

• Неявные трансформации = скрытые затраты: Запросы к «сырым» данным через schema-on-read могут замедлить аналитику.
• Риск хаоса: Если в источнике нет порядка, Zero ETL перенесет бардак в хранилище.
• Зависимость от вендоров: Интеграция Amazon Aurora → Redshift удобна, но привязывает к экосистеме AWS.
• Технический долг:
Слишком быстрое внедрение без продуманной архитектуры превратит Zero ETL в «паутину» несвязанных данных.

@data_whisperer
🔥2
🚀 Как dbt Labs построили бизнес за $4,2 млрд на базе консалтинга двух человек

Тристан Хэнди не собирался создавать компанию с многомиллиардной оценкой.
Всё началось в 2016 с маленького консалтингового проекта, где работали всего два человека. Но их решение одной боли изменило всё.
Секрет успеха? Инструмент dbt, который превратил сырые данные в ценную аналитику с помощью простого SQL. Никакого сложного кода - только то, что реально нужно аналитикам.

Как они это сделали:
4 года без внешних инвестиций - растили продукт, ориентируясь на пользователей.
Завоевали 1,000+ компаний благодаря сарафанному радио.
Ежегодный рост в 3 раза - без гонки за трендами.

dbt Labs не гнались за масштабом.
Они просто решали свои собственные проблемы так хорошо, что рынок сам «подтолкнул» их к росту.
Лишь после органичного успеха компания привлекла инвестиции, достигнув сегодняшней оценки в $4,2 млрд.

Вывод: Иногда достаточно создать то, что нужно вам самим. Если продукт решает проблему идеально - масштаб придет сам.
История о том, как два консультанта переросли в «единорога», не меняя DNA.

@data_whisperer
🔥31👏1
🚀 SQLFlow: Мощный open-source движок для потоковой обработки данных!

Знакомьтесь с SQLFlow - лёгкой альтернативой Flink, которая использует DuckDB и Apache Arrow для высокопроизводительных SQL-пайплайнов.

Что умеет:
- Потоковая обработка данных полностью на SQL - просто и понятно.

- Чтение из Kafka, WebSockets и запись в PostgreSQL, Kafka, облачные хранилища (Parquet, Iceberg).

- Поддержка агрегаций по временным окнам, обогащения потоков и пользовательских функций (UDF).

- Обрабатывает десятки тысяч сообщений в секунду на одном сервере с минимальной нагрузкой на память.

🔗 Узнать больше: SQLFlow

@data_whisperer
🔥3
From Data Engineer to YAML Engineer

Дата-инженерия всё чаще использует декларативные подходы, снижая необходимость написания кода при создании дата-пайплайнов.

Инструменты, такие как dlt для ingestion, SQLMesh для трансформации и Rill для BI, предлагают декларативные интерфейсы, упрощающие сложные рабочие процессы, но при этом допускают императивные настройки при необходимости.

Решения вроде Starlake объединяют ingest и трансформацию в едином декларативном фреймворке, повышая эффективность и согласованность операций на более длинных сегментах жизненного цикла данных.

Оригинальный пост
🔥2😁1
Новые AI стали ошибаться чаще, чем их предшественники.

Недавно американская технологическая компания OpenAI представила новейшие большие языковые модели искусственного интеллекта, получившие названия o3 и o4-mini.

Однако, как показали тесты o3 и o4-mini, по-видимому, сделали значительный шаг назад: они склонны придумывать - или галлюцинировать - сильнее, чем их более ранние версии.

По данным издания TechCrunch, новые модели OpenAI противоречат исторической тенденции, согласно которой каждая новая модель давала все меньше галлюцинаций, чем предыдущая, что позволяет предположить, что OpenAI теперь движется в неверном направлении.

Согласно результатам внутреннего тестирования OpenAI, o3 и o4-mini склонны к галлюцинациям чаще, чем старые модели, включая o1, o1-mini и даже o3-mini. Модель o3 выдала 33% ошибок на тесте точности компании. Это примерно вдвое больше, чем у предыдущих моделей OpenAI. Тогда, как o4-mini показала еще более худший результат - 48%.

Хуже того, специалисты компании, похоже, не до конца понимают, причины проблем. Согласно их техническому отчету, необходимы дополнительные исследования, чтобы понять причину этих ошибок.

А вы замечали, что модели чаще стали выдавать не правильные ответы?
6👏2
Vibe Coding: The Future of Programming

Искусственный интеллект трансформирует разработку программного обеспечения, переводя программистов от написания кода к совместной работе с ИИ в рамках интент-ориентированного подхода - это и есть vibe coding. Книга «Vibe Coding: Будущее программирования» исследует, как ИИ-ассистенты, такие как GitHub Copilot и OpenAI Codex, меняют процесс создания ПО, автоматизируя рутинные задачи программирования и влияя на архитектурные и дизайнерские решения.

Вот и книга по вайб-кодингу подъехала, термин только появился, а уже книги пишут.

Вайб-чтение:
Когда ты не читаешь книгу, LLM делает это за тебя, сохраняя знания в векторной базе данных.

Тем, кто увлечён вайб-кодингом, нет смысла читать эту книгу. Вы все можете сгенерировать эмбеддинги за пару шагов.
👍5
MCP-серверы: Будущее интеграции структурированных данных с ИИ

Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.

Новости от лидеров индустрии:

- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.

- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!

MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.

@data_whisperer
👍5
Change Data Capture (CDC) Playground

Слышали про CDC но так и не разобрались, как эта технология работает?

Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.

@data_whisperer
🔥8🫡21👍1
Apache Iceberg Format Version 3: Что нового?

Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.

Ключевые новшества:

Новые типы данных:
- timestamp с поддержкой часовых поясов (наносекундная точность)
- variant для полуструктурированных данных (аналог JSON)
- geometry и geography для геопространственной аналитики
- unknown для динамических схем

Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!

Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.

Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.

Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.

Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.

🔗 Подробнее тут
👍722
Что такое MCP и почему это прорыв для LLM и агентов?

Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!

MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.

Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).

Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!

Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.

MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.

А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.

@data_whisperer
👍5
Запутались в зоопарке AI-технологий? Ловите гайд для старта!

Как и всегда, теорию нужно совмещать с практикой!

📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.

Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.

🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!

Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.

P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет

@data_whisperer
5🔥21
MLOps Zoomcamp 2025

Сегодня начался MLOps Zoomcamp.

Вводное видео уже на YouTube.

Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!

Репозиторий курса.

@data_whisperer
3
📚 Хочешь прокачать скиллы в программировании?
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?

Присоединяйся к @neLenkin_bot!

В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое

Не откладывай -стань частью комьюнити и начни учиться уже сегодня!
👍62
Void - альтернатива Cursor

Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.
👍4🤣1
Еще одна замечательная книга, которую будем разыгрывать.
The Missing Readmi.

Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.

Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.

А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас
🔥8
HelixDB - это высокопроизводительная графо-векторная база данных с открытым исходным кодом, написанная на Rust, разработанная для приложений RAG и ИИ. Она объединяет хранение графовых и векторных данных, используя LMDB для обеспечения персистентности данных и соответствия ACID.

Код на GitHub
🏆1
Просто замечательный пост

CyberArk делится опытом создания внутренних инструментов для более чем 1000 разработчиков, подчеркивая важность подхода к внутренним инструментам как к продуктам с настоящими пользователями.
🏆1
Motion

ранее использовала CockroachDB из-за её масштабируемости, но недавно перешла на Postgres из-за растущих затрат и проблем с производительностью. Конфигурация с одним регионом не позволяла полностью использовать распределённые возможности CockroachDB. Миграция решила проблемы с таймаутами миграций Prisma, медленными процессами ETL и нестабильной скоростью запросов, где планировщик запросов CockroachDB часто показывал более низкую производительность, чем Postgres. Для миграции данных была разработана кастомная ETL-система с использованием Bun.
🏆1
Какой неудачный ход. Ускорение CPython принесло бы дивиденды.