5 minutes of data – Telegram

5 minutes of data

@five_minutes_of_data

1.89K subscribers

189 photos

4 videos

2 files

509 links

I’m making my life less dull by spending time learning and researching “how it works“ in the data engineering field.

Интерактивный учебник SQL
https://querynomic.one/#/

по всем вопросам @just_vanich

Download Telegram

About

Blog

Apps

Platform

5 minutes of data

1.89K subscribers

5 minutes of data

Инженерия данных утопает в маркетинговом бреде!

На luminousmen.com - вышел потрясающий разбор, все те мысли, которые были у меня в голове, но не получалось выразить одним постом:

Data Fabric, Medallion Architecture и прочие "гениальные" новинки - это реальный прорыв или старое блюдо под новым соусом?

Автор безжалостно рвёт глянец с хайповых терминов, объясняя, почему Data Fabric - лишь красивая обёртка для метаданных и виртуализации, а Medallion (Bronze-Silver-Gold) - просто переименованный Data Warehouse.
Что Zero ETL ≠ Zero Engineering, он не устраняет необходимость в разработке - он просто переносит рабочую нагрузку в другое место.

Никакие "революции" не спасут от рутины очистки данных и интеграционных головняков. Хватит верить в сказки, пора копать в суть!

👉 Читай, злись, спорь: ссылка на статью

Blog | iamluminousmen

Data Engineering: Now with 30% More Bullshit

Discover the truth behind Data Engineering's buzzwords! Uncover the reality of Data Fabric, Medallion Architecture, Zero ETL, and the Modern Data Stack. Tools don't solve problems—craftsmanship does.

👍7😁1

1.06K views07:02

5 minutes of data

⚔️ SQL: Общий язык технологий

В мире технологий есть один язык, который мы все понимаем - SQL. Независимо от вашей роли, этот навык объединяет нас всех.

✦ Data Scientist – Запрашивает данные для построения предсказательных моделей.
✦ Data Engineer – Перемещает и преобразует данные с помощью SQL-пайплайнов.
✦ AI/ML Engineer – Использует SQL для подготовки чистых наборов данных для обучения.
✦ Cybersecurity Analyst – Анализирует логи и угрозы, хранящиеся в базах данных.
✦ Cloud Engineer – Управляет облачными базами данных с помощью SQL.
✦ BI Analyst – Переводит бизнес-потребности в отчёты на основе данных.
✦ Full Stack Developer – Связывает приложения с базами данных через SQL-запросы.
✦ ETL Developer – Извлекает, преобразует и загружает данные с помощью SQL.
✦ Software Engineer – Создаёт серверную логику с использованием SQL-баз.
✦ Data Analyst – Раскрывает инсайты с помощью сложных запросов.
✦ Database Administrator – Мастер производительности, хранения и контроля доступа.

🔗 SQL - это не опция, это необходимость.
Учи его. Используй его. Стань мастером.

@data_whisperer

👍4🔥4😱2

855 views07:36

5 minutes of data

📊 Рейтинг Data Engine 2025: Выбираем лучший движок для данных!

Выбрать идеальный движок для аналитики, ML или потоковой обработки в 2025 - задача не из лёгких. Наткнулся на 3 три свежие статьи с глубоким сравнением от экспертов, чтобы помочь вам принять осознанное решение!

Статья не даёт прямых бенчмарков, но подробно описывает сценарии использования, плюсы и минусы каждого движка.

Бонус: разбор архитектур и базовых концепций, которые помогут понять, как движки работают "под капотом".

Вот краткий обзор.

🏆 Рейтинг 2025:
- Аналитика: StarRocks 🥇 > ClickHouse > Presto > Trino > Spark
- ML: Ray 🥇 > Spark > Dask
- Потоковая обработка: Flink 🥇 > Spark > Kafka Streams

- StarRocks бьёт рекорды по скорости аналитики, ClickHouse радует производительностью и простотой.

- Presto и Trino — короли SQL-запросов, но с разными подходами к масштабированию.

- Spark универсален, но может уступать в специализированных задачах.

- Ray - звезда ML, идеально интегрируется с TensorFlow и PyTorch.

- Dask - must-have для Python-фанатов в экосистеме Pandas.

- Flink доминирует в потоках с низкой задержкой, Kafka Streams хорош для экосистемы Kafka, а Spark Streaming - для тех, кто хочет унификации.

- Ray vs Spark vs Dask: Какой движок для ML выбрать?

- StarRocks vs ClickHouse vs Presto vs Trino vs Spark: Битва аналитических движков

- Flink vs Spark vs Kafka Streams: Потоковая обработка под микроскопом

@data_whisperer

www.onehouse.ai

Ray vs Dask vs Apache Spark™ — Comparing Data Science & Machine Learning Engines

Discover how Apache Spark™, Ray, and Dask compare for a wide variety of data science, AI, and machine learning workloads and use cases.

👍5🫡1

1.2K views07:59

5 minutes of data

5 minutes of data

Всем привет 👋 Решил провести такое необычное мероприятие, провести розыгрыш книги. Начинаем с легенды Fundamentals of Data engineerings в бумажном варианте. Просто нажмите участвую и результаты узнаем через неделю 🎉

🎉 Результаты розыгрыша:

🏆 Победитель:
1. Mark (@mark_petrov)

✔️

Проверить результаты

Please open Telegram to view this post

VIEW IN TELEGRAM

924 views10:17

5 minutes of data

Apache Airflow 3.0

Релиз Airflow 3.0 уже обсудили в каждом уголке интернета, так что без лишних деталей. Что мне было интересно - реакция сообщества на Reddit!

Что говорят:
- Многие считают, что Airflow 3.0 просто “переизобрёл” Dagster:

Sooo… they reinvented Dagster

If I wanted a Dagster I would have gotten Dagster

- Новый UI - красивый, но вопросы к деплою остаются. Будет ли так же больно, как раньше? 😅
- Как сложно будет экспортировать метрики в ту же Grafana?

- Service-oriented architecture: деплоите только нужные сервисы. Круто, но…
- Обновление с 2.* на 3.0 - не просто апгрейд, а фактически новый сервис с нуля. Готовьтесь к приключениям!

Вообщем вот такие дела.
🔗 Читать обсуждение на Reddit

@data_whisperer

😁3

833 views07:06

5 minutes of data

Zero ETL: революция в работе с данными или просто хайп?

Сегодня разберемся с модным термином Zero ETL - что это на самом деле, а чем точно не является.

Zero ETL - это подход, который автоматизирует интеграцию данных на лету. Данные из разных источников (например, SaaS-приложений, IoT-устройств) сразу доступны для анализа без промежуточных шагов. Представьте: данные из Figma или Salesforce автоматически синхронизируются с вашим облачным хранилищем.

Zero ETL ≠ EL: В чем разница?
На первый взгляд, Zero ETL похож на EL (Extract & Load), где данные просто копируются без преобразований. Но есть нюансы:

1. Скрытые трансформации
- Zero ETL не требует явного этапа преобразований, но они происходят «под капотом»:
◦ Schema-on-Read: Данные адаптируются под схему при запросе (например, Parquet/JSON в Amazon S3).
◦ Федеративные запросы: Система объединяет данные из разных источников на лету (как AWS Athena).
◦ In-Place Analytics: Анализ данных прямо в источнике (например, Snowflake без копирования).

2. Поток данных в реальном времени
- EL работает с периодическими выгрузками (раз в день/час), а Zero ETL использует:
◦ CDC (Change Data Capture): Отслеживает изменения в источниках (PostgreSQL → Kafka).
◦ Стриминг (Kinesis, Kafka): Мгновенная передача событий (например, клики в мобильном приложении).

3. Прямая интеграция облаков
- Сервисы вроде Amazon Aurora → Redshift автоматически реплицируют данные, делая их готовыми к запросам без ручного вмешательства.

4. Работа с неструктурированными данными
- Zero ETL не требует жестких схем. Данные в форматах JSON, XML анализируются через schema-on-read (пример: анализ логов IoT-устройств в DynamoDB).

Эксперты спорят: если преобразования неявные, правильнее называть это Zero-EL или EL 2.0. Но суть не в названии, а в идее:

Zero ETL - это про непрерывный поток данных через CDC, стриминг и прямую интеграцию.

Как внедрить Zero ETL?
1. Выберите стек:
◦ CDC: Debezium, AWS DMS.
◦ Стриминг: Kafka, Kinesis.
◦ Интеграция: Aurora + Redshift, Snowflake Data Sharing.

2. Проверьте источники:
- Данные должны быть достаточно чистыми (или готовьтесь к schema-on-read).

3. Считайте стоимость:
- Репликация в реальном времени может удорожить инфраструктуру.

Подводные камни:

• Неявные трансформации = скрытые затраты: Запросы к «сырым» данным через schema-on-read могут замедлить аналитику.
• Риск хаоса: Если в источнике нет порядка, Zero ETL перенесет бардак в хранилище.
• Зависимость от вендоров: Интеграция Amazon Aurora → Redshift удобна, но привязывает к экосистеме AWS.
• Технический долг:
Слишком быстрое внедрение без продуманной архитектуры превратит Zero ETL в «паутину» несвязанных данных.

@data_whisperer

🔥2

812 viewsedited 14:20

5 minutes of data

🚀 Как dbt Labs построили бизнес за $4,2 млрд на базе консалтинга двух человек

Тристан Хэнди не собирался создавать компанию с многомиллиардной оценкой.
Всё началось в 2016 с маленького консалтингового проекта, где работали всего два человека. Но их решение одной боли изменило всё.
Секрет успеха? Инструмент dbt, который превратил сырые данные в ценную аналитику с помощью простого SQL. Никакого сложного кода - только то, что реально нужно аналитикам.

Как они это сделали:
✅ 4 года без внешних инвестиций - растили продукт, ориентируясь на пользователей.
✅ Завоевали 1,000+ компаний благодаря сарафанному радио.
✅ Ежегодный рост в 3 раза - без гонки за трендами.

dbt Labs не гнались за масштабом.
Они просто решали свои собственные проблемы так хорошо, что рынок сам «подтолкнул» их к росту.
Лишь после органичного успеха компания привлекла инвестиции, достигнув сегодняшней оценки в $4,2 млрд.

Вывод: Иногда достаточно создать то, что нужно вам самим. Если продукт решает проблему идеально - масштаб придет сам.
История о том, как два консультанта переросли в «единорога», не меняя DNA.

@data_whisperer

How dbt Labs Built a $4.2B Software Business out of a Two-Person Consultancy

Tristan Handy, CEO and co-founder of dbt Labs, shares the unorthodox moves he made to transform a Philly-based consultancy into a billion-dollar SaaS powerhouse.

🔥3❤1👏1

838 views14:47

5 minutes of data

🚀 SQLFlow: Мощный open-source движок для потоковой обработки данных!

Знакомьтесь с SQLFlow - лёгкой альтернативой Flink, которая использует DuckDB и Apache Arrow для высокопроизводительных SQL-пайплайнов.

Что умеет:
- Потоковая обработка данных полностью на SQL - просто и понятно.

- Чтение из Kafka, WebSockets и запись в PostgreSQL, Kafka, облачные хранилища (Parquet, Iceberg).

- Поддержка агрегаций по временным окнам, обогащения потоков и пользовательских функций (UDF).

- Обрабатывает десятки тысяч сообщений в секунду на одном сервере с минимальной нагрузкой на память.

🔗 Узнать больше: SQLFlow

@data_whisperer

GitHub - turbolytics/sql-flow: DuckDB for streaming data

DuckDB for streaming data. Contribute to turbolytics/sql-flow development by creating an account on GitHub.

🔥3

929 viewsedited 12:32

5 minutes of data

From Data Engineer to YAML Engineer

Дата-инженерия всё чаще использует декларативные подходы, снижая необходимость написания кода при создании дата-пайплайнов.

Инструменты, такие как dlt для ingestion, SQLMesh для трансформации и Rill для BI, предлагают декларативные интерфейсы, упрощающие сложные рабочие процессы, но при этом допускают императивные настройки при необходимости.

Решения вроде Starlake объединяют ingest и трансформацию в едином декларативном фреймворке, повышая эффективность и согласованность операций на более длинных сегментах жизненного цикла данных.

Оригинальный пост

🔥2😁1

889 views15:10

5 minutes of data

Новые AI стали ошибаться чаще, чем их предшественники.

Недавно американская технологическая компания OpenAI представила новейшие большие языковые модели искусственного интеллекта, получившие названия o3 и o4-mini.

Однако, как показали тесты o3 и o4-mini, по-видимому, сделали значительный шаг назад: они склонны придумывать - или галлюцинировать - сильнее, чем их более ранние версии.

По данным издания TechCrunch, новые модели OpenAI противоречат исторической тенденции, согласно которой каждая новая модель давала все меньше галлюцинаций, чем предыдущая, что позволяет предположить, что OpenAI теперь движется в неверном направлении.

Согласно результатам внутреннего тестирования OpenAI, o3 и o4-mini склонны к галлюцинациям чаще, чем старые модели, включая o1, o1-mini и даже o3-mini. Модель o3 выдала 33% ошибок на тесте точности компании. Это примерно вдвое больше, чем у предыдущих моделей OpenAI. Тогда, как o4-mini показала еще более худший результат - 48%.

Хуже того, специалисты компании, похоже, не до конца понимают, причины проблем. Согласно их техническому отчету, необходимы дополнительные исследования, чтобы понять причину этих ошибок.

А вы замечали, что модели чаще стали выдавать не правильные ответы?

OpenAI's new reasoning AI models hallucinate more | TechCrunch

OpenAI's reasoning AI models are getting better, but their hallucinating isn't, according to benchmark results.

❤6👏2

933 viewsedited 07:08

5 minutes of data

Vibe Coding: The Future of Programming

Искусственный интеллект трансформирует разработку программного обеспечения, переводя программистов от написания кода к совместной работе с ИИ в рамках интент-ориентированного подхода - это и есть vibe coding. Книга «Vibe Coding: Будущее программирования» исследует, как ИИ-ассистенты, такие как GitHub Copilot и OpenAI Codex, меняют процесс создания ПО, автоматизируя рутинные задачи программирования и влияя на архитектурные и дизайнерские решения.

Вот и книга по вайб-кодингу подъехала, термин только появился, а уже книги пишут.

Вайб-чтение:
Когда ты не читаешь книгу, LLM делает это за тебя, сохраняя знания в векторной базе данных.

Тем, кто увлечён вайб-кодингом, нет смысла читать эту книгу. Вы все можете сгенерировать эмбеддинги за пару шагов.

👍5

1.05K viewsedited 14:58

5 minutes of data

Forwarded from Тысяча фичей

На YouTube вышел первый видос из серии про форк ClickHouse -- URSA.

https://youtu.be/6ar4MCBOJhk

1. FORK ClickHouse: Мотивация и ClickBench.

Форкнули ClickHouse и сделали его быстрее.

Статья: https://maksimkita.com/blog/ursa-clickhouse-research-fork.html

Тула для измерения перформанса: https://github.com/kitaisreal/paw

#database #cplusplus #programming #sql #clickhouse

GH: https://gi…

🔥7👍1

822 views12:28

5 minutes of data

MCP-серверы: Будущее интеграции структурированных данных с ИИ

Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.

Новости от лидеров индустрии:

- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.

- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!

MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.

@data_whisperer

Introducing the dbt MCP Server – Bringing Structured Data to AI Workflows and Agents | dbt Developer Blog

We’re open‑sourcing an experimental dbt MCP server so LLMs and agents can discover, query, and run your dbt project.

👍5

1.99K views18:28

5 minutes of data

Change Data Capture (CDC) Playground

Слышали про CDC но так и не разобрались, как эта технология работает?

Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.

@data_whisperer

🔥8🫡2⚡1👍1

1.49K views07:02

5 minutes of data

Apache Iceberg Format Version 3: Что нового?

Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.

Ключевые новшества:

Новые типы данных:
- timestamp с поддержкой часовых поясов (наносекундная точность)
- variant для полуструктурированных данных (аналог JSON)
- geometry и geography для геопространственной аналитики
- unknown для динамических схем

Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!

Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.

Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.

Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.

Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.

🔗 Подробнее тут

What’s New in Apache Iceberg Format Version 3? | Dremio

Explore what Apache Iceberg V3 brings with support for new data types, schema evolution controls and high-performance scalability at scale.

👍7⚡2❤2

1.03K views08:27

5 minutes of data

Что такое MCP и почему это прорыв для LLM и агентов?

Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!

MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.

Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).

Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!

Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.

MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.

А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.

@data_whisperer

👍5

928 viewsedited 17:01

5 minutes of data

Запутались в зоопарке AI-технологий? Ловите гайд для старта!

Как и всегда, теорию нужно совмещать с практикой!

📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.

Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.

🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!

Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.

P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет

@data_whisperer

AI Learning Resources & Guides from Anthropic

Access comprehensive guides, tutorials, and best practices for working with Claude. Learn how to craft effective prompts and maximize AI interactions in your workflow.

⚡5🔥2❤1

1.09K views07:03

5 minutes of data

MLOps Zoomcamp 2025

Сегодня начался MLOps Zoomcamp.

Вводное видео уже на YouTube.

Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!

Репозиторий курса.

@data_whisperer

⚡3

1.26K viewsedited 16:14

5 minutes of data

📚 Хочешь прокачать скиллы в программировании?
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?

Присоединяйся к @neLenkin_bot!

В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое

Не откладывай -стань частью комьюнити и начни учиться уже сегодня!

👍6❤2

1.43K views17:52

5 minutes of data

Void - альтернатива Cursor

Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.

GitHub - voideditor/void

Contribute to voideditor/void development by creating an account on GitHub.

👍4🤣1

1.12K views16:22

5 minutes of data

Еще одна замечательная книга, которую будем разыгрывать.
The Missing Readmi.

Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.

Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.

А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас

🔥8

859 views17:46

Участвовать (35)