5 minutes of data
1.89K subscribers
189 photos
4 videos
2 files
509 links
I’m making my life less dull by spending time learning and researching “how it works“ in the data engineering field.

Интерактивный учебник SQL
https://querynomic.one/#/

по всем вопросам @just_vanich
Download Telegram
MCP-серверы: Будущее интеграции структурированных данных с ИИ

Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.

Новости от лидеров индустрии:

- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.

- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!

MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.

@data_whisperer
👍5
Change Data Capture (CDC) Playground

Слышали про CDC но так и не разобрались, как эта технология работает?

Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.

@data_whisperer
🔥8🫡21👍1
Apache Iceberg Format Version 3: Что нового?

Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.

Ключевые новшества:

Новые типы данных:
- timestamp с поддержкой часовых поясов (наносекундная точность)
- variant для полуструктурированных данных (аналог JSON)
- geometry и geography для геопространственной аналитики
- unknown для динамических схем

Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!

Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.

Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.

Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.

Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.

🔗 Подробнее тут
👍722
Что такое MCP и почему это прорыв для LLM и агентов?

Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!

MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.

Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).

Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!

Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.

MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.

А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.

@data_whisperer
👍5
Запутались в зоопарке AI-технологий? Ловите гайд для старта!

Как и всегда, теорию нужно совмещать с практикой!

📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.

Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.

🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!

Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.

P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет

@data_whisperer
5🔥21
MLOps Zoomcamp 2025

Сегодня начался MLOps Zoomcamp.

Вводное видео уже на YouTube.

Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!

Репозиторий курса.

@data_whisperer
3
📚 Хочешь прокачать скиллы в программировании?
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?

Присоединяйся к @neLenkin_bot!

В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое

Не откладывай -стань частью комьюнити и начни учиться уже сегодня!
👍62
Void - альтернатива Cursor

Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.
👍4🤣1
Еще одна замечательная книга, которую будем разыгрывать.
The Missing Readmi.

Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.

Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.

А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас
🔥8
HelixDB - это высокопроизводительная графо-векторная база данных с открытым исходным кодом, написанная на Rust, разработанная для приложений RAG и ИИ. Она объединяет хранение графовых и векторных данных, используя LMDB для обеспечения персистентности данных и соответствия ACID.

Код на GitHub
🏆1
Просто замечательный пост

CyberArk делится опытом создания внутренних инструментов для более чем 1000 разработчиков, подчеркивая важность подхода к внутренним инструментам как к продуктам с настоящими пользователями.
🏆1
Motion

ранее использовала CockroachDB из-за её масштабируемости, но недавно перешла на Postgres из-за растущих затрат и проблем с производительностью. Конфигурация с одним регионом не позволяла полностью использовать распределённые возможности CockroachDB. Миграция решила проблемы с таймаутами миграций Prisma, медленными процессами ETL и нестабильной скоростью запросов, где планировщик запросов CockroachDB часто показывал более низкую производительность, чем Postgres. Для миграции данных была разработана кастомная ETL-система с использованием Bun.
🏆1
Какой неудачный ход. Ускорение CPython принесло бы дивиденды.
Неужели знание Python больше не обязательно, чтобы называть себя инженером данных?

Я работаю инженером данных уже чуть больше 4 лет и считаю себя уверенным в Python. На прошлой неделе я помогал проводить собеседования на ещё одну позицию инженера данных в нашей компании — и, поверите или нет, ни один кандидат не умел писать на Python, хотя это явно указано в описании вакансии. Кроме Python, большинство из них (за исключением одного совсем слабого кандидата) могли говорить о технологиях, ELT против ETL, инструментах вроде dbt, Glue, SQL Server и т. д., но ни один не смог написать код на Python.

Ещё более безумно то, что ВСЕ они оценили свои навыки Python от 5 до 8 (да, последний даже сказал, что он на 8). А потом, когда мы дошли до части с лайвкодинг, они буквально не могли написать ни одной строки. Я понимаю, что кодирование вживую может пугать, но, боже мой, неужели нельзя написать хотя бы ОДНУ связную строку кода при уровне 8/10? Я просто не понимаю, зачем они это делают — неужели они думают, что мы не попросим их доказать это, когда они так высоко себя оценивают?

Что здесь происходит??
Взято с Reddit

Upd: Тоже иногда присутствую на собеседованиях и ситуация аналогична той, что описывает автор.

А как вы думаете на каком уровне нужно знать Python для Data engineer?

@data_whisperer
🤔3👏1🤯1
пятничное
😁22
MCP (Model Context Protocol) — это открытый стандарт, упрощающий взаимодействие ИИ-моделей, особенно LLM, с внешними источниками данных, инструментами и сервисами. MCP-сервер выступает мостом между ИИ-моделями и внешними инструментами.

Вот список лучших MCP-серверов:

- File System MCP Server
Позволяет LLM напрямую работать с локальной файловой системой: читать, записывать и создавать директории.

- GitHub MCP Server
Подключает Claude к репозиториям GitHub, позволяя обновлять файлы и искать код.

- Slack MCP Server
MCP-сервер для API Slack, позволяющий Claude взаимодействовать с рабочими пространствами Slack.

- Google Maps MCP Server
MCP-сервер для API Google Maps.

- Docker MCP Server
Интеграция с Docker для управления контейнерами, образами, томами и сетями.

- Brave MCP Server
Веб- и локальный поиск через API поиска Brave.

- PostgreSQL MCP Server
MCP-сервер, позволяющий LLM изучать схемы баз данных и выполнять запросы только для чтения.

- Google Drive MCP Server
MCP-сервер для интеграции с Google Drive, позволяющий читать и искать файлы.

- Redis MCP Server
MCP-сервер, предоставляющий доступ к базам данных Redis.

- Notion MCP Server
Проект, реализующий MCP-сервер для API Notion.

- Stripe MCP Server
MCP-сервер для взаимодействия с API Stripe.

- Perplexity MCP Server
MCP-сервер, подключающийся к API Sonar от Perplexity для поиска в реальном времени.
👍7
SQL Pipelines

Ploomber - это sql оркестратор, который имеет встроенную поддержку SQL. Вы предоставляете SQL-скрипты, а Ploomber управляет подключениями к базе данных и организует выполнение кода за вас.
👍4
AI убили Stack Overflow
🤣11