5 minutes of data – Telegram

5 minutes of data

@five_minutes_of_data

1.89K subscribers

189 photos

4 videos

2 files

509 links

I’m making my life less dull by spending time learning and researching “how it works“ in the data engineering field.

Интерактивный учебник SQL
https://querynomic.one/#/

по всем вопросам @just_vanich

Download Telegram

About

Blog

Apps

Platform

5 minutes of data

1.89K subscribers

5 minutes of data

Что такое MCP и почему это прорыв для LLM и агентов?

Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!

MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.

Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).

Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!

Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.

MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.

А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.

@data_whisperer

👍5

928 viewsedited 17:01

5 minutes of data

Запутались в зоопарке AI-технологий? Ловите гайд для старта!

Как и всегда, теорию нужно совмещать с практикой!

📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.

Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.

🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!

Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.

P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет

@data_whisperer

AI Learning Resources & Guides from Anthropic

Access comprehensive guides, tutorials, and best practices for working with Claude. Learn how to craft effective prompts and maximize AI interactions in your workflow.

⚡5🔥2❤1

1.09K views07:03

5 minutes of data

MLOps Zoomcamp 2025

Сегодня начался MLOps Zoomcamp.

Вводное видео уже на YouTube.

Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!

Репозиторий курса.

@data_whisperer

⚡3

1.26K viewsedited 16:14

5 minutes of data

📚 Хочешь прокачать скиллы в программировании?
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?

Присоединяйся к @neLenkin_bot!

В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое

Не откладывай -стань частью комьюнити и начни учиться уже сегодня!

👍6❤2

1.43K views17:52

5 minutes of data

Void - альтернатива Cursor

Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.

GitHub - voideditor/void

Contribute to voideditor/void development by creating an account on GitHub.

👍4🤣1

1.12K views16:22

5 minutes of data

Еще одна замечательная книга, которую будем разыгрывать.
The Missing Readmi.

Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.

Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.

А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас

🔥8

859 views17:46

Участвовать (35)

5 minutes of data

5 minutes of data pinned a photo

17:47

5 minutes of data

HelixDB - это высокопроизводительная графо-векторная база данных с открытым исходным кодом, написанная на Rust, разработанная для приложений RAG и ИИ. Она объединяет хранение графовых и векторных данных, используя LMDB для обеспечения персистентности данных и соответствия ACID.

Код на GitHub

GitHub - HelixDB/helix-db: HelixDB is an open-source graph-vector database built from scratch in Rust.

HelixDB is an open-source graph-vector database built from scratch in Rust. - HelixDB/helix-db

🏆1

878 views18:53

5 minutes of data

Просто замечательный пост

CyberArk делится опытом создания внутренних инструментов для более чем 1000 разработчиков, подчеркивая важность подхода к внутренним инструментам как к продуктам с настоящими пользователями.

Ran The Builder

Stop Building Internal Tools Nobody Wants: A Platform Engineer’s Guide

Stop building internal tools nobody wants. Platform engineering tips to boost adoption, DevX, feedback, and internal open-source mindset

🏆1

780 views19:09

5 minutes of data

Motion

ранее использовала CockroachDB из-за её масштабируемости, но недавно перешла на Postgres из-за растущих затрат и проблем с производительностью. Конфигурация с одним регионом не позволяла полностью использовать распределённые возможности CockroachDB. Миграция решила проблемы с таймаутами миграций Prisma, медленными процессами ETL и нестабильной скоростью запросов, где планировщик запросов CockroachDB часто показывал более низкую производительность, чем Postgres. Для миграции данных была разработана кастомная ETL-система с использованием Bun.

Migrating to Postgres

Since early 2022, Motion was on CockroachDB. Cockroach has many qualities going for it: effortless horizontal scaling, especially when…

🏆1

849 views11:29

5 minutes of data

Какой неудачный ход. Ускорение CPython принесло бы дивиденды.

779 views17:01

5 minutes of data

Неужели знание Python больше не обязательно, чтобы называть себя инженером данных?

Я работаю инженером данных уже чуть больше 4 лет и считаю себя уверенным в Python. На прошлой неделе я помогал проводить собеседования на ещё одну позицию инженера данных в нашей компании — и, поверите или нет, ни один кандидат не умел писать на Python, хотя это явно указано в описании вакансии. Кроме Python, большинство из них (за исключением одного совсем слабого кандидата) могли говорить о технологиях, ELT против ETL, инструментах вроде dbt, Glue, SQL Server и т. д., но ни один не смог написать код на Python.

Ещё более безумно то, что ВСЕ они оценили свои навыки Python от 5 до 8 (да, последний даже сказал, что он на 8). А потом, когда мы дошли до части с лайвкодинг, они буквально не могли написать ни одной строки. Я понимаю, что кодирование вживую может пугать, но, боже мой, неужели нельзя написать хотя бы ОДНУ связную строку кода при уровне 8/10? Я просто не понимаю, зачем они это делают — неужели они думают, что мы не попросим их доказать это, когда они так высоко себя оценивают?

Что здесь происходит??
Взято с Reddit

Upd: Тоже иногда присутствую на собеседованиях и ситуация аналогична той, что описывает автор.

А как вы думаете на каком уровне нужно знать Python для Data engineer?

@data_whisperer

🤔3👏1🤯1

1.03K views07:31

5 minutes of data

пятничное

😁22

892 views18:08

5 minutes of data

MCP (Model Context Protocol) — это открытый стандарт, упрощающий взаимодействие ИИ-моделей, особенно LLM, с внешними источниками данных, инструментами и сервисами. MCP-сервер выступает мостом между ИИ-моделями и внешними инструментами.

Вот список лучших MCP-серверов:

- File System MCP Server
Позволяет LLM напрямую работать с локальной файловой системой: читать, записывать и создавать директории.

- GitHub MCP Server
Подключает Claude к репозиториям GitHub, позволяя обновлять файлы и искать код.

- Slack MCP Server
MCP-сервер для API Slack, позволяющий Claude взаимодействовать с рабочими пространствами Slack.

- Google Maps MCP Server
MCP-сервер для API Google Maps.

- Docker MCP Server
Интеграция с Docker для управления контейнерами, образами, томами и сетями.

- Brave MCP Server
Веб- и локальный поиск через API поиска Brave.

- PostgreSQL MCP Server
MCP-сервер, позволяющий LLM изучать схемы баз данных и выполнять запросы только для чтения.

- Google Drive MCP Server
MCP-сервер для интеграции с Google Drive, позволяющий читать и искать файлы.

- Redis MCP Server
MCP-сервер, предоставляющий доступ к базам данных Redis.

- Notion MCP Server
Проект, реализующий MCP-сервер для API Notion.

- Stripe MCP Server
MCP-сервер для взаимодействия с API Stripe.

- Perplexity MCP Server
MCP-сервер, подключающийся к API Sonar от Perplexity для поиска в реальном времени.

👍7

1.11K views04:45

5 minutes of data

SQL Pipelines

Ploomber - это sql оркестратор, который имеет встроенную поддержку SQL. Вы предоставляете SQL-скрипты, а Ploomber управляет подключениями к базе данных и организует выполнение кода за вас.

👍4

1.13K viewsedited 11:55

5 minutes of data

AI убили Stack Overflow

🤣11

1.11K views15:54

5 minutes of data

5 minutes of data

Еще одна замечательная книга, которую будем разыгрывать. The Missing Readmi. Это книга не про технику(хотя и она в ней есть совсем чуть-чуть). В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно. Читается…

🎉 Результаты розыгрыша:

🏆 Победитель:
1. MikhailZ

✔️

Проверить результаты

Please open Telegram to view this post

VIEW IN TELEGRAM

🤩2

913 views17:46

5 minutes of data

Forwarded from LLM Zoomcamp

👉🏼 LLM Zoomcamp 2025 Cohort Navigation

We're excited to welcome you to the 2025 edition of the LLM Zoomcamp!

Start date: June 2, 2025

Week 0 сhecklist

1. Watch live Q&A about the course
2. Register for live course launch
3. Save 2025 course playlist on YouTube
4. Check course content by navigating to the right module
5. Share this course with a friend!

Announcements

We’ll update this post to collect all necessary announcements for 2025 cohort.

Stay tuned!

913 views08:30

5 minutes of data

LLM SQL Generation Benchmark Results

Оценка способность больших языковых моделей генерировать точный и эффективный SQL-код на основе запросов на естественном языке. Используя набор данных из 200 миллионов записей из GitHub Archive, загруженный в Tinybird, разработчики попросили модели сгенерировать SQL по 50 запросам. Результаты представлены по ссылке и могут быть сравнены с человеческим базовым уровнем.

llm-benchmark.tinybird.live

AI SQL Benchmark

We benchmark the performance of AI SQL models against a human baseline to help you choose the best model for your needs.

🎉1

1.63K views07:05

5 minutes of data

Daft - это библиотека распределенных датафреймов, которая знакома разработчикам, уже использующим pandas или polars.

Однако Daft превосходит возможности традиционных библиотек датафреймов, предлагая дополнительные преимущества:

- Распределенность: Daft без проблем работает как на ноутбуке, так и на огромном облачном кластере, обеспечивая обработку данных на разных масштабах с использованием фреймворка Ray.

- Сложные типы данных: Встроенная поддержка сложных типов и форматов памяти, таких как изображения, для эффективной обработки.

- Вычислительный движок на Rust: Использование Rust позволяет Daft максимально раскрывать потенциал современного оборудования, включая оптимизации SIMD.

- Умное управление памятью: Daft оптимизирует использование памяти, позволяя небольшим кластерам эффективно обрабатывать большие наборы данных.

- Обработка вне памяти: Возможность Daft обрабатывать данные, превышающие объем доступной памяти, позволяет работать с наборами данных любого размера.

По бенчмаркам Daft очень хорош, обгоняет Spark и Dask.

Introducing Daft: A High-Performance Dataframe Library

Discover how Daft accelerates multimodal data processing with a high-performance distributed dataframe engine built for modern AI and analytics tasks.

❤3⚡2🔥1

951 views15:18

5 minutes of data

Reducing Peak Memory Usage in Trino: A SQL-First Approach

Trino - это распределенный SQL-движок, оптимизированный для скорости, в основном благодаря тому, что данные хранятся в памяти во время выполнения запросов. Это делает его отличным выбором для аналитических и исследовательских задач. Однако эта сильная сторона может стать ограничением при использовании Trino в крупномасштабных конвейерах обработки данных, особенно при строгих ограничениях по памяти.
В этой статье автор сосредотачивается на том, как снизить пиковое использование памяти в Trino путем последовательной переработки SQL-запросов по одному изменению за раз.

Reducing Peak Memory Usage in Trino: A SQL-First Approach

🫡2🏆1

933 views17:02