Forwarded from Тысяча фичей
YouTube
1. FORK ClickHouse: Мотивация и ClickBench.
Форкнули ClickHouse и сделали его быстрее.
Статья: https://maksimkita.com/blog/ursa-clickhouse-research-fork.html
Тула для измерения перформанса: https://github.com/kitaisreal/paw
#database #cplusplus #programming #sql #clickhouse
GH: https://gi…
Статья: https://maksimkita.com/blog/ursa-clickhouse-research-fork.html
Тула для измерения перформанса: https://github.com/kitaisreal/paw
#database #cplusplus #programming #sql #clickhouse
GH: https://gi…
🔥7👍1
MCP-серверы: Будущее интеграции структурированных данных с ИИ
Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.
Новости от лидеров индустрии:
- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.
- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!
MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.
@data_whisperer
Что такое MCP?
MCP (Model Context Protocol) - открытый протокол от Anthropic, который позволяет ИИ-системам динамически получать контекст и данные. Это мост между структурированными данными и большими языковыми моделями,чтобы ИИ работал эффективно в реальных сценариях.
Новости от лидеров индустрии:
- dbt: Лидер в создании надёжных, управляемых датасетов, открывает экспериментальную версию dbt MCP-сервера!
dbt видит будущее, где структурированные данные станут основой ИИ-воркфлоу, и они готовы играть ключевую роль.
- ClickHouse:
Команда ClickHouse показала демо, где модель Sonnet от Anthropic выполняет запросы к базе ClickHouse. Это первые шаги к глубокой интеграции ИИ с данными!
MCP-серверы делают ИИ умнее, позволяя моделям безопасно и эффективно работать с реальными данными. От аналитики до операционных задач - это новый стандарт для ИИ-агентов.
@data_whisperer
Getdbt
Introducing the dbt MCP Server – Bringing Structured Data to AI Workflows and Agents | dbt Developer Blog
We’re open‑sourcing an experimental dbt MCP server so LLMs and agents can discover, query, and run your dbt project.
👍5
Change Data Capture (CDC) Playground
Слышали про CDC но так и не разобрались, как эта технология работает?
Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.
@data_whisperer
Слышали про CDC но так и не разобрались, как эта технология работает?
Принес для вас интерактивный плэйграунд , в котором можно поэксперементировать.
А так же пост по CDC от Кирилла Боброва, автора книги Гроккаем Конкурентность.
@data_whisperer
🔥8🫡2⚡1👍1
Apache Iceberg Format Version 3: Что нового?
Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.
Ключевые новшества:
Новые типы данных:
-
-
-
-
Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!
Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.
Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.
Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.
Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.
🔗 Подробнее тут
Apache Iceberg V3 вышел с мощными обновлениями, которые делают его ещё гибче, производительнее и выразительнее для работы с данными! Если V1 и V2 были про стабильность и операции на уровне строк, то V3 открывает двери для сложных сценариев и новых типов данных.
Ключевые новшества:
Новые типы данных:
-
timestamp с поддержкой часовых поясов (наносекундная точность) -
variant для полуструктурированных данных (аналог JSON) -
geometry и geography для геопространственной аналитики -
unknown для динамических схем Теперь Iceberg идеально подходит для IoT, геоаналитики и работы с неструктурированными данными!
Значения по умолчанию:
Задавайте значения по умолчанию прямо в схеме - упрощает эволюцию схем и избавляет от лишней логики при вставке данных.
Многоаргументные трансформации:
Поддержка партиционирования и сортировки по нескольким аргументам. Теперь можно, например, разбивать данные по комбинации колонок или сложным функциям дат.
Отслеживание происхождения строк:
Row Lineage Tracking позволяет фиксировать историю изменений строк - идеально для регулируемых сред, где важна прозрачность и аудит.
Бинарные векторы удаления:
Новое компактное представление операций удаления делает работу с частыми обновлениями и удалениями более эффективной.
🔗 Подробнее тут
Dremio
What’s New in Apache Iceberg Format Version 3? | Dremio
Explore what Apache Iceberg V3 brings with support for new data types, schema evolution controls and high-performance scalability at scale.
👍7⚡2❤2
Что такое MCP и почему это прорыв для LLM и агентов?
Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!
MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.
Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).
Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!
Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.
MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.
А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.
@data_whisperer
Представьте: вы подключаете к ChatGPT новые функции так же легко, как флешку к компьютеру.
Звучит фантастично?
С протоколом MCP (Model Context Protocol) это реальность!
MCP - это USB-интерфейс для AI-приложений. Он разделяет возможности моделей (LLM) и их интеграцию, позволяя подключать любые сервисы без переобучения модели или переписывания кода.
Как это работает?
В основе MCP - три компонента:
1. Host - приложение, с которым вы работаете (например, Claude Desktop или ChatGPT).
2. Client - посредник между Host и Server, который изолирует задачи.
3. Server - сервер с конкретными функциями (например, работа с почтой, Slack или вашим API).
Хотите, чтобы модель отвечала на письма?
Подключите Gmail Server.
Нужно публиковать посты в соцсетях?
Добавьте Slack Server. Своё API? Оберните его в MCP-сервер и готово!
Что делать дальше?
1. Прочтите спецификацию MCP - она короткая и понятная.
2. Поэкспериментируйте: подключите Claude Desktop к существующим серверам (их тысячи!).
3. Создайте свой MCP-сервер - самый быстрый способ разобраться в системе.
MCP меняет правила игры, превращая LLM в швейцарский нож с бесконечными возможностями.
А в этом видео Егор Бугаенко очень класно раасказывает, о том, что такое MCP - сервера, какое будущее их ждет и почему фронтэнд будет больше не нужен.
@data_whisperer
👍5
Запутались в зоопарке AI-технологий? Ловите гайд для старта!
Как и всегда, теорию нужно совмещать с практикой!
📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.
Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.
🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!
Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.
P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет
@data_whisperer
Как и всегда, теорию нужно совмещать с практикой!
📚 Теория:
→ Промт-инжиниринг для GenAI - учимся «разговаривать» с нейросетями.
→ Разработка приложений на GPT-4/ChatGPT - от идеи до MVP.
Две книги, которые дадут прочную базу при работе с AI, рассказывают историю, работу AI и как писать приложения с AI.
🛠️ Для практики берем бесплатные курсы от Anthropic Academy, в которых вы научитесь работать с MCP и AI agents.
И не забываем про LLM Zoomcamp, который начинается совсем скоро, анонс будет в канале!
Это та необходимая база, которая позволит вам чувствовать себя уверенно в стремительно меняющемся мире.
Не бойтесь изучать новое, AI не заменит вас, если вы будете в курсе последних трендов и сможете интегрировать его в свою работу.
А если страшно - пишите в комментарии, вместе разберёмся.
P.S. Не откладывайте на завтра. Самый сложный шаг - первый, а дальше AI сам вас затянет
@data_whisperer
Anthropic
AI Learning Resources & Guides from Anthropic
Access comprehensive guides, tutorials, and best practices for working with Claude. Learn how to craft effective prompts and maximize AI interactions in your workflow.
⚡5🔥2❤1
MLOps Zoomcamp 2025
Сегодня начался MLOps Zoomcamp.
Вводное видео уже на YouTube.
Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!
Репозиторий курса.
@data_whisperer
Сегодня начался MLOps Zoomcamp.
Вводное видео уже на YouTube.
Успевайте присоединиться к новому запуска курса!
Обновленный материал, живые онлайн встречи и сертификат по завершению курса!
Репозиторий курса.
@data_whisperer
⚡3
📚 Хочешь прокачать скиллы в программировании?
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?
Присоединяйся к @neLenkin_bot!
В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое
Не откладывай -стань частью комьюнити и начни учиться уже сегодня!
Мечтаешь разобрать «Кабанчика» или покорить LeetCode?
Присоединяйся к @neLenkin_bot!
В группе:
- Совместное обучение и разбор задач
- Живые встречи и обсуждения
- Чтение книг и многое другое
Не откладывай -стань частью комьюнити и начни учиться уже сегодня!
👍6❤2
Void - альтернатива Cursor
Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.
Void - это open-source альтернатива Cursor. Поддерживает использование ИИ-агентов, создание контрольных точек и локальное размещение моделей. Void является форком репозитория VS Code.
GitHub
GitHub - voideditor/void
Contribute to voideditor/void development by creating an account on GitHub.
👍4🤣1
Еще одна замечательная книга, которую будем разыгрывать.
The Missing Readmi.
Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.
Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.
А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас
The Missing Readmi.
Это книга не про технику(хотя и она в ней есть совсем чуть-чуть).
В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно.
Читается за пару, тройку вечеров, думаю опытные тоже найдут в ней что нибудь интересное.
А если при слове ретро в вашем календаре,вы не знаете куда бежать.
То книга точно для вас
🔥8
HelixDB - это высокопроизводительная графо-векторная база данных с открытым исходным кодом, написанная на Rust, разработанная для приложений RAG и ИИ. Она объединяет хранение графовых и векторных данных, используя LMDB для обеспечения персистентности данных и соответствия ACID.
Код на GitHub
Код на GitHub
GitHub
GitHub - HelixDB/helix-db: HelixDB is an open-source graph-vector database built from scratch in Rust.
HelixDB is an open-source graph-vector database built from scratch in Rust. - HelixDB/helix-db
🏆1
Просто замечательный пост
CyberArk делится опытом создания внутренних инструментов для более чем 1000 разработчиков, подчеркивая важность подхода к внутренним инструментам как к продуктам с настоящими пользователями.
CyberArk делится опытом создания внутренних инструментов для более чем 1000 разработчиков, подчеркивая важность подхода к внутренним инструментам как к продуктам с настоящими пользователями.
Ran The Builder
Stop Building Internal Tools Nobody Wants: A Platform Engineer’s Guide
Stop building internal tools nobody wants. Platform engineering tips to boost adoption, DevX, feedback, and internal open-source mindset
🏆1
Motion
ранее использовала CockroachDB из-за её масштабируемости, но недавно перешла на Postgres из-за растущих затрат и проблем с производительностью. Конфигурация с одним регионом не позволяла полностью использовать распределённые возможности CockroachDB. Миграция решила проблемы с таймаутами миграций Prisma, медленными процессами ETL и нестабильной скоростью запросов, где планировщик запросов CockroachDB часто показывал более низкую производительность, чем Postgres. Для миграции данных была разработана кастомная ETL-система с использованием Bun.
ранее использовала CockroachDB из-за её масштабируемости, но недавно перешла на Postgres из-за растущих затрат и проблем с производительностью. Конфигурация с одним регионом не позволяла полностью использовать распределённые возможности CockroachDB. Миграция решила проблемы с таймаутами миграций Prisma, медленными процессами ETL и нестабильной скоростью запросов, где планировщик запросов CockroachDB часто показывал более низкую производительность, чем Postgres. Для миграции данных была разработана кастомная ETL-система с использованием Bun.
Medium
Migrating to Postgres
Since early 2022, Motion was on CockroachDB. Cockroach has many qualities going for it: effortless horizontal scaling, especially when…
🏆1
Неужели знание Python больше не обязательно, чтобы называть себя инженером данных?
Я работаю инженером данных уже чуть больше 4 лет и считаю себя уверенным в Python. На прошлой неделе я помогал проводить собеседования на ещё одну позицию инженера данных в нашей компании — и, поверите или нет, ни один кандидат не умел писать на Python, хотя это явно указано в описании вакансии. Кроме Python, большинство из них (за исключением одного совсем слабого кандидата) могли говорить о технологиях, ELT против ETL, инструментах вроде dbt, Glue, SQL Server и т. д., но ни один не смог написать код на Python.
Ещё более безумно то, что ВСЕ они оценили свои навыки Python от 5 до 8 (да, последний даже сказал, что он на 8). А потом, когда мы дошли до части с лайвкодинг, они буквально не могли написать ни одной строки. Я понимаю, что кодирование вживую может пугать, но, боже мой, неужели нельзя написать хотя бы ОДНУ связную строку кода при уровне 8/10? Я просто не понимаю, зачем они это делают — неужели они думают, что мы не попросим их доказать это, когда они так высоко себя оценивают?
Что здесь происходит??
Взято с Reddit
Upd: Тоже иногда присутствую на собеседованиях и ситуация аналогична той, что описывает автор.
А как вы думаете на каком уровне нужно знать Python для Data engineer?
@data_whisperer
Я работаю инженером данных уже чуть больше 4 лет и считаю себя уверенным в Python. На прошлой неделе я помогал проводить собеседования на ещё одну позицию инженера данных в нашей компании — и, поверите или нет, ни один кандидат не умел писать на Python, хотя это явно указано в описании вакансии. Кроме Python, большинство из них (за исключением одного совсем слабого кандидата) могли говорить о технологиях, ELT против ETL, инструментах вроде dbt, Glue, SQL Server и т. д., но ни один не смог написать код на Python.
Ещё более безумно то, что ВСЕ они оценили свои навыки Python от 5 до 8 (да, последний даже сказал, что он на 8). А потом, когда мы дошли до части с лайвкодинг, они буквально не могли написать ни одной строки. Я понимаю, что кодирование вживую может пугать, но, боже мой, неужели нельзя написать хотя бы ОДНУ связную строку кода при уровне 8/10? Я просто не понимаю, зачем они это делают — неужели они думают, что мы не попросим их доказать это, когда они так высоко себя оценивают?
Что здесь происходит??
Взято с Reddit
Upd: Тоже иногда присутствую на собеседованиях и ситуация аналогична той, что описывает автор.
А как вы думаете на каком уровне нужно знать Python для Data engineer?
@data_whisperer
🤔3👏1🤯1
MCP (Model Context Protocol) — это открытый стандарт, упрощающий взаимодействие ИИ-моделей, особенно LLM, с внешними источниками данных, инструментами и сервисами. MCP-сервер выступает мостом между ИИ-моделями и внешними инструментами.
Вот список лучших MCP-серверов:
- File System MCP Server
Позволяет LLM напрямую работать с локальной файловой системой: читать, записывать и создавать директории.
- GitHub MCP Server
Подключает Claude к репозиториям GitHub, позволяя обновлять файлы и искать код.
- Slack MCP Server
MCP-сервер для API Slack, позволяющий Claude взаимодействовать с рабочими пространствами Slack.
- Google Maps MCP Server
MCP-сервер для API Google Maps.
- Docker MCP Server
Интеграция с Docker для управления контейнерами, образами, томами и сетями.
- Brave MCP Server
Веб- и локальный поиск через API поиска Brave.
- PostgreSQL MCP Server
MCP-сервер, позволяющий LLM изучать схемы баз данных и выполнять запросы только для чтения.
- Google Drive MCP Server
MCP-сервер для интеграции с Google Drive, позволяющий читать и искать файлы.
- Redis MCP Server
MCP-сервер, предоставляющий доступ к базам данных Redis.
- Notion MCP Server
Проект, реализующий MCP-сервер для API Notion.
- Stripe MCP Server
MCP-сервер для взаимодействия с API Stripe.
- Perplexity MCP Server
MCP-сервер, подключающийся к API Sonar от Perplexity для поиска в реальном времени.
Вот список лучших MCP-серверов:
- File System MCP Server
Позволяет LLM напрямую работать с локальной файловой системой: читать, записывать и создавать директории.
- GitHub MCP Server
Подключает Claude к репозиториям GitHub, позволяя обновлять файлы и искать код.
- Slack MCP Server
MCP-сервер для API Slack, позволяющий Claude взаимодействовать с рабочими пространствами Slack.
- Google Maps MCP Server
MCP-сервер для API Google Maps.
- Docker MCP Server
Интеграция с Docker для управления контейнерами, образами, томами и сетями.
- Brave MCP Server
Веб- и локальный поиск через API поиска Brave.
- PostgreSQL MCP Server
MCP-сервер, позволяющий LLM изучать схемы баз данных и выполнять запросы только для чтения.
- Google Drive MCP Server
MCP-сервер для интеграции с Google Drive, позволяющий читать и искать файлы.
- Redis MCP Server
MCP-сервер, предоставляющий доступ к базам данных Redis.
- Notion MCP Server
Проект, реализующий MCP-сервер для API Notion.
- Stripe MCP Server
MCP-сервер для взаимодействия с API Stripe.
- Perplexity MCP Server
MCP-сервер, подключающийся к API Sonar от Perplexity для поиска в реальном времени.
👍7
SQL Pipelines
Ploomber - это sql оркестратор, который имеет встроенную поддержку SQL. Вы предоставляете SQL-скрипты, а Ploomber управляет подключениями к базе данных и организует выполнение кода за вас.
Ploomber - это sql оркестратор, который имеет встроенную поддержку SQL. Вы предоставляете SQL-скрипты, а Ploomber управляет подключениями к базе данных и организует выполнение кода за вас.
👍4
5 minutes of data
Еще одна замечательная книга, которую будем разыгрывать. The Missing Readmi. Это книга не про технику(хотя и она в ней есть совсем чуть-чуть). В этой книги опытный наставник проведут вас по всем подводным камням АйТи мира и расскажет, как нужно. Читается…
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩2