topdatalab
1.27K subscribers
98 photos
10 videos
17 files
221 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Всем привет!
Сегодня в 17:00 по Лондону про вебинар по новому open source стеку для инжиниринга данных. Расскажу про dltHub и SQLMesh как замену знаменитому dbt
Forwarded from Инжиниринг Данных (Roman Ponomarev)
🚀 🚀 🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab


👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Насколько крут SQLmesh (команда Tobiko data)? Команда dbt испугалась и забанила их выступление на конференции в Вегасе полгода назад
🤣6
Perplexity начинает нанимать людей в Лондоне.
Вакансия рекрутера: https://job-boards.greenhouse.io/perplexityai/jobs/4704803007

"Preferred Qualifications: Knowledge of Russian language" 🙂
🔥14😁5🤯5👏1
Google повернулась лицом к инди хакерам, которые используют open source модели.
Они опубликовали пост про квантизванные модели Gemma3: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718

Почему это важно?
Практически все модели, которые запускают люди на своих видеокартах квантизованы, их размеры уменьшены в разы, поэтому они могут запускаться даже на мобильных телефонах. Обычно вендоры публикуют нейронки с весами в 16 бит, далее сторонние разработчики сжимают их до 4х бит (OLLAMA). То есть объем модели уменьшается в 4 раза, а значит запустится на видеокарте с меньшим объемом памяти. Проблема в том, что при квантизации теряется точность. В ссылке выше опубликовал более хитрую квантизацию, которую они дообучили методом QAT (Quantization-Aware Training).

Первая публикация такой моедли была две недели назад. Качество по сравнению с любительскими - земля и небо. При этом сама модель занимает в 4 раза меньше места.
Сегодня гугл пошел дальше - они опубликовали неквантизованные QAT модели - далее можно использовать свои инструменты квантизации.

PS: использую Gemma3 12b, сейчас занимаюсь ускорением вычислений, для меня эта новость очень важна
🔥6👍4
topdatalab
теперь две, потом может еще парочку доставлю. Отопление можно не включать
Дешево ли эксплуатировать свой GPU сервер?

Посчитал эксплуатацию.
Я процессю десятки миллионов токенов за ночь. Эксплуатирую почти каждую ночь.
Посчитал экономику. У меня уходит примерно один доллар на электричество за ночь, при этом немного экономлю на отоплении.
Deep Seek API v3 (одно из самых дешевых API) со скидкой в 50% за работу в определенные часы попросил бы 10 долларов.

Update: Производительность вырастет в три раза, если я перейду с Gemma 3 12b на Gemma3 4b, но тут потребуется fine-tune. Тогда траты будут 1 доллар к 30 за DeepSeek
🔥12
Инжиниринг Данных
🚀 🚀 🚀 📅 Вебинар - сегодня (15 апреля в 19:00 по мск) Тема: История одного проекта с большим техническим долгом 🎙Спикер - Роман Зыков 🔍Описание: На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный…
Выложили видео с моего вебинара про SQLMesh и dltHub.
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать кросс командную разработку хранилища данных.

Видео: https://www.youtube.com/watch?v=Zjo7AgXnxDc

Презентация: https://docs.google.com/presentation/d/1dBv63EQijKYQ_cMM6lXnLwJhr1j18AF0ksjE2cLJ-pA/edit?usp=sharing
👍20🔥75🍾1🫡1
topdatalab
Как собеседовать BI аналитиков? Сейчас как раз готовлюсь к собеседованиям. И вспомнил, как меня готовил к собеседованию фейсбук. Они прислали мне подробную инструкцию как подготовится. И я сейчас подумал, почему бы и нет? Составил следующее письмо. Оно будет…
Сейчас готовлюсь собеседовать аналитиков, вспомнил, что у меня был пост на эту тему.
А именно, что нужно дать данные и темы вопросов заранее.
В отличие от прошлого интервью я решил добавить темы моделирования данных (+ dbt + индексы).
👍12
Давно слежу за командой Unsloth. Сейчас они лидеры по дообучению локальных LLM моделей, и много делают для открытого сообщества.
Так вот они выпустили свою версию динамической квантизации (в каждом слое она своя).
https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs

А так многие проекты пилят свою квантизацию. И это крайне неудобно.
Все хочу добраться до этого курса https://www.deeplearning.ai/short-courses/quantization-in-depth/, но сейчас так быстро все меняется, что знания стареют за 1 месяц 🙁

PS: Я думаю, что unsloth скоро купят, были бы деньги, вложился бы в них
3🔥3
Только вчера подумал, что появятся магазины приложений - узко специализированных нейронок.
И вот сегодня появилась нейронка
"specifically designed to generate HTML and Tailwind CSS code for web interfaces"

https://huggingface.co/Tesslate/UIGEN-T2-7B-Q8_0-GGUF

Решает одну проблему, но лучше многих
👍8🔥3
Записали и опубликовали подкаст с друзьями.
https://www.youtube.com/watch?v=tQCnHH1m0mw
Много говорили про LLM AI и вайб кодинг инструменты.

PS: Я закинул только что в прод Deep Research для своего сайта, но не настоящий, а исследовательский, фейковый 🙂
Сделал в Copilot чуть больше чем за час
👍2
Шикарный "развод" от стартапа! Написали отзыв для моего GPT от имени "sam".
Я конечно сразу подумал, что это Сэм Альтман. :)

Далее, они написали довольно известную правду (https://help.openai.com/en/articles/9300383-using-gpts-on-our-free-tier-faq).
Это пример шикарной манипуляции, конечно OpenAI не имеет к этому никакого отношения. Но это заставило мне пойти и посмотреть, что это за сайт, и проскроллить весь сайт в поиске копирайта OpenAI.
👍1
Для DuckDB сделали плагин для подключения LLM.
https://github.com/dsg-polymtl/flockmtl

Сами себя они описывают так:
- Declarative SQL Interface: Perform text generation, classification, summarization, filtering, and embedding generation using SQL queries.
- Multi-Provider Support: Easily integrate with OpenAI, Azure, and Ollama for your AI needs.
- End-to-End RAG Pipelines: Enable retrieval and augmentation workflows for enhanced analytics.
- Map and Reduce Functions: Intuitive APIs for combining semantic tasks and data analytics directly in DuckDB.

То есть мы можем вызывать LLM прямо из SQL, локальные модели (есть OLLAMA) точно поддерживаются
🔥3
А вот отличный пример обработки данных с помощью DuckDB

https://emilsadek.com/blog/merge-parquet-duckdb/


COPY (
SELECT
timestamp,
event_name,
path,
md5(anonymous_id) AS anonymous_id_hash,
event_id,
filename AS source_file
FROM read_parquet('20250312*.parquet', filename = true)
)
TO '2025-03-12.parquet'
(FORMAT 'parquet', COMPRESSION zstd);


Читаем данные из файлов через SELECT, записываем с помощью команды COPY.
Просто и изящно, когда есть возможность хранить все данные не внутри базы данных, а в файлах
🔥6
это мне на почту corpsignals.com пришло!
Искушение? Да :)
🤩7😁4👍1
Попросил одну AI прогу направить глаза на записи в камеру
😁8🤣4🌚1
перезапустил corpsignals в декабре, трафик растет, чистая Seo органика

Думаю до 500 в день дойти к концу года
Update: а может и тысячу :)
🔥8
Пару недель назад получил пособеседоваться на ML Engineer в Meta. Причем и письмом, и коннектом в Linkedin.
Отказался, лень на три месяца садится и готовится к собеседованиям, по другому не пройдешь их.

PS: В Лондонском офисе Meta есть проблема с комплектованием

Вы наверное подумали - с жиру бесится чувак, но там реально нужно быстро на собесе языком чесать :)
👍9👏1
Metabase хоть и кажется простым для разработчика, все равно сложный для пользователя.
Нужно хорошо понимать какие данные в каких таблицах лежат.

Почему бы не использовать LLM, загрузив туда все данные?
Metabase имеет хорошее API, в том числе для создания и редактирования dashboards.
Кроме SQL можно создавать отчеты на языке конструктора. Он удобнее для конечного пользователя, его редактировать в интерфейся намного проще.
Пример создания такого отчета

{
"name": "Sample MBQL Question",
"description": "This question is created via API using MBQL.",
"dataset_query": {
"type": "query",
"query": {
"source-table": 2,
"aggregation": [["count"]],
"breakout": [["field-id", 10]]
},
"database": 1
},
"display": "bar",
"visualization_settings": {
"graph.show_values": true
}
}


Я думаю заняться этим вопросом.

Сразу нашел пару интересных проектов:
1. MCP сервер для Metabase: https://github.com/sazboxai/MCP_MetaBase
2. Модицированный Metabase для AI запросов: https://churnless.ai/blog/building-ai-powered-sql-assistant
внутри ссылка на репозиторий
🔥15
Пропатчил и выложил последнюю стабильную версию Metabase 53.14.3.
Теперь в ней можно использовать fief авторизацию (https://t.me/topdatalab/378)
и записывать действия пользователей на сайте (https://t.me/topdatalab/401)

Почему сделал апгрейд - новая версия Metabase позволяет публиковать iframe контент, например ролики youtube.
Мне это нужно, чтобы публиковать обучающие видео прямо в dashboards.

Очень много пришлось провозитьс с драйвером DuckDB, не хотел он работать 🙁

инструкция тут: https://github.com/rzykov/metabase/blob/fief_v0.53.14.3/FiefAuth.md
🔥6🙏1