topdatalab – Telegram

topdatalab

1.16K subscribers

90 photos

10 videos

14 files

205 links

Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru

Download Telegram

About

Blog

Apps

Platform

1.16K subscribers

Прочитал как оценивать LLM ботов https://hamel.dev/blog/posts/evals-faq/
Как ни странно много параллелей с разработкой рекомендательных сервисов.
В общем если вы уже хорошо знаете один домен в ML, переключиться в другой не так уж и сложно.

В эвалюатор придется вложиться и довольно сильно. Если в рекоменадциях RR это было примерно 70 процентов написанного кода (для расчетов), то в LLM похоже больше. Тексты быстрым взглядом достаточно сложно оценить в отличие от рекомендаций.
Труд должен окупиться, это дало нам хороший задел, чтобы развиваться очень быстро и теснить конкурентов.

🔥3👍1

882 viewsRoman Zykov, edited 15:23

Выложили видео с моего вебинара про SQLMesh и dltHub. Кроме рассказа, я показывал все на примерах, как на лабораторных работах. Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering. При этом организовать…

Тупой, еще тупее! Это про меня.
Пару месяцев назад я хотел улучшить пользовательский опыт - добавить комментарии к полям и названиям таблиц так,
чтобы они отображались в Metabase. Там это можно сделать в интерфейсе, но кто будет за этим следить!?

Я хотел чтобы они пробрасывались напрямую из SQLMesh кода. Два месяца назад у меня не получилось.
Думал уже писать парсер, который будет сканировать код SQL Mesh и пробрасывать комментарии через API Metabase.

А ларчик легко открывался. Дай думаю, прочитаю еще раз документацию...
Начал читать блок: https://sqlmesh.readthedocs.io/en/stable/concepts/models/overview/#model-description-and-comments

Думаю, ок, ну наверное наша БД для view поддерживает. А оказывается поддерживает (Postgres): https://sqlmesh.readthedocs.io/en/stable/concepts/models/overview/#engine-comment-support

Почему два месяца назад не получилось - я не знаю, помню только, что нашел информацию про то, что Postgres не поддерживает комментарии на view.
Возможно это была информация от ChatGPT - и тут она соврала.

PS: по прежнему считаю SQLMesh гениальным продуктом, который выдавит DBT

🐳7

890 viewsRoman Zykov, edited 16:00

Как использовать Gemini Pro 2.5 (c 1 млн контекстом) в VSCode или Cursor бесплатно?

Как вы знаете, недавно Google выпустил Gemini Cli для терминала с довольно слабыми ограничениями: 1 mln размер окна токенов, 60 запросов в минуту, 1000 запросов в день максимум!

Я нашел способ, как его использовать в VSCode или Cursor бесплатно:
1) Ставите Gemini Cli https://github.com/google-gemini/gemini-cli
2) Авторизуетесь в терминале в gemini-cli на свой бесплатный Gmail аккаунт (не корпоративный Workspace) [gemini команда, потом /auth]
3) В VSCode или Cursor cтавите плагин CLine 3.18.0 (обязательно эту версию, в следующих gemini cli убрали)
4) Запускаете Cline - авторизуетесь
5) В интерфейсе Cline выберите "Gemini Cli Provider"

Пользуйтесь на здоровье!

🔥21👍5

883 viewsRoman Zykov, 10:05

На текущий проект покупаем платный Metabase. У нас хорошая компания - OpenAI среди их клиентов!

Почему покупаем - у нас финтех, нужно жестче регулировать доступы к данным на уровне столбцов и строк

🔥5😁1👀1

858 viewsRoman Zykov, edited 11:25

Сейчас много, кто кодит свои проекты. Но что делать, если вы знаете Python, но не JavaScript/TypeScript?

Я бы рекомендовал обратить внимание на HTMX - взаимодейтсвие с пользователем управляется не на стороне браузера, а на стороне сервера.
Это позволяет писать проекты в одно лицо, эдакий Full Stack, когда вам не нужен отдельный Front end разработчик.
Для этого я рекомендую ознакомится с книгой https://hypermedia.systems/book/contents/
Она написана авторами HTMX. Книга также является хорошим введением в инженерию веб разработки.

Сам я пробовал использовать JavaScript/TypeScript для React, нанял программиста. При этом я писал backend на Python. Я столкнулся с проблемой - нужно писать детальные ТЗ. Мне стало сильно проще, когда я отказался от React и перешел на HTMX. CorpSignals написан на HTMX
Теперь я в Cursor пишу как full-stack с минимальным использованием JavaScript. И даже от него планирую избавиться перейдя на HyperScript - тоже от авторов HTMX.

🔥8👍6🙏1

1.16K viewsRoman Zykov, edited 09:24

за такую цену оно мне нахрен не нужно :( nic.ru. Берите домены на cloudflare - 10 USD

🤯6❤2

805 viewsRoman Zykov, 20:26

Пишу 100% кода через LLM последние две недели.

Написал и отрефакторил тысячи строк в Cursor за 20 баксов auto модели + CLINE с Google cli.
Думаю я больше не буду сам код писать, смысла больше нет.

От сессий с курсором очень устаю, но мне больше нравится писать тексты с правилами разработками для него.

Потом напишу рецепты.

Пока думаю купить премиум Cursor или Claude Code за 200. даже текущей конфигурации полностью хватает, но я хочу быстрее!

🔥25👍4

777 viewsRoman Zykov, edited 08:52

Пишу 100% кода через LLM последние две недели. Написал и отрефакторил тысячи строк в Cursor за 20 баксов auto модели + CLINE с Google cli. Думаю я больше не буду сам код писать, смысла больше нет. От сессий с курсором очень устаю, но мне больше нравится…

Вчера писал про отлично работающий auto mode в Cursor.

Так вот, в этом режиме он пишет сам тесты, и даже запускает браузер и что то в нем может делать и отслеживать баги. Это вчера он все делал у меня. Я его об этом явно не просил. И это все безлимитно сейчас.

Есть теория, что Cursor свою модель тестирует

https://www.reddit.com/r/cursor/s/D8kB2TaDxC

From the cursor community on Reddit

Explore this post and more from the cursor community

👍7

839 viewsRoman Zykov, 12:14

Выложили видео с моего вебинара про SQLMesh и dltHub. Кроме рассказа, я показывал все на примерах, как на лабораторных работах. Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering. При этом организовать…

3 минуты требуется, чтобы запушить изменения в аналитическую систему!
Коммит -> Автоматический тест комиляции -> Автоматические тесты -> Вычисления -> Merge Request -> Post production -> User

Все укладывается в 3 минуты. Все автоматически, кроме нажатия кнопки "принять Merge Request"
Я считаю это очень крутым достижением, такого у меня еще никогда не было.
Нам помог SQLMesh и правильная настройка CI/CD.

Особенно интересно это видеть после "балаболов" CDO, говорящих про AI и прочую херь, и при этом имеют ужасный беспорядок в инженирии данных.
Никакой AI от этого не спасет.

🔥14💯5😎4

767 viewsRoman Zykov, 16:10

Кто-нибудь тестил Multi-Engine Support в SQLMesh?

Похоже это шикарная возможность использовать DuckDb чтобы заводить данные в Postgres или другую БД

https://juhache.substack.com/p/sqlmesh-and-multi-engine-data-stack
https://www.tobikodata.com/blog/support-for-multi-engine-projects
https://sqlmesh.readthedocs.io/en/stable/guides/multi_engine/

🔥4

801 viewsRoman Zykov, edited 15:03

Кто-нибудь тестил Multi-Engine Support в SQLMesh? Похоже это шикарная возможность использовать DuckDb чтобы заводить данные в Postgres или другую БД https://juhache.substack.com/p/sqlmesh-and-multi-engine-data-stack https://www.tobikodata.com/blog/support…

Работает!
Получилось прочитать сложные JSON файлы через DuckDb в Postgres, и все не выходя из SQLMesh.

Это тихая революция в data engineering.
Теперь можно делать data lake на этой технологии.
Может вы не понимаете пока, но это лучшее, что я видел за 20 лет карьеры.
А главное - не нужны дорогие Python разработчики - SQL достаточно.
Да и Python - это плохо для сложных data processing проектов. Это мое личное мнение

PS: а вот попытка Clickhouse сделать конкурента Duckdb похоже не увенчалась успехом https://github.com/chdb-io/chdb

🔥7🙏4🤔2👏1

1.64K viewsRoman Zykov, edited 09:54

Отвечаю на вопрос читателя по SQLMEsh


Меня зовут Иван. Я дата-инженер с многолетним опытом, я постоянно ищу новые инструменты и исследую их.

Я давно подписан на ваш канал и меня заинтересовал последний пост про SQLMesh.

Я поковырялся с ним, почитал доку, пообщался с разными LLM, но всё равно есть парочка вопросов, которые не дают покоя.

1) Как устроен в SQLMesh scheduler? Мне не понятно как он работает. Я рассматривал его как некую замену Airflow. У Airflow идёт как отдельный контейнер/под, который условно даёт задачи воркерам (упрощёно).
   
   А как в случае с SQLMesh устроен scheduler? Судя по той же документации его как бы нет и нужно "*запускать*" каждый раз sqlmesh run и он будет "*определять*" нужно запускать код или нет?

Ответ: в нем пассивный оркестратор. Нужно запускать команду sqlmesh run c максимальной частотой, указанной в моделях. Если есть модели - одна раз в час обновляется, другая раз в день, то нужно запускать раз в час. SQLmesh сделает сам свое дело.


   Из этого и состоит вопрос: где он хранит мета-данные о запуске? Как он понимает что одну модель нужно запустить, а другую нет? Как он оркестрирует эти задачи?

SQLMesh хранит состояние в базе, в которой вы работате.
AirFlow тут не нужен, это мое мнение


2) Как работать с дата лейком через DuckDB? Мне дико нравится DuckDB и он выполняет множество задач для меня. Но я не понимаю как обращаться к тому же дата лейку в формате S3 через SQLMesh? 
   
   У меня к примеру есть путь к файлу: https://s3.site/dev/raw/postgres/account/2025-07-21/2025-07-21_08-00-00.parquet
   
   Как я могу читать условно сущность https://s3.site/dev/raw/postgres/account/2*/*.parquet чтобы с ней работать? Это нужно задавать через seed? 

Буду благодарен, если сможете ответить и разобраться в этом инструменте.

Этот путь к файлу нужно прописать в модели, которая использует Duckdb как движок. Seed не нужен.
Объяснение здесь https://juhache.substack.com/p/sqlmesh-and-multi-engine-data-stack

👍5🔥3🙏3

883 viewsRoman Zykov, edited 14:32

💻 Pair Programming Interview Guide - May 2025 (1).pdf

Shopify уже проводит кодинг интервью c AI, Meta только начинает

Я прикрепил инструкцию от Shopify, как проходит такое интервью.

Задачи могут быть разными: написать сокращатель ссылок, сделать ленивый Map-Reduce на Python.

Я на днях напишу инструкцию (даже для себя), как я пишу код на Cursor.

PS: Я для теста прошел такое интервью, но тут отдельная история. Я становлюсь невнимательным к деталям, когда время жмет.
Например, всю городскую олимпиаду по физике я решил за 10 минут, сдал, ушел. Занял только шестое место, так как допустил мелкие неточности (детали)

👍15❤3

863 viewsRoman Zykov, edited 08:33

Запустил пару недель назад веб-приложение с RAG

1) Сетка Qwen 3 embed 0.4B - работает прямо на процессоре, поэтому самая маленькая. Пришлось конвернуть в формат ONNX
2) Готовые эмбеддинги в Postgres в pg_vector. Считал на своем домашнем AI сервере

Пробовал RAG Pinecone - не понравилось, сделал сам.
Весь код писался в Cursor + иногда Claude code - самые дешевые подписки.
Front и Back дружат за счет htmx https://t.me/topdatalab/453
Никакого React и прочего. Что сильно облегчило тестирование в том числе в самом Cursor

Всем кто интересуются RAG - очень рекомендую пройти короткий курс https://learn.deeplearning.ai/courses/advanced-retrieval-for-ai/lesson/kb5oj/introduction
Без воды, все по делу.

Само приложение https://corpsignals.com/app/

UPDATE:
1) Для поиска использую косинусную меру (привет рекомендательные системы)
2) Как оно работает внутри
- собрал тексты
- пропустил их через локальную Qwen 3 у себя дома на сервере, можно на домашнем компе
- embeddings сохранил в Postgres в pg_vector, размерность 1024
- далее добавил в Web приложение загрузку локальной Qwen 3 в формате Onnx
- когда приходит запрос от пользователя - он отправляется в сетку на Onnx, вычисляются embeddings
- ищу для этого embedidng в Postgres в pg_vector ближайшие тексты по косинусу

👍12🔥7❤4

863 viewsRoman Zykov, edited 08:37

Вот примерно как RAG ищет, с cosine similarity

❤2🔥1

677 viewsRoman Zykov, 22:51

Вышла в апреле, толстая - 500 страниц. Пора уже посмотреть на инженерные подходы, мне перестало хватать собственных знаний. Впечатления напишу потом

🔥9❤5👍4🤯1😱1

757 viewsRoman Zykov, 11:59

Получил интересный опыт оптимизации очень сложного SQLскрипта

Был скрипт - считался 900 секунд в SQL mesh, написан сложно. Я в его предметной области плохо разбирался.
Что я сделал
- Запустил по нему EXPLAIN ANALYZE DBeaver
- Подождал, cохранил результат в файл
- Загрузил файл в GPT5, попросил оптимизировать и предложить индексы
- Взял скрипт, запустил его в отдельной ветке SQLMesh, индексы не стал делать
- Попросил GPT5 написать SQL скрипт, который бы сравнил два результата в двух ветках SQLMesh
- Он его написал и использованием md5 от всех значений таблицы. Результат полностью совпал

Индексы я делать не стал. Скрипт стал работать 43 секунды.
Я такое сам бы не написал 🙁

🔥23👏6

1.58K viewsRoman Zykov, 15:44

Закончил свежий курс по Claude Code

Что нового узнал:
1) про MCP, например я сразу прикрутил Playwright, планирую еще Postgres
2) про параллельное программирование в Claude. Я правда не понял, зачем оно нужно. Параллельно задачи сложно делать
3) про Github issues и хуки, было интересно увидеть, как СС закрывает issues
4) как использовать дизайны Figma

В целом рекомендую, авторы - Anthropic
https://learn.deeplearning.ai/courses/claude-code-a-highly-agentic-coding-assistant/

Промпты с курса тут, буду к ним возвращаться
https://github.com/https-deeplearning-ai/sc-claude-code-files

❤8👍8🙏1

748 viewsRoman Zykov, 11:10

Ожидаемо от Cursor

Auto будут чарджить по usage.

“Second, we’re updating our limits on "Auto" for individuals. At your next billing renewal after September 15, Auto will contribute to your included monthly usage at competitive token rates. From December 2023 to June 2025, Auto was priced at the same cost as other premium models. Since June 2025, Auto has been unlimited for individuals and priced at the same cost as other premium models for teams. We’ve heavily invested in the quality and overall performance of Auto.”

https://cursor.com/en/blog/aug-2025-pricing
Сколько я буду платить видно из скриношота. Примерно 100$ в месяц. Сейчас плачу фикс - 20$ без лимитов

😱1

815 viewsRoman Zykov, edited 13:11

Data Engineer в мою команду в Лондоне!

Начал искать инженера данных в свою команду в Лондоне.
Уровень ближе к Senior. Предпочтительно в Лондоне.
У нас нестандартый open-source стeк: https://t.me/topdatalab/426

Ссылка на вакансию: https://newfts.bamboohr.com/careers/180?source=aWQ9MTE%3D

PS: К сожалению, визу не спонсируем. Если не найду в Лондоне, буду смотреть удаленщиков

Выложили видео с моего вебинара про SQLMesh и dltHub.
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать…

🔥8❤2

6.01K viewsRoman Zykov, edited 10:40