topdatalab

Обычно не публикую такое, но я думаю, что недалеко от реальности :)

PS: я думаю, что может нетехнарь сделать что-то в Cursor, но ему будет крайне тяжело поддерживать свой софт, не говоря уже о безопасности

😁1

828 viewsRoman Zykov, edited 17:33

topdatalab

Сделал кастомного бота дата инженера в GPT
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab

Зачем?
Часто ChatGPT содержит в себе старую документацию, а проекты обновляются быстро.
Можно дать ему отдельно знания по этим проектам.

Как?
1) Скачал и обработал все github: DBT, duckDB , Postgres, SQLMesh, dltHub, Metabase (мой текущий стек)
2) Залил в GPT knowledge base
3) Написал правильный Prompt.

Планирую обновлять, хороших примеров наберу и залью, issues

Пользуйтесь. Пишите, что добавить.
Можно вызывать в любом чате GPT через @
Доступно в бесплатной версии ChatGPT

UPDATE: добавил DBT и DuckDB
UPDATE: Metabase

🔥17👍4❤1

1.3K viewsRoman Zykov, edited 15:32

topdatalab

Сегодня я общался с товарищем, который получил оффер некоторое время назад.
Так вот за неделю до выхода они его уведомили, что во время испытательного срока они поставят ему на комп программу, которая будет следить за всеми его действиями. Тексты с экрана и прочее.

Я уже писал про свой опыт работы в подобных заведениях, когда даже в туалет не сходить без нажатия на кнопку
https://t.me/topdatalab/205

PS: Главное - какие подлецы, что сказали это всего лишь за неделю. Хотели поставить в безвыходное положение

topdatalab

Как я работал в CBOSS
Чтобы понять как изменились сейчас условия труда нужно вспомнить прошлое.
Был далекий 2003 год, я уже пару лет отработал в StatSoft. На шестом курсе Физтеха нет занятий, ты просто пишешь диплом. В этот момент я понял, что можно попробовать…

963 viewsRoman Zykov, edited 15:47

topdatalab

Как бы вы поступили?

Final Results

113 voters1.02K viewsRoman Zykov, 15:48

topdatalab

Как бы вы поступили?

Человек отказался! Повезло, что не успел сказать текущему работодателю!

🔥11👍8🤔1

879 viewsRoman Zykov, 11:00

topdatalab

Про AI автоматизацию в кодинге!
Моя задача проста — писать код меньше, а делать больше.

Что использую я:
1. Github Copilot Pro — очень удобно быстро что-то поправить.
Доступны разные модели, в том числе Sonnet 3.7.
2. CLINE + DeepSeek API — дешево, у меня даже получалось что-то сделать в полностью автоматическом режиме.
Потом DeepSeek стал очень популярным, и его API временно перестало работать.
Сейчас всё вернулось, но API работает медленно.
3. Мой бот дата инженера:
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab

Думал про популярный Cursor, пока не прочитал сравнение:
👉 Сравнение Cursor vs CLine на Reddit

Кратко:
— Окно контекста больше у CLINE
— Нет API ограничений
— Но стоит дороже

⸻

Сейчас изучаю:
📘 Прокачка промптов в CLine

Хочу добиться ещё большей автоматизации в больших проектах! 🚀

👍4❤1🔥1

1.97K viewsRoman Zykov, 15:54

topdatalab

Сделано Gemma 3 4b моделью в OLLAMA

774 viewsRoman Zykov, 10:04

topdatalab

Как я сделал автоматические саммари фин. отчетов британских компаний

Провёл все выходные, заставляя свой сервер с GPU 3090 перерабатывать гигантские финансовые отчёты британских компаний. 📈

Проблема оказалась серьёзной: отчёты по 50 страниц никто не хочет читать. Моим пользователям нужен был чёткий, краткий вывод. 🤯 А отчётов таких – миллионы, и каждый стоит огромного количества токенов через API. Сразу стало ясно – облако слишком дорогое удовольствие.

Поэтому я решился на очевидный шаг – запустил обработку прямо на своём сервере. Итог: 4500 компаний обработал всего за 5 часов! Но пришлось серьёзно повозиться:

1. Данные – это боль. 🧹 70% времени ушло на парсинг, очистку и преобразование данных из JSON в Markdown. Чистые данные оказались критически важными.

2. Промты – коварная штука. В какой-то момент модель вошла в бесконечный цикл, генерируя одно и то же предложение. Ollama прибивала процесс только через 5 минут мучений. Пришлось довести промты до ума в GPT-4.5, стало гораздо лучше.

3. Выбор софта – отдельный квест. 🛠️ VLLM отказалась работать из-за нехватки памяти на больших контекстах. Llama.cpp – вообще странная штука. Не захотел тратить ещё больше времени и остановился на Ollama.

4. Сырая Ollama и борьба за скорость. ⏳ Писал много дополнительного кода вокруг Ollama. Поставил таймаут в 30 секунд на запрос – если модель "зависала", сразу прибивал процесс, экономя своё электричество и нервы. Также столкнулся с большой утечкой памяти у Gemma 3 4B на длинных контекстах (до 50 000 токенов). Ночные сборки частично решили проблему, но всё равно приходилось перезапускать Ollama каждые 100 запросов. В результате добился скорости обработки – 5 секунд на отчёт!

5. Галлюцинации моделей. 🌌 Примерно 7% отчётов пришлось отсеять простыми правилами, чтобы избежать ошибок.

📌 Что дальше?
- Сделать данные чище и сократить контекст.
- Протестировать VLLM и exllamav2 (TabbyAPI) – должно стать быстрее.
- Попробовать дообучить модель через Unsloth и использовать новые схемы квантизации exllamav2 для повышения качества.

Вот что получилось в итоге https://corpsignals.com/companies/uk/pg2019-ltd-11628610.html

UPDATE: планирую посчитать экономическую целесообразность. Возможно Deep Seek API соизмерим по цене

🔥17💯3👏1

1.08K viewsRoman Zykov, edited 10:42

topdatalab

Выяснил небольшие подробности про отличия CLINE и Cursor для vibe программирования.
Cursor имеет внутренний RAG и индексирует код, что позволяет считать эмбеддинги, и "лучше" создавать контекст, а значит и код. Плюс экономия на токенах, что важно для Cursor, там фиксированая цена подписки.
В CLINE такой фичи нет, она отправляет файлы целиком. Токенов тратится много, а значит и мы платим за API тоже. И тут мнения разделились - кто-то за подход CLINE, мол больше контекст, лучше код, кто-то за Cursor.
Тем не менее для CLINE часто звучит совет - делайте файлы меньше, работать будет лучше.

PS: Уже появляются локальные RAG в том числе для кодинга, например, https://docs.cognee.ai/core-concepts/architecture
там есть инструкция для работы CLINE, но у меня не завелось 🙁

🔥3🤔1

929 viewsRoman Zykov, 11:48

topdatalab

Скоро выходные. Что интересного нашел почитать по LLM, сам сижу читаю:
1) если собрались собрать свой GPU домашний сервер - https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ больше 1000 комментариев
Очень полезно, жаль что раньше не видел. Гораздо лучше reddit
2) Краем уха слушал курс Google и Kaggle по GenAI:
https://www.kaggle.com/whitepaper-prompt-engineering - февраль 2025 - интересно, что в примерах c промтами играют параметрами, которые обычно недоступны в обычных облачных LLM (Top-K, Top-P)
https://www.kaggle.com/whitepaper-foundational-llm-and-text-generation - полезная компиляция статей по LLM от Google. Распечатал, читаю

PS: сегодня был интересный разговор про AI adoption. И я решил, что не буду брать сотрудников, которые не пользуются LLM инструментами.
Я всегда разрешал Google на собеседованиях, теперь буду разрешать LLM

🔥9🍾2

1.3K viewsRoman Zykov, edited 16:48

topdatalab

теперь две, потом может еще парочку доставлю. Отопление можно не включать

🔥21

989 viewsRoman Zykov, 17:54

topdatalab

Говорят, что это слитоe письмо CEO Shopify. Использование GenAI инcтрументов подпадает в пункт Performance review!

PS: с текстом я полностью согласен

Update: memo оказалось правдой

👍4🤯2

1.38K viewsRoman Zykov, edited 14:16

topdatalab

Всем привет!
Сегодня в 17:00 по Лондону про вебинар по новому open source стеку для инжиниринга данных. Расскажу про dltHub и SQLMesh как замену знаменитому dbt

881 viewsRoman Zykov, edited 08:29

topdatalab

Forwarded from Инжиниринг Данных (Roman Ponomarev)

🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

804 viewsRoman Zykov, 08:29

topdatalab

Насколько крут SQLmesh (команда Tobiko data)? Команда dbt испугалась и забанила их выступление на конференции в Вегасе полгода назад

🤣6

1.02K viewsRoman Zykov, edited 08:31

topdatalab

Perplexity начинает нанимать людей в Лондоне.
Вакансия рекрутера: https://job-boards.greenhouse.io/perplexityai/jobs/4704803007

"Preferred Qualifications: Knowledge of Russian language" 🙂

🔥14😁5🤯5👏1

909 viewsRoman Zykov, 12:45

topdatalab

Google повернулась лицом к инди хакерам, которые используют open source модели.
Они опубликовали пост про квантизванные модели Gemma3: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718

Почему это важно?
Практически все модели, которые запускают люди на своих видеокартах квантизованы, их размеры уменьшены в разы, поэтому они могут запускаться даже на мобильных телефонах. Обычно вендоры публикуют нейронки с весами в 16 бит, далее сторонние разработчики сжимают их до 4х бит (OLLAMA). То есть объем модели уменьшается в 4 раза, а значит запустится на видеокарте с меньшим объемом памяти. Проблема в том, что при квантизации теряется точность. В ссылке выше опубликовал более хитрую квантизацию, которую они дообучили методом QAT (Quantization-Aware Training).

Первая публикация такой моедли была две недели назад. Качество по сравнению с любительскими - земля и небо. При этом сама модель занимает в 4 раза меньше места.
Сегодня гугл пошел дальше - они опубликовали неквантизованные QAT модели - далее можно использовать свои инструменты квантизации.

PS: использую Gemma3 12b, сейчас занимаюсь ускорением вычислений, для меня эта новость очень важна

Googleblog

Google for Developers Blog - News about Web, Mobile, AI and Cloud

Explore Gemma 3 models now offering state-of-the-art AI performance on consumer GPUs with new int4 quantized versions optimized with Quantization Aware Training (QAT).

🔥6👍4

1.47K viewsRoman Zykov, edited 21:01

topdatalab

уже нанимают инженеров с self-hosted llm опытом

https://www.clay.com/jobs?ashby_jid=27800799-1c91-4260-bab9-6a772ef2b864

‘’’
Build AI systems using 3rd party or self-hosted LLMs with feedback loops to fine-tune models for optimal performance

‘’’

Clay

Open roles at Clay | Clay.com

👍3

1.69K viewsRoman Zykov, 09:53

topdatalab

теперь две, потом может еще парочку доставлю. Отопление можно не включать

Дешево ли эксплуатировать свой GPU сервер?

Посчитал эксплуатацию.
Я процессю десятки миллионов токенов за ночь. Эксплуатирую почти каждую ночь.
Посчитал экономику. У меня уходит примерно один доллар на электричество за ночь, при этом немного экономлю на отоплении.
Deep Seek API v3 (одно из самых дешевых API) со скидкой в 50% за работу в определенные часы попросил бы 10 долларов.

Update: Производительность вырастет в три раза, если я перейду с Gemma 3 12b на Gemma3 4b, но тут потребуется fine-tune. Тогда траты будут 1 доллар к 30 за DeepSeek

🔥12

1.67K viewsRoman Zykov, edited 08:43

topdatalab

Инжиниринг Данных

🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск) Тема: История одного проекта с большим техническим долгом 🎙Спикер - Роман Зыков 🔍Описание: На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный…

Выложили видео с моего вебинара про SQLMesh и dltHub.
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать кросс командную разработку хранилища данных.

Видео: https://www.youtube.com/watch?v=Zjo7AgXnxDc

Презентация: https://docs.google.com/presentation/d/1dBv63EQijKYQ_cMM6lXnLwJhr1j18AF0ksjE2cLJ-pA/edit?usp=sharing

YouTube

История одного проекта с большим техническим долгом | SQLMesh vs dbt, dltHub

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально…

👍20🔥7❤5🍾1🫡1

3.51K viewsRoman Zykov, edited 14:47

topdatalab

Как собеседовать BI аналитиков? Сейчас как раз готовлюсь к собеседованиям. И вспомнил, как меня готовил к собеседованию фейсбук. Они прислали мне подробную инструкцию как подготовится. И я сейчас подумал, почему бы и нет? Составил следующее письмо. Оно будет…

Сейчас готовлюсь собеседовать аналитиков, вспомнил, что у меня был пост на эту тему.
А именно, что нужно дать данные и темы вопросов заранее.
В отличие от прошлого интервью я решил добавить темы моделирования данных (+ dbt + индексы).

👍12

1.58K viewsRoman Zykov, 10:42

About

Blog

Apps

Platform