Сделал кастомного бота дата инженера в GPT
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab
Зачем?
Часто ChatGPT содержит в себе старую документацию, а проекты обновляются быстро.
Можно дать ему отдельно знания по этим проектам.
Как?
1) Скачал и обработал все github: DBT, duckDB , Postgres, SQLMesh, dltHub, Metabase (мой текущий стек)
2) Залил в GPT knowledge base
3) Написал правильный Prompt.
Планирую обновлять, хороших примеров наберу и залью, issues
Пользуйтесь. Пишите, что добавить.
Можно вызывать в любом чате GPT через @
Доступно в бесплатной версии ChatGPT
UPDATE: добавил DBT и DuckDB
UPDATE: Metabase
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab
Зачем?
Часто ChatGPT содержит в себе старую документацию, а проекты обновляются быстро.
Можно дать ему отдельно знания по этим проектам.
Как?
1) Скачал и обработал все github: DBT, duckDB , Postgres, SQLMesh, dltHub, Metabase (мой текущий стек)
2) Залил в GPT knowledge base
3) Написал правильный Prompt.
Планирую обновлять, хороших примеров наберу и залью, issues
Пользуйтесь. Пишите, что добавить.
Можно вызывать в любом чате GPT через @
Доступно в бесплатной версии ChatGPT
UPDATE: добавил DBT и DuckDB
UPDATE: Metabase
🔥17👍4❤1
Сегодня я общался с товарищем, который получил оффер некоторое время назад.
Так вот за неделю до выхода они его уведомили, что во время испытательного срока они поставят ему на комп программу, которая будет следить за всеми его действиями. Тексты с экрана и прочее.
Я уже писал про свой опыт работы в подобных заведениях, когда даже в туалет не сходить без нажатия на кнопку
https://t.me/topdatalab/205
PS: Главное - какие подлецы, что сказали это всего лишь за неделю. Хотели поставить в безвыходное положение
Так вот за неделю до выхода они его уведомили, что во время испытательного срока они поставят ему на комп программу, которая будет следить за всеми его действиями. Тексты с экрана и прочее.
Я уже писал про свой опыт работы в подобных заведениях, когда даже в туалет не сходить без нажатия на кнопку
https://t.me/topdatalab/205
PS: Главное - какие подлецы, что сказали это всего лишь за неделю. Хотели поставить в безвыходное положение
Telegram
topdatalab
Как я работал в CBOSS
Чтобы понять как изменились сейчас условия труда нужно вспомнить прошлое.
Был далекий 2003 год, я уже пару лет отработал в StatSoft. На шестом курсе Физтеха нет занятий, ты просто пишешь диплом. В этот момент я понял, что можно попробовать…
Чтобы понять как изменились сейчас условия труда нужно вспомнить прошлое.
Был далекий 2003 год, я уже пару лет отработал в StatSoft. На шестом курсе Физтеха нет занятий, ты просто пишешь диплом. В этот момент я понял, что можно попробовать…
topdatalab
Как бы вы поступили?
Человек отказался! Повезло, что не успел сказать текущему работодателю!
🔥11👍8🤔1
Про AI автоматизацию в кодинге!
Моя задача проста — писать код меньше, а делать больше.
Что использую я:
1. Github Copilot Pro — очень удобно быстро что-то поправить.
Доступны разные модели, в том числе Sonnet 3.7.
2. CLINE + DeepSeek API — дешево, у меня даже получалось что-то сделать в полностью автоматическом режиме.
Потом DeepSeek стал очень популярным, и его API временно перестало работать.
Сейчас всё вернулось, но API работает медленно.
3. Мой бот дата инженера:
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab
Думал про популярный Cursor, пока не прочитал сравнение:
👉 Сравнение Cursor vs CLine на Reddit
Кратко:
— Окно контекста больше у CLINE
— Нет API ограничений
— Но стоит дороже
⸻
Сейчас изучаю:
📘 Прокачка промптов в CLine
Хочу добиться ещё большей автоматизации в больших проектах! 🚀
Моя задача проста — писать код меньше, а делать больше.
Что использую я:
1. Github Copilot Pro — очень удобно быстро что-то поправить.
Доступны разные модели, в том числе Sonnet 3.7.
2. CLINE + DeepSeek API — дешево, у меня даже получалось что-то сделать в полностью автоматическом режиме.
Потом DeepSeek стал очень популярным, и его API временно перестало работать.
Сейчас всё вернулось, но API работает медленно.
3. Мой бот дата инженера:
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab
Думал про популярный Cursor, пока не прочитал сравнение:
👉 Сравнение Cursor vs CLine на Reddit
Кратко:
— Окно контекста больше у CLINE
— Нет API ограничений
— Но стоит дороже
⸻
Сейчас изучаю:
📘 Прокачка промптов в CLine
Хочу добиться ещё большей автоматизации в больших проектах! 🚀
👍4❤1🔥1
Как я сделал автоматические саммари фин. отчетов британских компаний
Провёл все выходные, заставляя свой сервер с GPU 3090 перерабатывать гигантские финансовые отчёты британских компаний. 📈
Проблема оказалась серьёзной: отчёты по 50 страниц никто не хочет читать. Моим пользователям нужен был чёткий, краткий вывод. 🤯 А отчётов таких – миллионы, и каждый стоит огромного количества токенов через API. Сразу стало ясно – облако слишком дорогое удовольствие.
Поэтому я решился на очевидный шаг – запустил обработку прямо на своём сервере. Итог: 4500 компаний обработал всего за 5 часов! Но пришлось серьёзно повозиться:
1. Данные – это боль. 🧹 70% времени ушло на парсинг, очистку и преобразование данных из JSON в Markdown. Чистые данные оказались критически важными.
2. Промты – коварная штука. В какой-то момент модель вошла в бесконечный цикл, генерируя одно и то же предложение. Ollama прибивала процесс только через 5 минут мучений. Пришлось довести промты до ума в GPT-4.5, стало гораздо лучше.
3. Выбор софта – отдельный квест. 🛠️ VLLM отказалась работать из-за нехватки памяти на больших контекстах. Llama.cpp – вообще странная штука. Не захотел тратить ещё больше времени и остановился на Ollama.
4. Сырая Ollama и борьба за скорость. ⏳ Писал много дополнительного кода вокруг Ollama. Поставил таймаут в 30 секунд на запрос – если модель "зависала", сразу прибивал процесс, экономя своё электричество и нервы. Также столкнулся с большой утечкой памяти у Gemma 3 4B на длинных контекстах (до 50 000 токенов). Ночные сборки частично решили проблему, но всё равно приходилось перезапускать Ollama каждые 100 запросов. В результате добился скорости обработки – 5 секунд на отчёт!
5. Галлюцинации моделей. 🌌 Примерно 7% отчётов пришлось отсеять простыми правилами, чтобы избежать ошибок.
📌 Что дальше?
- Сделать данные чище и сократить контекст.
- Протестировать VLLM и exllamav2 (TabbyAPI) – должно стать быстрее.
- Попробовать дообучить модель через Unsloth и использовать новые схемы квантизации exllamav2 для повышения качества.
Вот что получилось в итоге https://corpsignals.com/companies/uk/pg2019-ltd-11628610.html
UPDATE: планирую посчитать экономическую целесообразность. Возможно Deep Seek API соизмерим по цене
Провёл все выходные, заставляя свой сервер с GPU 3090 перерабатывать гигантские финансовые отчёты британских компаний. 📈
Проблема оказалась серьёзной: отчёты по 50 страниц никто не хочет читать. Моим пользователям нужен был чёткий, краткий вывод. 🤯 А отчётов таких – миллионы, и каждый стоит огромного количества токенов через API. Сразу стало ясно – облако слишком дорогое удовольствие.
Поэтому я решился на очевидный шаг – запустил обработку прямо на своём сервере. Итог: 4500 компаний обработал всего за 5 часов! Но пришлось серьёзно повозиться:
1. Данные – это боль. 🧹 70% времени ушло на парсинг, очистку и преобразование данных из JSON в Markdown. Чистые данные оказались критически важными.
2. Промты – коварная штука. В какой-то момент модель вошла в бесконечный цикл, генерируя одно и то же предложение. Ollama прибивала процесс только через 5 минут мучений. Пришлось довести промты до ума в GPT-4.5, стало гораздо лучше.
3. Выбор софта – отдельный квест. 🛠️ VLLM отказалась работать из-за нехватки памяти на больших контекстах. Llama.cpp – вообще странная штука. Не захотел тратить ещё больше времени и остановился на Ollama.
4. Сырая Ollama и борьба за скорость. ⏳ Писал много дополнительного кода вокруг Ollama. Поставил таймаут в 30 секунд на запрос – если модель "зависала", сразу прибивал процесс, экономя своё электричество и нервы. Также столкнулся с большой утечкой памяти у Gemma 3 4B на длинных контекстах (до 50 000 токенов). Ночные сборки частично решили проблему, но всё равно приходилось перезапускать Ollama каждые 100 запросов. В результате добился скорости обработки – 5 секунд на отчёт!
5. Галлюцинации моделей. 🌌 Примерно 7% отчётов пришлось отсеять простыми правилами, чтобы избежать ошибок.
📌 Что дальше?
- Сделать данные чище и сократить контекст.
- Протестировать VLLM и exllamav2 (TabbyAPI) – должно стать быстрее.
- Попробовать дообучить модель через Unsloth и использовать новые схемы квантизации exllamav2 для повышения качества.
Вот что получилось в итоге https://corpsignals.com/companies/uk/pg2019-ltd-11628610.html
UPDATE: планирую посчитать экономическую целесообразность. Возможно Deep Seek API соизмерим по цене
🔥17💯3👏1
Выяснил небольшие подробности про отличия CLINE и Cursor для vibe программирования.
Cursor имеет внутренний RAG и индексирует код, что позволяет считать эмбеддинги, и "лучше" создавать контекст, а значит и код. Плюс экономия на токенах, что важно для Cursor, там фиксированая цена подписки.
В CLINE такой фичи нет, она отправляет файлы целиком. Токенов тратится много, а значит и мы платим за API тоже. И тут мнения разделились - кто-то за подход CLINE, мол больше контекст, лучше код, кто-то за Cursor.
Тем не менее для CLINE часто звучит совет - делайте файлы меньше, работать будет лучше.
PS: Уже появляются локальные RAG в том числе для кодинга, например, https://docs.cognee.ai/core-concepts/architecture
там есть инструкция для работы CLINE, но у меня не завелось 🙁
Cursor имеет внутренний RAG и индексирует код, что позволяет считать эмбеддинги, и "лучше" создавать контекст, а значит и код. Плюс экономия на токенах, что важно для Cursor, там фиксированая цена подписки.
В CLINE такой фичи нет, она отправляет файлы целиком. Токенов тратится много, а значит и мы платим за API тоже. И тут мнения разделились - кто-то за подход CLINE, мол больше контекст, лучше код, кто-то за Cursor.
Тем не менее для CLINE часто звучит совет - делайте файлы меньше, работать будет лучше.
PS: Уже появляются локальные RAG в том числе для кодинга, например, https://docs.cognee.ai/core-concepts/architecture
там есть инструкция для работы CLINE, но у меня не завелось 🙁
🔥3🤔1
Скоро выходные. Что интересного нашел почитать по LLM, сам сижу читаю:
1) если собрались собрать свой GPU домашний сервер - https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ больше 1000 комментариев
Очень полезно, жаль что раньше не видел. Гораздо лучше reddit
2) Краем уха слушал курс Google и Kaggle по GenAI:
https://www.kaggle.com/whitepaper-prompt-engineering - февраль 2025 - интересно, что в примерах c промтами играют параметрами, которые обычно недоступны в обычных облачных LLM (Top-K, Top-P)
https://www.kaggle.com/whitepaper-foundational-llm-and-text-generation - полезная компиляция статей по LLM от Google. Распечатал, читаю
PS: сегодня был интересный разговор про AI adoption. И я решил, что не буду брать сотрудников, которые не пользуются LLM инструментами.
Я всегда разрешал Google на собеседованиях, теперь буду разрешать LLM
1) если собрались собрать свой GPU домашний сервер - https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ больше 1000 комментариев
Очень полезно, жаль что раньше не видел. Гораздо лучше reddit
2) Краем уха слушал курс Google и Kaggle по GenAI:
https://www.kaggle.com/whitepaper-prompt-engineering - февраль 2025 - интересно, что в примерах c промтами играют параметрами, которые обычно недоступны в обычных облачных LLM (Top-K, Top-P)
https://www.kaggle.com/whitepaper-foundational-llm-and-text-generation - полезная компиляция статей по LLM от Google. Распечатал, читаю
PS: сегодня был интересный разговор про AI adoption. И я решил, что не буду брать сотрудников, которые не пользуются LLM инструментами.
Я всегда разрешал Google на собеседованиях, теперь буду разрешать LLM
🔥9🍾2
topdatalab
Скоро выходные. Что интересного нашел почитать по LLM, сам сижу читаю: 1) если собрались собрать свой GPU домашний сервер - https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ больше 1000 комментариев Очень полезно, жаль что раньше не видел. Гораздо…
Говорят, что это слитоe письмо CEO Shopify. Использование GenAI инcтрументов подпадает в пункт Performance review!
PS: с текстом я полностью согласен
Update: memo оказалось правдой
PS: с текстом я полностью согласен
Update: memo оказалось правдой
👍4🤯2
Всем привет!
Сегодня в 17:00 по Лондону про вебинар по новому open source стеку для инжиниринга данных. Расскажу про dltHub и SQLMesh как замену знаменитому dbt
Сегодня в 17:00 по Лондону про вебинар по новому open source стеку для инжиниринга данных. Расскажу про dltHub и SQLMesh как замену знаменитому dbt
Forwarded from Инжиниринг Данных (Roman Ponomarev)
📅 Вебинар - сегодня (15 апреля в 19:00 по мск)
Тема: История одного проекта с большим техническим долгом
🎙Спикер - Роман Зыков
🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.
🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.
📕 На встрече обсудим:
Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.
🔗 Телеграм канал спикера @topdatalab
👨💻 Приходите на вебинар, трансляция будет в этом канале - онлайн
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Perplexity начинает нанимать людей в Лондоне.
Вакансия рекрутера: https://job-boards.greenhouse.io/perplexityai/jobs/4704803007
"Preferred Qualifications: Knowledge of Russian language" 🙂
Вакансия рекрутера: https://job-boards.greenhouse.io/perplexityai/jobs/4704803007
"Preferred Qualifications: Knowledge of Russian language" 🙂
🔥14😁5🤯5👏1
Google повернулась лицом к инди хакерам, которые используют open source модели.
Они опубликовали пост про квантизванные модели Gemma3: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718
Почему это важно?
Практически все модели, которые запускают люди на своих видеокартах квантизованы, их размеры уменьшены в разы, поэтому они могут запускаться даже на мобильных телефонах. Обычно вендоры публикуют нейронки с весами в 16 бит, далее сторонние разработчики сжимают их до 4х бит (OLLAMA). То есть объем модели уменьшается в 4 раза, а значит запустится на видеокарте с меньшим объемом памяти. Проблема в том, что при квантизации теряется точность. В ссылке выше опубликовал более хитрую квантизацию, которую они дообучили методом QAT (Quantization-Aware Training).
Первая публикация такой моедли была две недели назад. Качество по сравнению с любительскими - земля и небо. При этом сама модель занимает в 4 раза меньше места.
Сегодня гугл пошел дальше - они опубликовали неквантизованные QAT модели - далее можно использовать свои инструменты квантизации.
PS: использую Gemma3 12b, сейчас занимаюсь ускорением вычислений, для меня эта новость очень важна
Они опубликовали пост про квантизванные модели Gemma3: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718
Почему это важно?
Практически все модели, которые запускают люди на своих видеокартах квантизованы, их размеры уменьшены в разы, поэтому они могут запускаться даже на мобильных телефонах. Обычно вендоры публикуют нейронки с весами в 16 бит, далее сторонние разработчики сжимают их до 4х бит (OLLAMA). То есть объем модели уменьшается в 4 раза, а значит запустится на видеокарте с меньшим объемом памяти. Проблема в том, что при квантизации теряется точность. В ссылке выше опубликовал более хитрую квантизацию, которую они дообучили методом QAT (Quantization-Aware Training).
Первая публикация такой моедли была две недели назад. Качество по сравнению с любительскими - земля и небо. При этом сама модель занимает в 4 раза меньше места.
Сегодня гугл пошел дальше - они опубликовали неквантизованные QAT модели - далее можно использовать свои инструменты квантизации.
PS: использую Gemma3 12b, сейчас занимаюсь ускорением вычислений, для меня эта новость очень важна
Googleblog
Google for Developers Blog - News about Web, Mobile, AI and Cloud
Explore Gemma 3 models now offering state-of-the-art AI performance on consumer GPUs with new int4 quantized versions optimized with Quantization Aware Training (QAT).
🔥6👍4
topdatalab
Google повернулась лицом к инди хакерам, которые используют open source модели. Они опубликовали пост про квантизванные модели Gemma3: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718…
уже нанимают инженеров с self-hosted llm опытом
https://www.clay.com/jobs?ashby_jid=27800799-1c91-4260-bab9-6a772ef2b864
‘’’
Build AI systems using 3rd party or self-hosted LLMs with feedback loops to fine-tune models for optimal performance
‘’’
https://www.clay.com/jobs?ashby_jid=27800799-1c91-4260-bab9-6a772ef2b864
‘’’
Build AI systems using 3rd party or self-hosted LLMs with feedback loops to fine-tune models for optimal performance
‘’’
Clay
Open roles at Clay | Clay.com
👍3
topdatalab
теперь две, потом может еще парочку доставлю. Отопление можно не включать
Дешево ли эксплуатировать свой GPU сервер?
Посчитал эксплуатацию.
Я процессю десятки миллионов токенов за ночь. Эксплуатирую почти каждую ночь.
Посчитал экономику. У меня уходит примерно один доллар на электричество за ночь, при этом немного экономлю на отоплении.
Deep Seek API v3 (одно из самых дешевых API) со скидкой в 50% за работу в определенные часы попросил бы 10 долларов.
Update: Производительность вырастет в три раза, если я перейду с Gemma 3 12b на Gemma3 4b, но тут потребуется fine-tune. Тогда траты будут 1 доллар к 30 за DeepSeek
Посчитал эксплуатацию.
Я процессю десятки миллионов токенов за ночь. Эксплуатирую почти каждую ночь.
Посчитал экономику. У меня уходит примерно один доллар на электричество за ночь, при этом немного экономлю на отоплении.
Deep Seek API v3 (одно из самых дешевых API) со скидкой в 50% за работу в определенные часы попросил бы 10 долларов.
Update: Производительность вырастет в три раза, если я перейду с Gemma 3 12b на Gemma3 4b, но тут потребуется fine-tune. Тогда траты будут 1 доллар к 30 за DeepSeek
🔥12
Инжиниринг Данных
Выложили видео с моего вебинара про SQLMesh и dltHub.
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать кросс командную разработку хранилища данных.
Видео: https://www.youtube.com/watch?v=Zjo7AgXnxDc
Презентация: https://docs.google.com/presentation/d/1dBv63EQijKYQ_cMM6lXnLwJhr1j18AF0ksjE2cLJ-pA/edit?usp=sharing
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать кросс командную разработку хранилища данных.
Видео: https://www.youtube.com/watch?v=Zjo7AgXnxDc
Презентация: https://docs.google.com/presentation/d/1dBv63EQijKYQ_cMM6lXnLwJhr1j18AF0ksjE2cLJ-pA/edit?usp=sharing
YouTube
История одного проекта с большим техническим долгом | SQLMesh vs dbt, dltHub
🎙Спикер - Роман Зыков
🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.
🔸 SQLMesh вместо морально…
🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.
🔸 SQLMesh вместо морально…
👍20🔥7❤5🍾1🫡1
topdatalab
Как собеседовать BI аналитиков? Сейчас как раз готовлюсь к собеседованиям. И вспомнил, как меня готовил к собеседованию фейсбук. Они прислали мне подробную инструкцию как подготовится. И я сейчас подумал, почему бы и нет? Составил следующее письмо. Оно будет…
Сейчас готовлюсь собеседовать аналитиков, вспомнил, что у меня был пост на эту тему.
А именно, что нужно дать данные и темы вопросов заранее.
В отличие от прошлого интервью я решил добавить темы моделирования данных (+ dbt + индексы).
А именно, что нужно дать данные и темы вопросов заранее.
В отличие от прошлого интервью я решил добавить темы моделирования данных (+ dbt + индексы).
👍12