topdatalab
1.27K subscribers
99 photos
10 videos
17 files
222 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
topdatalab
Как бы вы поступили?
Человек отказался! Повезло, что не успел сказать текущему работодателю!
🔥11👍8🤔1
Про AI автоматизацию в кодинге!
Моя задача проста — писать код меньше, а делать больше.

Что использую я:
1. Github Copilot Pro — очень удобно быстро что-то поправить.
Доступны разные модели, в том числе Sonnet 3.7.
2. CLINE + DeepSeek API — дешево, у меня даже получалось что-то сделать в полностью автоматическом режиме.
Потом DeepSeek стал очень популярным, и его API временно перестало работать.
Сейчас всё вернулось, но API работает медленно.
3. Мой бот дата инженера:
https://chatgpt.com/g/g-67dbef1047b48191951a514758f9ffc5-data-engineer-topdatalab

Думал про популярный Cursor, пока не прочитал сравнение:
👉 Сравнение Cursor vs CLine на Reddit

Кратко:
— Окно контекста больше у CLINE
— Нет API ограничений
— Но стоит дороже



Сейчас изучаю:
📘 Прокачка промптов в CLine

Хочу добиться ещё большей автоматизации в больших проектах! 🚀
👍41🔥1
Сделано Gemma 3 4b моделью в OLLAMA
Как я сделал автоматические саммари фин. отчетов британских компаний

Провёл все выходные, заставляя свой сервер с GPU 3090 перерабатывать гигантские финансовые отчёты британских компаний. 📈

Проблема оказалась серьёзной: отчёты по 50 страниц никто не хочет читать. Моим пользователям нужен был чёткий, краткий вывод. 🤯 А отчётов таких – миллионы, и каждый стоит огромного количества токенов через API. Сразу стало ясно – облако слишком дорогое удовольствие.

Поэтому я решился на очевидный шаг – запустил обработку прямо на своём сервере. Итог: 4500 компаний обработал всего за 5 часов! Но пришлось серьёзно повозиться:

1. Данные – это боль. 🧹 70% времени ушло на парсинг, очистку и преобразование данных из JSON в Markdown. Чистые данные оказались критически важными.

2. Промты – коварная штука. В какой-то момент модель вошла в бесконечный цикл, генерируя одно и то же предложение. Ollama прибивала процесс только через 5 минут мучений. Пришлось довести промты до ума в GPT-4.5, стало гораздо лучше.

3. Выбор софта – отдельный квест. 🛠️ VLLM отказалась работать из-за нехватки памяти на больших контекстах. Llama.cpp – вообще странная штука. Не захотел тратить ещё больше времени и остановился на Ollama.

4. Сырая Ollama и борьба за скорость. Писал много дополнительного кода вокруг Ollama. Поставил таймаут в 30 секунд на запрос – если модель "зависала", сразу прибивал процесс, экономя своё электричество и нервы. Также столкнулся с большой утечкой памяти у Gemma 3 4B на длинных контекстах (до 50 000 токенов). Ночные сборки частично решили проблему, но всё равно приходилось перезапускать Ollama каждые 100 запросов. В результате добился скорости обработки – 5 секунд на отчёт!

5. Галлюцинации моделей. 🌌 Примерно 7% отчётов пришлось отсеять простыми правилами, чтобы избежать ошибок.

📌 Что дальше?
- Сделать данные чище и сократить контекст.
- Протестировать VLLM и exllamav2 (TabbyAPI) – должно стать быстрее.
- Попробовать дообучить модель через Unsloth и использовать новые схемы квантизации exllamav2 для повышения качества.


Вот что получилось в итоге https://corpsignals.com/companies/uk/pg2019-ltd-11628610.html

UPDATE: планирую посчитать экономическую целесообразность. Возможно Deep Seek API соизмерим по цене
🔥17💯3👏1
Выяснил небольшие подробности про отличия CLINE и Cursor для vibe программирования.
Cursor имеет внутренний RAG и индексирует код, что позволяет считать эмбеддинги, и "лучше" создавать контекст, а значит и код. Плюс экономия на токенах, что важно для Cursor, там фиксированая цена подписки.
В CLINE такой фичи нет, она отправляет файлы целиком. Токенов тратится много, а значит и мы платим за API тоже. И тут мнения разделились - кто-то за подход CLINE, мол больше контекст, лучше код, кто-то за Cursor.
Тем не менее для CLINE часто звучит совет - делайте файлы меньше, работать будет лучше.

PS: Уже появляются локальные RAG в том числе для кодинга, например, https://docs.cognee.ai/core-concepts/architecture
там есть инструкция для работы CLINE, но у меня не завелось 🙁
🔥3🤔1
Скоро выходные. Что интересного нашел почитать по LLM, сам сижу читаю:
1) если собрались собрать свой GPU домашний сервер - https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ больше 1000 комментариев
Очень полезно, жаль что раньше не видел. Гораздо лучше reddit
2) Краем уха слушал курс Google и Kaggle по GenAI:
https://www.kaggle.com/whitepaper-prompt-engineering - февраль 2025 - интересно, что в примерах c промтами играют параметрами, которые обычно недоступны в обычных облачных LLM (Top-K, Top-P)
https://www.kaggle.com/whitepaper-foundational-llm-and-text-generation - полезная компиляция статей по LLM от Google. Распечатал, читаю

PS: сегодня был интересный разговор про AI adoption. И я решил, что не буду брать сотрудников, которые не пользуются LLM инструментами.
Я всегда разрешал Google на собеседованиях, теперь буду разрешать LLM
🔥9🍾2
теперь две, потом может еще парочку доставлю. Отопление можно не включать
🔥21
topdatalab
Скоро выходные. Что интересного нашел почитать по LLM, сам сижу читаю: 1) если собрались собрать свой GPU домашний сервер - https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/ больше 1000 комментариев Очень полезно, жаль что раньше не видел. Гораздо…
Говорят, что это слитоe письмо CEO Shopify. Использование GenAI инcтрументов подпадает в пункт Performance review!

PS: с текстом я полностью согласен

Update: memo оказалось правдой
👍4🤯2
Всем привет!
Сегодня в 17:00 по Лондону про вебинар по новому open source стеку для инжиниринга данных. Расскажу про dltHub и SQLMesh как замену знаменитому dbt
Forwarded from Инжиниринг Данных (Roman Ponomarev)
🚀 🚀 🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab


👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Насколько крут SQLmesh (команда Tobiko data)? Команда dbt испугалась и забанила их выступление на конференции в Вегасе полгода назад
🤣6
Perplexity начинает нанимать людей в Лондоне.
Вакансия рекрутера: https://job-boards.greenhouse.io/perplexityai/jobs/4704803007

"Preferred Qualifications: Knowledge of Russian language" 🙂
🔥14😁5🤯5👏1
Google повернулась лицом к инди хакерам, которые используют open source модели.
Они опубликовали пост про квантизванные модели Gemma3: https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718

Почему это важно?
Практически все модели, которые запускают люди на своих видеокартах квантизованы, их размеры уменьшены в разы, поэтому они могут запускаться даже на мобильных телефонах. Обычно вендоры публикуют нейронки с весами в 16 бит, далее сторонние разработчики сжимают их до 4х бит (OLLAMA). То есть объем модели уменьшается в 4 раза, а значит запустится на видеокарте с меньшим объемом памяти. Проблема в том, что при квантизации теряется точность. В ссылке выше опубликовал более хитрую квантизацию, которую они дообучили методом QAT (Quantization-Aware Training).

Первая публикация такой моедли была две недели назад. Качество по сравнению с любительскими - земля и небо. При этом сама модель занимает в 4 раза меньше места.
Сегодня гугл пошел дальше - они опубликовали неквантизованные QAT модели - далее можно использовать свои инструменты квантизации.

PS: использую Gemma3 12b, сейчас занимаюсь ускорением вычислений, для меня эта новость очень важна
🔥6👍4
topdatalab
теперь две, потом может еще парочку доставлю. Отопление можно не включать
Дешево ли эксплуатировать свой GPU сервер?

Посчитал эксплуатацию.
Я процессю десятки миллионов токенов за ночь. Эксплуатирую почти каждую ночь.
Посчитал экономику. У меня уходит примерно один доллар на электричество за ночь, при этом немного экономлю на отоплении.
Deep Seek API v3 (одно из самых дешевых API) со скидкой в 50% за работу в определенные часы попросил бы 10 долларов.

Update: Производительность вырастет в три раза, если я перейду с Gemma 3 12b на Gemma3 4b, но тут потребуется fine-tune. Тогда траты будут 1 доллар к 30 за DeepSeek
🔥12
Инжиниринг Данных
🚀 🚀 🚀 📅 Вебинар - сегодня (15 апреля в 19:00 по мск) Тема: История одного проекта с большим техническим долгом 🎙Спикер - Роман Зыков 🔍Описание: На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный…
Выложили видео с моего вебинара про SQLMesh и dltHub.
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать кросс командную разработку хранилища данных.

Видео: https://www.youtube.com/watch?v=Zjo7AgXnxDc

Презентация: https://docs.google.com/presentation/d/1dBv63EQijKYQ_cMM6lXnLwJhr1j18AF0ksjE2cLJ-pA/edit?usp=sharing
👍20🔥75🍾1🫡1
topdatalab
Как собеседовать BI аналитиков? Сейчас как раз готовлюсь к собеседованиям. И вспомнил, как меня готовил к собеседованию фейсбук. Они прислали мне подробную инструкцию как подготовится. И я сейчас подумал, почему бы и нет? Составил следующее письмо. Оно будет…
Сейчас готовлюсь собеседовать аналитиков, вспомнил, что у меня был пост на эту тему.
А именно, что нужно дать данные и темы вопросов заранее.
В отличие от прошлого интервью я решил добавить темы моделирования данных (+ dbt + индексы).
👍12
Давно слежу за командой Unsloth. Сейчас они лидеры по дообучению локальных LLM моделей, и много делают для открытого сообщества.
Так вот они выпустили свою версию динамической квантизации (в каждом слое она своя).
https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs

А так многие проекты пилят свою квантизацию. И это крайне неудобно.
Все хочу добраться до этого курса https://www.deeplearning.ai/short-courses/quantization-in-depth/, но сейчас так быстро все меняется, что знания стареют за 1 месяц 🙁

PS: Я думаю, что unsloth скоро купят, были бы деньги, вложился бы в них
3🔥3
Только вчера подумал, что появятся магазины приложений - узко специализированных нейронок.
И вот сегодня появилась нейронка
"specifically designed to generate HTML and Tailwind CSS code for web interfaces"

https://huggingface.co/Tesslate/UIGEN-T2-7B-Q8_0-GGUF

Решает одну проблему, но лучше многих
👍8🔥3
Записали и опубликовали подкаст с друзьями.
https://www.youtube.com/watch?v=tQCnHH1m0mw
Много говорили про LLM AI и вайб кодинг инструменты.

PS: Я закинул только что в прод Deep Research для своего сайта, но не настоящий, а исследовательский, фейковый 🙂
Сделал в Copilot чуть больше чем за час
👍2
Шикарный "развод" от стартапа! Написали отзыв для моего GPT от имени "sam".
Я конечно сразу подумал, что это Сэм Альтман. :)

Далее, они написали довольно известную правду (https://help.openai.com/en/articles/9300383-using-gpts-on-our-free-tier-faq).
Это пример шикарной манипуляции, конечно OpenAI не имеет к этому никакого отношения. Но это заставило мне пойти и посмотреть, что это за сайт, и проскроллить весь сайт в поиске копирайта OpenAI.
👍1