topdatalab – Telegram

topdatalab

1.27K subscribers

98 photos

10 videos

17 files

221 links

Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru

Download Telegram

About

Blog

Apps

Platform

1.27K subscribers

💻 Pair Programming Interview Guide - May 2025 (1).pdf

Shopify уже проводит кодинг интервью c AI, Meta только начинает

Я прикрепил инструкцию от Shopify, как проходит такое интервью.

Задачи могут быть разными: написать сокращатель ссылок, сделать ленивый Map-Reduce на Python.

Я на днях напишу инструкцию (даже для себя), как я пишу код на Cursor.

PS: Я для теста прошел такое интервью, но тут отдельная история. Я становлюсь невнимательным к деталям, когда время жмет.
Например, всю городскую олимпиаду по физике я решил за 10 минут, сдал, ушел. Занял только шестое место, так как допустил мелкие неточности (детали)

👍15❤3

1.26K viewsRoman Zykov, edited 08:33

Запустил пару недель назад веб-приложение с RAG

1) Сетка Qwen 3 embed 0.4B - работает прямо на процессоре, поэтому самая маленькая. Пришлось конвернуть в формат ONNX
2) Готовые эмбеддинги в Postgres в pg_vector. Считал на своем домашнем AI сервере

Пробовал RAG Pinecone - не понравилось, сделал сам.
Весь код писался в Cursor + иногда Claude code - самые дешевые подписки.
Front и Back дружат за счет htmx https://t.me/topdatalab/453
Никакого React и прочего. Что сильно облегчило тестирование в том числе в самом Cursor

Всем кто интересуются RAG - очень рекомендую пройти короткий курс https://learn.deeplearning.ai/courses/advanced-retrieval-for-ai/lesson/kb5oj/introduction
Без воды, все по делу.

Само приложение https://corpsignals.com/app/

UPDATE:
1) Для поиска использую косинусную меру (привет рекомендательные системы)
2) Как оно работает внутри
- собрал тексты
- пропустил их через локальную Qwen 3 у себя дома на сервере, можно на домашнем компе
- embeddings сохранил в Postgres в pg_vector, размерность 1024
- далее добавил в Web приложение загрузку локальной Qwen 3 в формате Onnx
- когда приходит запрос от пользователя - он отправляется в сетку на Onnx, вычисляются embeddings
- ищу для этого embedidng в Postgres в pg_vector ближайшие тексты по косинусу

👍13🔥8❤4

1.61K viewsRoman Zykov, edited 08:37

Вот примерно как RAG ищет, с cosine similarity

❤2🔥1

1.25K viewsRoman Zykov, 22:51

Вышла в апреле, толстая - 500 страниц. Пора уже посмотреть на инженерные подходы, мне перестало хватать собственных знаний. Впечатления напишу потом

🔥9❤5👍5🤯2😱1

1.49K viewsRoman Zykov, 11:59

Получил интересный опыт оптимизации очень сложного SQLскрипта

Был скрипт - считался 900 секунд в SQL mesh, написан сложно. Я в его предметной области плохо разбирался.
Что я сделал
- Запустил по нему EXPLAIN ANALYZE DBeaver
- Подождал, cохранил результат в файл
- Загрузил файл в GPT5, попросил оптимизировать и предложить индексы
- Взял скрипт, запустил его в отдельной ветке SQLMesh, индексы не стал делать
- Попросил GPT5 написать SQL скрипт, который бы сравнил два результата в двух ветках SQLMesh
- Он его написал и использованием md5 от всех значений таблицы. Результат полностью совпал

Индексы я делать не стал. Скрипт стал работать 43 секунды.
Я такое сам бы не написал 🙁

🔥25👏8

2.56K viewsRoman Zykov, 15:44

Закончил свежий курс по Claude Code

Что нового узнал:
1) про MCP, например я сразу прикрутил Playwright, планирую еще Postgres
2) про параллельное программирование в Claude. Я правда не понял, зачем оно нужно. Параллельно задачи сложно делать
3) про Github issues и хуки, было интересно увидеть, как СС закрывает issues
4) как использовать дизайны Figma

В целом рекомендую, авторы - Anthropic
https://learn.deeplearning.ai/courses/claude-code-a-highly-agentic-coding-assistant/

Промпты с курса тут, буду к ним возвращаться
https://github.com/https-deeplearning-ai/sc-claude-code-files

👍10❤8🙏1

1.43K viewsRoman Zykov, 11:10

Ожидаемо от Cursor

Auto будут чарджить по usage.

“Second, we’re updating our limits on "Auto" for individuals. At your next billing renewal after September 15, Auto will contribute to your included monthly usage at competitive token rates. From December 2023 to June 2025, Auto was priced at the same cost as other premium models. Since June 2025, Auto has been unlimited for individuals and priced at the same cost as other premium models for teams. We’ve heavily invested in the quality and overall performance of Auto.”

https://cursor.com/en/blog/aug-2025-pricing
Сколько я буду платить видно из скриношота. Примерно 100$ в месяц. Сейчас плачу фикс - 20$ без лимитов

😱1

1.62K viewsRoman Zykov, edited 13:11

Data Engineer в мою команду в Лондоне!

Начал искать инженера данных в свою команду в Лондоне.
Уровень ближе к Senior. Предпочтительно в Лондоне.
У нас нестандартый open-source стeк: https://t.me/topdatalab/426

Ссылка на вакансию: https://newfts.bamboohr.com/careers/180?source=aWQ9MTE%3D

PS: К сожалению, визу не спонсируем. Если не найду в Лондоне, буду смотреть удаленщиков

Выложили видео с моего вебинара про SQLMesh и dltHub.
Кроме рассказа, я показывал все на примерах, как на лабораторных работах.
Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering.
При этом организовать…

🔥9❤3

10K viewsRoman Zykov, edited 10:40

Как работает Zaraz, иллюстрация к посту выше.

Начал внедрять альтернативу Google GTM и Google Analytics - Cloudflare Tag Manager (в прошлом Zaraz) в финтех проект, чтобы собирать данные с сайта.

Еще раз в чем его плюсы:
1) Исполнение JS кода трекеров на стороне серверов Cloudflare
2) В админке можно подключать рекламные трекеры, или даже свои Custom endpoint
3) Ничего на сайте не нужно делать, только развесить кастомные события. Cloudflare сам внедрит JS
4) Cookie consent кривой, но есть хорошее API.

Как делаю:
1) ставлю Cloudflare Tag Manager на сайт
2) сделали кастомный https endpoint на Cloudflare Worker, который пишет логи на S3 (R2 Cloudflare) в виде JSON
3) прикрутил Duckdb процессор к SQLMesh (https://t.me/topdatalab/459), чтобы забирать данные по S3 и лить их прямо в Postgres не выходя из SQLMesh.

Вот что значит sexy data engineering!

👍8🔥6

1.34K viewsRoman Zykov, edited 09:42

Вышла в апреле, толстая - 500 страниц. Пора уже посмотреть на инженерные подходы, мне перестало хватать собственных знаний. Впечатления напишу потом

AI всегда даст под "дых", если вы "плаваете" в какой-то теме.
Поэтому учиться нужно всегда!

Рекомендую эту книгу, прочитал уже треть. Знаниями уже пользуюсь!
Рекомендую, если вы знаете базово Python и планируете писать приложения с данными на уровне выше, чем vibe coding.

PS: Как же на Python неудобно писать сложные приложение по сравнению со Scala 🙁

👍6🔥2

1.09K viewsRoman Zykov, edited 09:49

Ожидаемо от Cursor Auto будут чарджить по usage. “Second, we’re updating our limits on "Auto" for individuals. At your next billing renewal after September 15, Auto will contribute to your included monthly usage at competitive token rates. From December…

Если купить годовую подписку на Cursor до 15 сентября, то Auto режим не будет чарджится как API вызовы

UPDATE: подписку купил!

🔥8

1.14K viewsRoman Zykov, edited 12:51

Использую Cursor Auto mode, Claude Code, ChatGPT codex именно в этом порядке.

Почему? Прежде всего из-за скорости ответа, она деградирует именно в этом порядке.

На все сервисы я подписан самой дешевой подпиской. И использую их в курсоре.
Еще одна важная особенность Cursor индексирует всю кодовую базу, а Code и Codex делают поиск.

Плюс все эти компании выкатывают апдейты моделей или переключают их на квантизованные (худшее качество) в момент больших нагрузок.
Поэтому я не ведусь на рассказы, что Claude лучше Cursor. Сегодня да, а завтра нет.

Аглоритм мой такой: иду по списку моделей, если вижу, что с трех попыток текущая ничего толкового не сделала, беру следующую.

👍17❤1🍾1

1.39K viewsRoman Zykov, edited 10:36

Запустил пару недель назад веб-приложение с RAG 1) Сетка Qwen 3 embed 0.4B - работает прямо на процессоре, поэтому самая маленькая. Пришлось конвернуть в формат ONNX 2) Готовые эмбеддинги в Postgres в pg_vector. Считал на своем домашнем AI сервере Пробовал…

Только что пришло письмо про легковесную Gemma 3 для мобильных устройств. Будет время попробую запустить ее на своей сайте прямо на процессоре, сейчас там Qwen 3

https://developers.googleblog.com/en/introducing-embeddinggemma/?utm_campaign=embeddinggemma&utm_medium=email&utm_source=newsletter

🔥4

1.42K viewsRoman Zykov, edited 20:21

Увидел, что Intercom запустил блог research
https://fin.ai/research/

Ребята вовсю тренируют локальные LLM модели, и используют RAG.
Я туда собеседовался полтора года назад - получил очень приятно впечатление.

Про Intercom: https://t.me/topdatalab/334
Про мой RAG: https://t.me/topdatalab/462

🔥3❤1

1.13K viewsRoman Zykov, 12:38

Печально, если пионеры AI - Stability AI закроются
https://the-decoder.com/stable-diffusion-creator-stability-ai-fights-for-survival-amid-financial-turmoil/

Stable Diffusion creator Stability AI fights for survival amid financial turmoil

Stability AI, the British AI startup once valued at $1 billion and known for the popular text-to-image generator Stable Diffusion, is fighting for survival.

1.16K viewsRoman Zykov, 14:59

Немного негатива про AI кодинг 🙂

1) У меня была серьезная проблема с производительностью веб сервера из-за моей ошибки. Ни один LLM помощник не помог мне ее решить.
Помогла книга, которую я рекламировал выше
2) Ни один LLM агент не предложил использовать MATERIALIZED для CTE в Postgress. Я и сам не знал про эту опцию, пока не подсказали. Включил - улучшил производительность в разы
3) В процессе анализа кода я обнаружил три функции, которые делают одно и то же. Грешу на Claude
4) Примерно через неделю после плотной работы я обнаружил функцию на 1500 строк 🙂 до сих пор с ней разбираюсь
5) В целом AI плохо работают с абстракцией в коде
6) Агенты не подсказали мне использовать Pydantic и data classes

Меня лично эти проблемы заставили учиться серьезнее и обложиться книгами.
Но от агентов я не отказываюсь!

❤12👍8🔥2

1.2K viewsRoman Zykov, edited 11:09

Data Engineer в мою команду в Лондоне! Начал искать инженера данных в свою команду в Лондоне. Уровень ближе к Senior. Предпочтительно в Лондоне. У нас нестандартый open-source стeк: https://t.me/topdatalab/426 Ссылка на вакансию: https://newfts.bambooh…

В процессе поиска data инженера выяснил, что сейчас разница в цене минимальна, что Европа, что Англия, что бывший СССР

857 viewsRoman Zykov, edited 21:31

Запустил пару недель назад веб-приложение с RAG 1) Сетка Qwen 3 embed 0.4B - работает прямо на процессоре, поэтому самая маленькая. Пришлось конвернуть в формат ONNX 2) Готовые эмбеддинги в Postgres в pg_vector. Считал на своем домашнем AI сервере Пробовал…

выложил новую версию приложения:
- добавил UI фильтры (htmx + JS)
- переинжинирил код
- добавил трех email провайдеров
- на днях буду менять нейросеть QWEN 3 на Gemma 3 embed

мои наблюдения по LLM кодингу:
- мелкие JS библиотеки плохо поддерживаются (Alpine JS), проще использовать обычный JS
- htmx, Tailwind - хорошо

Смотреть: https://corpsignals.com/app/

PS: не будет AGI 🙂 все это рекламная болтовня AI вендров.
Серьезный софт инжиниринг не заменит, но пишет он быстрее человека, чем я и пользуюсь

CorpSignals.com

CorpSignals App

Access the CorpSignals application

👍3

1.02K viewsRoman Zykov, edited 22:00

Завтра позвали на
https://www.anthropic.com/events/london-builder-summit-2025

думаю будет полезно

Update:
Hi Roman,
Thank you for your interest in Anthropic Builder Summit London on Wednesday, 1 October 2025.
An email you may have recieved a few minutes ago was sent in error and we apologize for any confusion.
Capacity for the event is very limited, and were unable to approve your application to attend at this time.
However, we will host a number of events in London in the future and would love to have you.

🙈6👍3🔥3❤1💯1

1.25K viewsRoman Zykov, edited 14:01

Неделю назад был модератором панели про AI в Enterprise search, здесь, в Лондоне

🔥13👍7

1.11K viewsRoman Zykov, edited 20:07