topdatalab

Попросил одну AI прогу направить глаза на записи в камеру

😁8🤣4🌚1

1.19K viewsRoman Zykov, 21:35

перезапустил corpsignals в декабре, трафик растет, чистая Seo органика

Думаю до 500 в день дойти к концу года
Update: а может и тысячу :)

🔥8

985 viewsRoman Zykov, edited 10:00

topdatalab

Пару недель назад получил пособеседоваться на ML Engineer в Meta. Причем и письмом, и коннектом в Linkedin.
Отказался, лень на три месяца садится и готовится к собеседованиям, по другому не пройдешь их.

PS: В Лондонском офисе Meta есть проблема с комплектованием

Вы наверное подумали - с жиру бесится чувак, но там реально нужно быстро на собесе языком чесать :)

👍9👏1

1K viewsRoman Zykov, edited 11:40

topdatalab

Metabase хоть и кажется простым для разработчика, все равно сложный для пользователя.
Нужно хорошо понимать какие данные в каких таблицах лежат.

Почему бы не использовать LLM, загрузив туда все данные?
Metabase имеет хорошее API, в том числе для создания и редактирования dashboards.
Кроме SQL можно создавать отчеты на языке конструктора. Он удобнее для конечного пользователя, его редактировать в интерфейся намного проще.
Пример создания такого отчета


{
  "name": "Sample MBQL Question",
  "description": "This question is created via API using MBQL.",
  "dataset_query": {
    "type": "query",
    "query": {
      "source-table": 2,
      "aggregation": [["count"]],
      "breakout": [["field-id", 10]]
    },
    "database": 1
  },
  "display": "bar",
  "visualization_settings": {
    "graph.show_values": true
  }
}

Я думаю заняться этим вопросом.

Сразу нашел пару интересных проектов:
1. MCP сервер для Metabase: https://github.com/sazboxai/MCP_MetaBase
2. Модицированный Metabase для AI запросов: https://churnless.ai/blog/building-ai-powered-sql-assistant
внутри ссылка на репозиторий

🔥15

1.26K viewsRoman Zykov, 14:33

topdatalab

Пропатчил и выложил последнюю стабильную версию Metabase 53.14.3.
Теперь в ней можно использовать fief авторизацию (https://t.me/topdatalab/378)
и записывать действия пользователей на сайте (https://t.me/topdatalab/401)

Почему сделал апгрейд - новая версия Metabase позволяет публиковать iframe контент, например ролики youtube.
Мне это нужно, чтобы публиковать обучающие видео прямо в dashboards.

Очень много пришлось провозитьс с драйвером DuckDB, не хотел он работать 🙁

инструкция тут: https://github.com/rzykov/metabase/blob/fief_v0.53.14.3/FiefAuth.md

🔥6🙏1

1.33K viewsRoman Zykov, edited 14:23

topdatalab

Ммм новая модель Gemma 3n от Google
https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b
https://ai.google.dev/gemma/docs/gemma-3n

Буду тестить. Уже использую Gemma3 12b в production

👍3🔥2

1.23K viewsRoman Zykov, edited 22:14

topdatalab

Нас 999!

🎉26🔥12❤4😱1💯1

1.23K viewsRoman Zykov, 09:15

topdatalab

Все в порядке, это я пытаюсь выбить деньги из компании-банкрота, где я работал. Судья был очень мил, все подробно объяснил PS: Английский суд намного гуманнее относится к людям, чем в России. Теперь у меня есть опыт и там, и там

Суд я в четверг выиграл. Мило побеседовали с судьей по видеосвязи. Она решила вопрос с компенсацией - 700 фунтов в неделю за 3 месяца. Оплатит государство UK за вычетом налогов.

PS: есть один важный фактор, чем отличается UK от той же России. Человеколюбия здесь больше. Я хорошо общался с судьями, с налоговой. В России было все гораздо жестче.

❤9🔥4👍3👎1🤯1

985 viewsRoman Zykov, 13:01

topdatalab

Нашел либу для парсинга данных из текста через LLM, которой нужны именно локальные LLM

Идея просто до гениальности
1) Пользователь задает шаблон ответа, например, json
2) Отправляет промт и текст в LLM
3) Далее библиотека взламывает последний слой сети LLM и смотрит, а какой следующий токен из множества соответствует шаблону ответа?

Библиотека называется outlines, подробнее здесь

https://learn.deeplearning.ai/courses/getting-structured-llm-output

PS: не работает с LLM по API

❤6

1.26K viewsRoman Zykov, edited 16:10

topdatalab

Книга понравилась!
Наконец дошли руки разобраться в LLM моделях. Почему понравилось:
1) что под капотом LLM на достаточном уровне, чтобы читать науч статьи
2) автор последовательно вел по эволюции алгоритмов от простых count алгоритмов к LLM
3) я в деталях разобрался в токенайзерах
4) примеры на pytorch без излишеств
5) весь код есть на гитхаб

Какие требования для чтения книги: умение читать код на Python, базовая лин. алгебра (произведения матриц), базовые знания по ML (подойдет на уровне моей книги)

👍25🔥7❤5

1.4K viewsRoman Zykov, edited 14:41

topdatalab

44 сегодня, не забивайте на свое здоровье (только один совет)

🔥46❤4👏2

1.21K viewsRoman Zykov, 17:11

topdatalab

Примерно месяц назад я переехал на Cursor и очень доволен скоростью ответов.
Неделю назад я прочитал статью на английском, как он собственно устроен и как развивался.

Перевод на русский здесь:
часть 1 https://habr.com/ru/articles/919636/
часть 2 https://habr.com/ru/articles/920660/

В целом там все очень интересно описано, особенно про индексацию кодовой базы.
Но меня лично заинтересовал упомянутый там проект, который спас Cursor от падения

https://turbopuffer.com

Ребята делают full text search и поиск по embedding, что является основой любой RAG.
Они отказались от БД в пользу S3.
Цены не скажу что высокие, буду пробовать их сам. Уж больно они хороши (из истории Cursor)

А так рецепт следующий Postgres + pg_search + pg_vector
У меня это все крутится на Corpsignals.com

👍10❤7🔥1

2.05K viewsRoman Zykov, 11:26

topdatalab

Про интервью Тинькова и Калви Осетинской…

Там интересный факт от Олега - команда разбежалась, и они не стали вместе большой финтех холдинг делать. Образовалось несколько независимых проектов: один из них Вивид мани, остальные я лично не знаю. Так вот Тиньков считает это ошибкой, что у них была очень крутая команда, были обиды, и все решили самому себе что-то доказать.

Я лично сам недооценивал раньше силу сложившихся отношений фаундеров, которая и обеспечила успех. Мнение изменил совсем недавно. Лучше поздно, чем никогда.

А так лично встречался с Оливером Хьюзом и Артемом Ямановым (топы Тинькофф), но мы тогда не договорились, чем я могу быть полезен. Через месяц я соосновал Retail Rocket

🔥18

968 viewsRoman Zykov, 18:27

topdatalab

Прочитал как оценивать LLM ботов https://hamel.dev/blog/posts/evals-faq/
Как ни странно много параллелей с разработкой рекомендательных сервисов.
В общем если вы уже хорошо знаете один домен в ML, переключиться в другой не так уж и сложно.

В эвалюатор придется вложиться и довольно сильно. Если в рекоменадциях RR это было примерно 70 процентов написанного кода (для расчетов), то в LLM похоже больше. Тексты быстрым взглядом достаточно сложно оценить в отличие от рекомендаций.
Труд должен окупиться, это дало нам хороший задел, чтобы развиваться очень быстро и теснить конкурентов.

🔥3👍1

987 viewsRoman Zykov, edited 15:23

topdatalab

Выложили видео с моего вебинара про SQLMesh и dltHub. Кроме рассказа, я показывал все на примерах, как на лабораторных работах. Думаю его полезно послушать тем, кто хочет использовать самые современные инструменты open-source data engineering. При этом организовать…

Тупой, еще тупее! Это про меня.
Пару месяцев назад я хотел улучшить пользовательский опыт - добавить комментарии к полям и названиям таблиц так,
чтобы они отображались в Metabase. Там это можно сделать в интерфейсе, но кто будет за этим следить!?

Я хотел чтобы они пробрасывались напрямую из SQLMesh кода. Два месяца назад у меня не получилось.
Думал уже писать парсер, который будет сканировать код SQL Mesh и пробрасывать комментарии через API Metabase.

А ларчик легко открывался. Дай думаю, прочитаю еще раз документацию...
Начал читать блок: https://sqlmesh.readthedocs.io/en/stable/concepts/models/overview/#model-description-and-comments

Думаю, ок, ну наверное наша БД для view поддерживает. А оказывается поддерживает (Postgres): https://sqlmesh.readthedocs.io/en/stable/concepts/models/overview/#engine-comment-support

Почему два месяца назад не получилось - я не знаю, помню только, что нашел информацию про то, что Postgres не поддерживает комментарии на view.
Возможно это была информация от ChatGPT - и тут она соврала.

PS: по прежнему считаю SQLMesh гениальным продуктом, который выдавит DBT

🐳7

988 viewsRoman Zykov, edited 16:00

topdatalab

Как использовать Gemini Pro 2.5 (c 1 млн контекстом) в VSCode или Cursor бесплатно?

Как вы знаете, недавно Google выпустил Gemini Cli для терминала с довольно слабыми ограничениями: 1 mln размер окна токенов, 60 запросов в минуту, 1000 запросов в день максимум!

Я нашел способ, как его использовать в VSCode или Cursor бесплатно:
1) Ставите Gemini Cli https://github.com/google-gemini/gemini-cli
2) Авторизуетесь в терминале в gemini-cli на свой бесплатный Gmail аккаунт (не корпоративный Workspace) [gemini команда, потом /auth]
3) В VSCode или Cursor cтавите плагин CLine 3.18.0 (обязательно эту версию, в следующих gemini cli убрали)
4) Запускаете Cline - авторизуетесь
5) В интерфейсе Cline выберите "Gemini Cli Provider"

Пользуйтесь на здоровье!

🔥21👍5

1K viewsRoman Zykov, 10:05

topdatalab

На текущий проект покупаем платный Metabase. У нас хорошая компания - OpenAI среди их клиентов!

Почему покупаем - у нас финтех, нужно жестче регулировать доступы к данным на уровне столбцов и строк

🔥5😁1👀1

953 viewsRoman Zykov, edited 11:25

topdatalab

Сейчас много, кто кодит свои проекты. Но что делать, если вы знаете Python, но не JavaScript/TypeScript?

Я бы рекомендовал обратить внимание на HTMX - взаимодейтсвие с пользователем управляется не на стороне браузера, а на стороне сервера.
Это позволяет писать проекты в одно лицо, эдакий Full Stack, когда вам не нужен отдельный Front end разработчик.
Для этого я рекомендую ознакомится с книгой https://hypermedia.systems/book/contents/
Она написана авторами HTMX. Книга также является хорошим введением в инженерию веб разработки.

Сам я пробовал использовать JavaScript/TypeScript для React, нанял программиста. При этом я писал backend на Python. Я столкнулся с проблемой - нужно писать детальные ТЗ. Мне стало сильно проще, когда я отказался от React и перешел на HTMX. CorpSignals написан на HTMX
Теперь я в Cursor пишу как full-stack с минимальным использованием JavaScript. И даже от него планирую избавиться перейдя на HyperScript - тоже от авторов HTMX.

🔥8👍6🙏1

1.3K viewsRoman Zykov, edited 09:24

topdatalab

за такую цену оно мне нахрен не нужно :( nic.ru. Берите домены на cloudflare - 10 USD

🤯6❤2

923 viewsRoman Zykov, 20:26

topdatalab

Пишу 100% кода через LLM последние две недели.

Написал и отрефакторил тысячи строк в Cursor за 20 баксов auto модели + CLINE с Google cli.
Думаю я больше не буду сам код писать, смысла больше нет.

От сессий с курсором очень устаю, но мне больше нравится писать тексты с правилами разработками для него.

Потом напишу рецепты.

Пока думаю купить премиум Cursor или Claude Code за 200. даже текущей конфигурации полностью хватает, но я хочу быстрее!

🔥25👍4

920 viewsRoman Zykov, edited 08:52

About

Blog

Apps

Platform