Big Ledovsky | AI изнутри
1.84K subscribers
228 photos
18 videos
4 files
189 links
Александр Ледовский
Head of AI | stealth ecom стартап, ex: Avito, Сбер, ШАД
ML в проде и что реально происходит в AI
DS карьера и менеджмент

@aledovsky
Download Telegram
С Data Fusion 2026

Сейчас на конференции. Она получилась отличной. Хорошие треки, было что послушать. Традиционно сделали селфи с Никитой и другими ребятами.

Была интересная сессия про context multi-armed bandits. Там рассказывали про исследование, что можно использовать бандитов для холодного старта рекомендаций. Типа на 100к айтемов. Чтобы такое завести нужно применить кое-какие матричные разложения, но это работает. Интересно насколько это применимо на практике.
10🔥4
Как ассистенты ухудшили существующие продукты

Желание менеджеров сделать AI во чтобы то ни стало не приводит ни к чему хорошему 🤮

У меня есть два примера плохого на мой взгляд использования ассистентов.

Первый - это Госуслуги. Там просто отключили обычный поиск, оставив только ассистента.

Второй - Сбербанк онлайн. Там оставили обычный поиск, но если ты нажимаешь на запрос из истории, то все равно попадаешь в ассистента (например, вместо кабинета самозанятого попадаешь в диалог про самозанятость).

Ну и плюс Сбер закрыл доступ к человеческой поддержке. Для премиальных клиентов (премьер, первый) она осталась, но тебя все равно пытаются задушить AI. Поэтому я лично хожу в отделение ногами.

Оба ассистента в целом хорошие. Но они медленные. И с ними невозможно договориться, когда что-то пошло не так (=любой непопулярный запрос, обычно у меня такой, т.к. все простые вещи я и так знаю как делать).

Короче спорные решения. Создают большую когнитивную нагрузку пользователю, где этого не ожидаешь. Я вот недавно думал про добавление LLM в наш поиск, но посмотрев эти кейсы понимаю, что просто так делать лейтенси в 5 секунд нельзя 🔫
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯26🔥6🤗5
Вакансии в аналитику

Всем, привет!

Я уже рассказывал про свою новую компанию и про Data Science вакансии. Но я знаю, что меня читают не только DS, но и много аналитиков. Поэтому сегодня расскажу про вакансии в аналитику.

Head of Analytics - Юра Фандеев. Юра проработал в Авито много лет и был одним из тех, кто создал мнение про аналитику Авито, как лучшую на рынке. Команда у Юры отличная. С Женей Мурзаевой, руководителем одной из команд, мы когда-то запускали в Авито продвижение за бюджет (вы его видите, когда подаете объявления в товарах). Дальше описание от Юры.



Ищем продуктовых аналитиков в нашу команду. Уровень middle/middle+.

Что вы там делаете в аналитике? У вас же продукт еще не запущен, данных нет

Выстраиваем аналитику продукта с нуля, чтобы быть максимально готовыми к запуску.
От логирования до витрин, от метрик до дашбордов – всё это создается и прорабатывается прямо сейчас.
Вам не придется работать с легаси. Вы сами будете создателем легаси.

Кроме того, мы помогаем бизнесу и продукту готовиться к выходу на рынок, помогая находить ответы на самые открытые и сложные вопросы.
А сколько у нас будет юзеров через N месяцев? А как нам монетизировать продукт? А какие локации плохо покрыты подключенными службами доставки? А как управлять балансом спроса и предложения?

Сегодня вы прорабатываете логирование с разработчиками поиска, завтра играетесь с катбустом, послезавтра анализируете конкурента.

Какая команда?

У нас пока две команды аналитики. Тимлиды – Маша Новикова и Женя Мурзаева. Вы могли видеть их в "Коммуналке аналитиков Авито" (а у Жени также есть свой канал)

Еще из плюсов – команды только формируются, и за аналитиками не закреплены конкретные стримы. Вы можете успеть поработать с разными направлениями и выбрать то, что больше по душе.

Какой стек?

СУБД – Clickhouse + Trino
Визуализация – Redash
АБ-тестирование – Trisigma
Приветствуем осознанное применении ИИ-агентов (есть компенсация подписки)

Условия работы

Предпочитаем гибрид (периодически встречаемся командой вживую), но нанимаем и на полную удаленку.
Офис на Менделеевской.

Приходите. У нас весело как в стартапе, а зп как в корпорации.



Присылайте резюме и задавайте вопросы в лс @GeorgeFandeev

Репосты приветствуются!
🔥1675
Хочу прорекламировать Толино соревнование по рекомендациям.

Датасет - на 170 млн айтемов и 5 млрд взаимодействий. Это очень серьезно. А данные Авито очень интересные.

На мой взгляд одно из топовых ds-соревнований последних месяцев. Если хотели где-то поучаствовать, сейчас самое время.
5🔥2
Forwarded from Б/У ml
Всем привет!
Хочу поделиться запуском соревы - https://ods.ai/competitions/avitotechmlcup2026

Так как времени не так много, а соревы я люблю то нашел такое хобби:
запускать соревы самому

В этот раз вложились гораздо больше чем год назад (задача про ноды):
1) Большой относительно рекомендаций объем данных - в 20 раз больше с прошлым годом
2) Более продуманная метрика - есть баланс по вертикалям + геп. В прошлый раз был весьма обрезанный датасет
3) Гораздо ближе к текущему проду чем в прошлом году - завязываемся на item_id, а не на ноды

Залетайте в соревку и делитесь инсайдами :)
PS это сорева сделана полностью на добровольных началах из за любви к ds. Ну почти - мне еще дадут мерчь :)
4🔥4
Что я поменял в DS работе

Я не люблю Jupyter ноутбуки как результат DS работы 🔫 Отдельно можно поговорить почему. Но так или иначе раньше отказаться от них не получалось

Появление кодинговых агентов все поменяло. Мы с командой постепенно переходим на следующую схему

- Python скрипты
- Оформление выводов в маркдаун а затем сразу на конфлюенс
- Визуализация в streamlit

Почему

1. Выяснилось, что удобная механика «запустил ячейку, получил вывод» заменяется на «агент запустил скрипт и красиво оформил результат в markdown»

2. Клод нереально быстро клепает стримлит. А стримлит это полноценный дашборд / data app. Для каждого проекта я делаю свой стримлит, как полноценный сервис в кубере. Выкатывается одной командой и сразу доступен коллегам

Ноутбуки остаются только как средство вручную что-то покопать. Для чего они и нужны 😌
Please open Telegram to view this post
VIEW IN TELEGRAM
18🔥14
This media is not supported in your browser
VIEW IN TELEGRAM
Собираюсь на Inside AI Meetup от Wildberries & Russ

Программа очень интересная: LLM, поиск, рекомендации, модерация, ML инфра. Собираюсь пойти сам и готов порекомендовать остальным. Вот чуть более подробное описание.



На митапе обсудят реальные кейсы: от высоконагруженной модерации с векторным поиском и AIOps-подходов к управлению ML-сервисами до практики построения RAG-систем, тонкостей реранкинга и реальных этапов запуска LLM-продуктов.

▫️Выступать будут: эксперты Wildberries & Russ, MWS, Avito, Сбера, Альфа-Банка, red_mad_robot.

▫️Кому будет интересно: senior ML/AI инженерам, MLE, DS, инженерам платформ и всем, кто строит или масштабирует AI-системы в продакшене.

▫️Когда и где: 20 мая, старт в 15:00. Москва + онлайн-трансляция.

Регистрируйтесь и приглашайте коллег! Подробности — на сайте.
🔥63
История блокировки не клода

Телеграм гудит от массовой блокировки аккаунтов клода россиян 🔫. Вот вам другая свежая история.

Мы какое-то время назад создали аккаунт OpenAI. Все официально, в белую, на рабочие почты. Компания у нас международная. Положили денег, стали использовать, подняли тир. И тут нас резко банят. Всем, кто был добавлен в организацию приходят отбивки о блокировке. Причина.. дистиляция. Деньги которые мы положили естественно не вернули 💸 (хотя честно говоря это последнее, что меня беспокоило).

Никакой дистиляции конечно мы не делали. Размечали релевантность поиска и тюнили промпты для переводов. Видимо за тюнинг промптов через DSPy нас и забанили.

Мы написали с двух аккаунтов аппеляцию, что мы ничего плохого не делали. Две недели ответа не было и мы уже думали куда писать дальше (например, чуваку на форуме в такой же ситуации помогло только публично пожаловаться, что ему не отвечают). Неожиданно через две недели на один аккаунт пришел ответ, что мы были заблокированы ошибочно и этот аккаунт разблокировали. Правда автоматика работает странно и все остальные аккаунты все равно не разбанили. Нужно теперь и с ними что-то делать 🦶

Мораль

Завязываться на внешних провайдеров LLM опасно. Однако использовать их все равно нужно. Поднимать топовые модели самим - нужно иметь вескую причину и огромный бюджет на железо. Не говоря уже о том, что закрытые модели сейчас работают реально лучше.

Не завязывайтесь на одного провайдера. Продумывайте план, если вас отключат, чтобы у вас не встал прод. Мы именно это и сделали.
Please open Telegram to view this post
VIEW IN TELEGRAM
19🔥5🤯5
OpenAI прекращают поддержку файнтюнинга моделей

Новость, которая отражает какие подходы побеждают, а какие проигрывают 💀

Насколько я вижу вокруг: вау решений на LLM, дообученных LoRa адаптерами не получается. Хотя я не настолько категоричен как автор LLM под капотом, который считает эту ветку тупиковой.

Дообучением занимаются, когда хотят получить хороший результат на маленькой модели. Но это трудозатратный и нестабильный метод.

Лучше сперва делать решение на больших моделях, а затем думать как удешевить.

Мы так и поступили на нескольких проектах. В одном кейсе экономика на самом деле уже сошлась. А если что, ее можно удешевить продуктово, ограничив тех, на кого раскатывается фича.

А в другом экономика тоже сходится, но хочется более быстрых ответов. Поэтому мы обучаем легкий декодер (не факт что на основе LLM). Интересно что получится. У нас оптимистичные ожидания 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Моя фабрика разработки на claude code, n8n и jira

Хочу в двух словах рассказать к чему я пришел очень плотно работая на claude code с января. Прочитав статью Harness Engineering от OpenAI и послушав других людей я понял, что нужно стремиться к увеличению автономности кодиногвых агентов. Я начинал с интерактивной работы с claude и в итоге дошел до создания своей фабрики.

Общая архитектура. С помощью n8n у меня подняты workflow с 3-мя агентами, которые запускаются каждую минуту. Два workflow впомогательные, нужны чтобы разворачивать и удалять рабочее окружение. И один workflow запускает основного агента, который выполняет задачу. Каждый workflow включает получение задачи из jira, сбор контекста и запуск команды claude code —agent agent-name

Основной агент использует 3 режима: PLAN, EXECUTE, FIX. Каждый запуск (который происходит раз в минуту) агент получает таску, выбирает режим, отрабатывает, обновляет Jira и засыпает

- PLAN декомпозирует задачу на сабтаски. PLAN вызывается в начале, либо в процессе, если в комментариях написать новые требования

- EXECUTE делает одну сабтаску за раз, т.е. реализует Ralph Loop

- FIX читает комментарии в джире и делает небольшие правки не входя в планирование

Jira используется для заведения требований и написания фидбека агенту. Для передачи контекста между запусками используется специальный MD файл.

Дополнительно я реализовал "ручной режим". Скилл, который позволяет запустить агента руками, прочитать контекст задачи и доделать что-то в интерактивном режиме.

По итогу, я могу паралелльно делать 4 задачи. Больше не получается - нужно писать требования в джире и ревьюить результаты.
🔥196
Удивился решению Майкрософта срезать косты на Claude 😏. Не смогли найти 100 долларов в месяц на разработчика? В ту же сторону отреагировал убер

💬 Мысли по теме

- Факт, что при неаккуратном использовании на агентах можно сжигать нереальное количество денег. Я недавно пробовал запускать Hermes на Opus 4.7. Расхотелось 😅

- Просто подписка на курсор или клод код многократно себя окупает. Это видно невооруженным взглядом без всяких аб тестов

💬 Чтобы AI не стал только лишь дополнительным финансовым бременем 🔫, нужно делать две вещи.

1. Вводить политики на траты сверх обычных подписок. Например, включать бюджет на AI в бюджет проектов. У меня вот есть такой бюджет на DS функцию и я трижды думаю на что его тратить.

2. Закладывать сокращение количества сотрудников на тот же объем работы. Иначе это правда все бессмысленно.

Майкрософту сложно быстро отреагировать на такую смену парадигмы. Я думаю, что кран прикрыт временно. Либо они будут просто использовать не Антропик.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32💯1
Какой алгоритм рекомендаций победил в Avito ML Cup

Пока на разных днях датафеста рассказывали про трансформерные рекомендации, интересно было посмотреть, что нарешали победители соревнования, про которое я писал. Напомню, что датасет был серьезный - 5kkk взаимодействий.

🔜 Как вы наверное догадались, это не трансформер. И самое интересное, что не ALS

Победил графовый кандидатогенератор. Базовая идея этого алгоритма очень простая. Это когда вы ходите по графу взаимодействий: юзер - айтем на который он кликал - другой юзер - новый айтем. И так при желании какое-то количество раз. Дальше у алгоритма есть усложнения, как ходить лучше, чем случайно. Примеры вариаций: Pixie от Pinterest аж 2017 года и RP3beta аж 2016 года.

🔜 Все топ решения использовали подобные кандидатогенераторы и ранжирование бустингом поверх

Интересно, почему получилось так? Может быть виной хитрая метрика, которая усредняет перформанс по разным вертикалям (товары, услуги итд). Может быть то, что оставили только прогретых пользователей, у которых был контакт. Может быть гэп в 12 часов между трейном и валидацией. А может быть было мало данных на такой объем пользователей и айтемов. Говорят, трансформер не выучивал item_id (хотя они уже были semantic id).

По итогу, соревнование показало пример, что хорошие рекомендации можно построить достаточно простым подходом.

YouTube - Запись разбора решений
Б/У ML - Канал Толи, автора сорева
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135
Я заметил, что мало у кого в итоге прижились OpenClaw, Hermes и похожие агенты 🦀

Проблема OpenClaw как класса агентов, что люди им играются и бросают. Почему, можно описать одним примером.

Допустим, человек просит вести за него задачи и планировать время. Но до этого он что-нибудь делал? Есть ли у него привычка записывать задачи? Умеет ли вообще придерживаться расписания?

Поставит ему агент с 6 до 8 утра слот учить data science, он все равно не проснется. Дело не в инструментах, дело в человеке 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
💯15🌚3🤨32