Артём обо всём

Как я на неделю стал хип-хоп продюсером

Мы с млщиками Даней и Никитой вышли на перекур, и Даня поделился историей со своей поездки в тай (если не путаю). Рассказывает, мол подходит к нему чел и говорит «чувак, ты похож на репера». Дальше завязывается разговор про потенциальную реп карьеру, где этот продюсер обещает девок (фото прилагалось), траву и помощь с продакшном за скромные инвестиции в пару тысяч долларов. Даня отметил, что если бы он не приплетал реп, то это была бы вполне понятная сделка. В общем партнерство не сложилось, но зерно сомнений в душу заложило. Ну и что я за руководитель, если не развиваю ✨человеческий капитал✨, так что предложил сдуть пыль со своей AKAI и побыть хип хоп продюсером для банды фрешменов.

Естественно, чтобы сразу заявить о себе, мы выбрали формат дисса. Но так как мы никого не знали, задиссить ребята решили соседний отдел рисеча - известных в мл тусе медиаперсон.

Записываться мы решили в нашем офисе в Сочи, где мы, как нормальные реперы, первым делом арендовали кабриолет. Правда из аппаратуры у нас был только мой ноут, мониторные наушники и миди клавиатура. Микрофон никто не привез, на месте не обнаружили. Так еще и мой ломаный абелтон отказался записывать звук вообще.

Но мы не унывали, пришли в субботу в офис и начали записываться на рекордер телефона, слушая минус с ноута. Посреди записи к нам в студию вломились уборщицы (которые пришли штатно убираться), и мы их прогнали. После этого пришел директор центра разработки, но посмотрел на нас, как на идиотов, оставил в покое. Трек мы на пол пути переписали, чтоб он органично лег под куплеты. Сводил в самолете в Москву, мучая соседей прослушиванием по сотому разу панчей уровня «бомба батл» (кто знает, тот знает).

Результаты - ниже. Вдохновлялся я любимыми Птицу Емъ, а семплы подрезал у Дюны с песни «привет с большого бодуна».

Релиз произошел в чате с рисечерами, мы получили 16 слушателей и смешанную обратную связь. Я решил, что это и есть мой пик карьеры музыкального продюсера и ушел из профессии в зените славы.

Теперь делюсь этой нетленкой с вами (dnr - в смсле, дисс на рисеч, а не то, о чем вы подумали).

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁18❤7

436 views14:03

Артём обо всём

Audio

😁11🥴3

420 views14:05

Артём обо всём

Чеклист здорового мл проекта

В Т по долгу службы мне надо присматривать за десятками МЛ проектов одновременно. Со временем у меня сложилась простая диагностическая рутина, которая вылавливает очевидные косяки. Если кто-то из олдов помнит Joel test для кодинга, то вот моя выстраданная горьким опытом версия для МЛ:

1. Цель проекта ясна
Очевидно, но есть ньюансы: Вам могут говорить, что хотят денег заработать, а на деле пытаются обогнать внутренних конкурентов и занять поляну. Или же ожидают, что сделав Х - автоматически получат У. Настоящую цель вам могут не сказать, но ее можно выяснить вопросами типо «а вот представь мы запустили Х, и получим не У а Z, это будет считаться успехом?»

2. Все требования оцифрованы и измеримы
Не только ключевая цель проекта, но и разные неявные ожидания от системы (безопасность, косты инфры, дайверсити). По каждому из значений метрик можно однозначно сказать: система ок или не ок.

3. Продуктовый дискавери сделан
Проверочный вопрос: а давайте представим, что все сделали идеально, правда ли мы увидим ожидаемые эффекты? Иногда это сложно понять не эимплементировав систему, но boy oh boy, как часто это можно сделать малой кровью, понаблюдав за действиями пользователей системы. Особенно это больно в GenAI, где ускоряют кусочек бизнес процесса, а общего ускорения не происходит; протолкнули ботлнек дальше по пайплайну, и все.

4. Экспериментальный цикл - короткий
Т. е. качественные оффлайн прокси метрики. Офлайн метрики для принятия решений сходятся по вероятности к значениям целевых метрик (хотя бы из одного распределения). Доверительные интервалы метрик - оценены (и у разметочных метрик дисперсия не только от размера выборки зависит, а еще от качества работы разметчиков). В офлайн измерениях тоже есть серые тесты.

5. Все решения принимаются через эвалы
Нет «волшебных чисел» или «волевых архитектурных решений». Если в проекте спорят, что лучше работает - это красный флаг, надо проверять на цифрах.

6. Начали с бейзлайна
Вы не поверите, как часто бейзлайн обгоняет сложные решения. Просто потому что в бейзлайне сложнее накосячить.

7. R&D бэклог опирается на аналитику
В автоматизации ошибки системы на эвале распричинены до руткоза. В персонализации фичи опираются на поведенческие или количественные исследования (или хотя бы здравый смысл). Если весь бэклог - это список архитертур моделей, то это плохой беклог. В идеале дифф между целевым значением таргет метрики и текущем должен быть полностью обьяснен и атрибутирован конкретным причинам.

8. Большая часть усилий уходит на работу с данными
Команда не пытается подстроить систему под имеющиеся данные, а активно эти данные меняет (вычищают мусор, переписывают источники, анализируют фичи).

9. Система покрыта интеграционными тестами
Мало толку от идеальной модели, если ее скоры перетираются по дороге. Особенно больно с инференсом LLM, где обновление рантайма может изменить поведение модели.

10. Эксперименты логируюися и воспроизводимы
В ответ на «мы уже это пробовали» можно посмотреть, а что конкретно пробовали, и если нужно вернуться к идее, но в чуть другой постановке.

11. Вы знаете, когда остановиться
Вы на берегу договорились, что будет критерием остановки проекта.

Ну и естественно, предполагается, что инженерная культура хорошая, млщики вычищают лики, не косячат в написании трейнлупа и т д. Этот чеклист не гарантирует успеха проекта, но если у вас проставлено меньше 9 галочек, то это плохой знак.

👍19👎1💯1

484 views06:23

Артём обо всём

А эт мы с Димой получаем деврел-овский приз за мини сериал «искатели». Кто интересуется технологиями мб будет интересно посмотреть. Кто не интересуется - можете посмотреть первые 30 секунд, где меня одели как чушу какую-то (а я че то не протестовал, и зря - на других съемках я начал бузить и мне режисер со своего плеча скинул куртку).

Смотреть тут: ютуб, ВК

❤7😁5

326 views08:20

Артём обо всём

Мы тут с женой решили посмотреть какой-нибудь comforting фильм из нулевых, и остановились на комедии «Марли и я». Это кино про семью, которая завела собаку, и та сыграла важную роль в их жизни. Но я совершил стратегический проступок, предложив на двух третях фильма прерваться и пойти спать (а досмотреть на следующий день). В итоге первый день мы посмотрели легкую семейную комедию, а второй вечер смотрели драму про кризис среднего возраста и умирающую собаку.

Не повторяйте моих ошибок.

😁12❤5🌚1

330 views08:38

Артём обо всём

GenAI - это, конечно, инвестиционный пузырь, но именно поэтому заниматься его внедрением надо сейчас
И почему нарратив про продавцов лопат - это булшит

Мне видится, что за прошлый год бизнес среда окончательно поделилась на два лагеря. Технооптимисты, обещающие нам ИИ-сингулярность и автономных агентов десятки процентов роста GDP, и пессимисты, которые грустно смотрят на P/E техно-компаний из S&P, и недоумевают. Кто прав?

Мой тейк: правы и те, и те. GenAI на длинном горизонте действительно даст десятки процентов GDP, но инвестиции в флагманские инфраструктурные компании никогда не окупятся теми иксами, на которые нам намекает их капитализация. Потому что у этих китов парадоксально нет рычага на извлечение львиной доли маржи.

По порядку. Откуда десятки процентов GDP? Ну давайте взглянем на 3 основных источника ценности.

1. Профессия разработки изменилась, и новые продукты создаются быстрее. Особенно с выходом моделей конца 2025-го года. Писать код вручную выглядит как анахронизм. Причем в наибольшем выигрыше опытные инженеры, которые знают, чего они хотят от ллм (их эффективность выросла на 20% - на этой цифре сходятся большинство серьезных исследований). При этом автономные кодинг агенты, которые создают сложные системы без человека - это все еще лабораторные прототипы, но вот быстро пробежать первую милю до MVP они помогут уже сейчас. Соло девелоперы, запускающие полноценные бизнесы уже никого не удивляют.

2. Диджитал (и не только) профессии усилились в разы.
Копирайтинг, маркетинг, управление контентом, аналитика - атомарные кусочки этих конвейеров уже ускорились за счет ко-пилотов. Более 60% сотрудников S&P 500 регулярно используют эти инструменты в работе. Со временем случится и кумулятивный эффект. По оценкам антропика это все незаметно дает +2%% GDP (нифига себе). Нецифровые профессии - готовятся.

3. Энтерпрайз автоматизация идет, но тяжело
Оказывается, что сначала нужно пройти все стадии цифровой трансформации, покрытия глубокой аналитикой (в народе - бигдата), и только потом можно сверху строить ИИ. Но и там где это все сделано, запустить пилот очень просто, масштабироваться без заметных прокрасов метрик - сложнее, а вот сделать большой и стабильный аплифт - очень тяжело. Приходится менять сами бизнес процессы, а не только втыкать ИИ. Но реально: лидеры уже далеко зашли по этий дорожке, и сомнений в успехе нет.

И казалось бы, если ты OpenAI - бери и отжимай маржу через цену за токен. Но все не так просто:
- выжимать деньги из B2C клиентов сложно. Конкуренция острая, и опенсорс не спит. Потеряешь рынок.
- выжимать деньги из В2В - опасно. Им на своей стороне надо еще сделать огромную работу, чтоб это все полетело. Если задушишь их еще и ценой - плюнут и не будут ничего делать. Попробовать самому забраться повыше по цепочке добавочной ценности - нереально (пытаются конечно, через дженерик автономных агентов, но пока выходит плохо). Каждое внедрение уникально, сотни вертикалей. Просто талантов не хватит всех окучить, даже имея бесконечные деньги. Так что приходится партнерство строить, а не быковать.

И получилась интересная ситуация. Чуваки с деньгами понимают, что происходит что-то значимое, пытаются заработать на хайпе и несут деньги в OAI, nvidia, you name it. А они не умеют возвращать инвестиции. Они могут только лопаты раздавать, а существенная часть добавочной ценности на стороне реальных компаний, которые продукты людям строят (и будут делиться маржой со своими стейкхолдерами). Но вы за OAI и софтбанк с шейхами не переживайте - они на IPO бабушкам свои убытки продадут.

А вот если вы строите реальньные продукты, и улучшаете операции опираясь на GenAI, то мои поздравления. Чуваки у которых много денег и мало экспертизы проинвестировали вам офигенный рычаг. Аккуратно считаем PnL проектов, двигаемся осторожно, пилотами, и большая часть маржи осядет в вашей компании (ну и частично у вас 😉). Кайф же.

❤8👍6💯2

416 views07:02

Артём обо всём

Пейпер нашей фундаментальной команды приняли на EACL’26 🎉

Один из поводов личной гордости: мы первые из крупных компаний пошли в опенсорс LLM в России, и собрали все возможные шишки по дороге, но в итоге раскачали движ, и теперь все крупные игроки стараются что-то сделать для комьюнити. Помимо этого ребята показывают первоклассный уровень владения технологией и изобретают ноухау, и прикольно получить лишнее тому подтверждение

👍14❤4💯3🤡1

361 viewsedited 10:01

Артём обо всём

Не высовывайся

Вот вчера у меня до пол второго ночи четверо серьезных мужчин ходили по квартире, прикладывали ухо к полу, переодически замирая на месте шепотом восклицали «во, во, пошло» и переговаривались по рации с подвалом, где перекрывали по очереди все инженерные коммуникации. Кто меня хорошо знает, думаю, догадались, что речь идет про судебную экспертизу по моей годовой тяжбе с жилищником и МОЭКО из-за шума от коммуникаций. Экспертизу провели, и сразу так и сказали, что собран инженерный узел из говна и палок с нарушениями (это еще мягко сказано, моя жена, делавшая пусконаладку нескольких крупных предприятий выразилась покрепче). Короче, кажется дальше дело техники (тут огромное спасибо мега-крутому адвокату, заходите за рекомендацией), и дальше борьба уже с другим источником беспокойства вызванного рукожопостью.

Но когда мы с экспертами лазали по квартире, и те искренне разделяли мое негодование, я думал о другом. О том, как меня раз десять посылали подальше в УК, когда я пытался договориться по хорошему. Как убеждали, что никакой проблемы нет, а я один на весь дом такой. Никто же больше не жалуется (ну ладно, один жаловался, но перестал). Че высовываешься?

Зато поскандалить в чате дома о каких то мелочах все в очередь выстраиваются. Мне тут наверное еще повезло, в доме много неравнодушных людей, которые искренне пытаются отстоять общие интересы дома и вкладывают в это силы. Но большинство, конечно не высовывается. Да и я сам чаще всего. Всегда есть хорошая причина.

А иногда наверное надо, просто чтоб жизнь почувствовать. Чтоб с четырьмя серьезными мужчинами играть в час ночи у себя дома в «морская фигура на месте замри», глядя на показания шумометра. Когда еще такой шанс выпадет?

👍9❤6😱3

353 views12:48

Артём обо всём

Чем заканчивается любой банковский брейншторм на любую тему

😁18💯3😢1

354 views06:49

Артём обо всём

Платформенные продукты vs касдев

В какой-то момент карьеры мне подвернулась очень крутая возможность пойти строить AI SAAS в быстрорастущем стартапе. Классные фаундеры, понятный ров, растущая клиентская база, известный фонд прикрывает деньгами, международные продажи, короче мечта.

Год работы спустя мы с командой запускаем продукт, выходит статья про нас на техкранче, батлкарды написаны, короче готовы. Официальный запуск 22 февраля 2022, и уже через два дня планы наши начали довольно резко и необратимо меняться по понятным всем причинам. Потом мы заработали компании денег совсем другими вещами, и это уже совсем другая тема, но вот история моей AI платформы на этом по большому счету закончилась.

Обычно я так эту историю и рассказываю, и драматургически в ней ни добавить, ни убавить. Очень удобно все списать на потрясения в мире. Но на деле то я понимаю, что даже если бы внешний контекст не менялся, мой продукт ждали бы большие проблемы.

Вот в чем дело. Когда я начинал его строить, я естественно погрузился в то, какие решения строят ребята в касдев команде под клиентов, и даже первый пруф оф концепт платформы мы запускали совместно. Но вот потом я в себя поверил и пошел строить дизрапт-некст ген продукт, который давал небывалую гибкость, красивую архитектуру и лучшие модели под капотом. Я до сих пор считаю, что это самый удобный и гибкий конструктор в этой области, из всего что я трогал.

Было два ньюанса.

Этот идеальный конструктор был несовместим с тулчейном касдев команды. Тот был не МЛ-изированный и элегантный, но зато легко адаптировался под любые дикие хотелки клиентов. Разница была как между военной и гражданской техникой: где военная техника не отличается удобством и эргономикой, но зато максимально ремонтно пригодна и проста для модификаций. Вот я и строил айфон для людей, которым нужна была walkie-talkie рация.

Хуже было то, что буквально через год нас ждала LLM революция, и сама парадигма подобных продуктов начала необратимо меняться, а моя платформа в один день стала бы морально устаревшей.

Я этот урок выучил. Уже в Т, когда мы строили AutoML платформу мы действовали совсем по другому: мы начали с того, что долго делали касдев и шаг за шагом обобщали свой опыт инструментами. В итоге набор платформенных инструментов был прост в обслуживании и модификации, недорогим в разработке, и нам было не жалко его забросить, когда он себя исчерпал. А мы смогли из этой активности запустить целое направление контентного менеджмента для екома в Т-Банке и автоматизировать разметки на сотню с лишним миллионов в год.

Я до сих пор считаю, что иногда нужно ломать статус кво и плясать от вижена. Но мне кажется, нам слишком уж часто хочется побыть визионерами там, где надо скучно и целенаправленно сделать свою работу.

❤6🤔5💯2🌚1

407 views07:01

Артём обо всём

Убираем снег в пост-индустриальной цивилизации Москву и Подмосковье завалило снегом (рекорд за последние пол века). Мне посчастливилось в это время оказаться в деревне, где если ты сам его не почистишь, то через пару дней окажешься забаррикадированным в своем…

Бойтесь своих желаний…

😁11

420 views19:45

Артём обо всём

Деконструкция советских комедий

Я видимо старею, но на этих новогодних праздниках с небывалым удовольствием пересмотрел все главные советские комедии. И сейчас стал подмечать, что Новосельцев работает в опенспейсе, которому позавидует большинство современных офисных работников (работягам с водного привет!), модная квартира на мосфильмовской из «Москва слезам не верит» до сих пор вполне себе востребованная недвижка, а сами истории в корне своем почти не стареют.

И я вспомнил о совершенно фееричном выступлении ~~Жоры Крыжовникова~~ Андрея Першина на тиньковской продуктовой конфе «продукты 24» двухлетней давности, где тот разбирал режиссерские инструменты управления зрительским вниманием в советских комедиях. И это оказалось не менее интересно, чем эти самые комедии смотреть. Хочется думать, что именно это выступление сподвигло его запустить свой канал, где он развил эту тему в серию лекций по самым знаковым фильмам Данелия, Рязанова и Гайдая.

И я как наноинфлюенсер хочу отдать дань Андрею и порекомендовать его канал, чтоб его аудитория росла (хоть и на сотню человек, но зато каких!) а он и дальше радовал своими разборами. А если посмотрите другие видосы с канала «карты, деньги и продукт» по первой ссылке, то можете найти и

мое там интервью

YouTube

Продукты 24. Зал «Витрина вдохновения»

Первая продуктово-аналитическая конференция Т-Банка о самом свежем и актуальном.

Таймкоды:

0:00 – открытие
9:00 – «Экосистема в банке». Константин Маркелов,Т‑Банк
55:17 – «Как генетические технологии меняют мир?». Александр Ракитько, Genotek
1:42:43 – Наталья…

👍3❤1

550 views07:10

Артём обо всём

LLM-as-a-judge - индустриальный антипаттерн

Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки при внедрении (easy), но при этом непрозрачно прячут под капотом огромную сложность (not simple). Про эмбеддинги поговорим потом, а вот с llm-as-a-judge давайте разбираться.

Казалось бы ну кайф. Вот сделали вы систему (агентскую, разумеется). Надо ее качество замерять на каждом эксперименте. Раньше надо было нанимать разметчиков, обучать их, ждать днями каждую разметку. А тут написал промпт проверки ответа и LLM сама быстро все размечает. Эксперименты ускоряются, ту зэ мун.

Но вот проблема: этот промпт надо написать. А для сложных сценариев надо еще и подложить в этот промпт какие то данные о внешнем состоянии системы в тесткейсе. Уже выглядит как задачка на context engineering. А как из всех возможных промптов выбрать тот, который реально работает? Видимо руками размечать. Кажется, что и ок, руками разметили один раз, а потом у нас автоматический оценщик. Ну так то тоже мимо: дрифт ответов системы (а это буквально задача R&D - сдрифтить ответы системы в сторону правильных), и все, по хорошему надо переразмечать качество джаджа.

Ну ладно, есть задачки где промпты-инструкции простые. Там то все хорошо? Ну вот нет: модели же еще и игнорируют эти инструкции. Опять же в разном проценте случаев на разных распределениях аутпутов системы. Один раз посчитать и забыть не получится.

Че-то нифига не просто да? И без живых разметчиков не обойтись. Вот и получается, что вроде внедрять очень просто, но заставить это стабильно и хорошо работать - очень трудно.

Когда же llm-as-a-judge полезен?

1. Команда относится к джаджу, как к отдельному продукту. Со своими метриками, своим беклогом. И все равно дополняет разметочными метриками.

2. Джадж - это часть композитного реворда для алаймента. Тут все ясно: даже неидеальный рекорд может накинуть метрик.

3. Джадж удешевляет человеческие разметки. Например схема с перекрытиями, где один из размерчиков - это ллм. А лучше ансамбль разных ллм.

4. Вы учитесь строить продукты. Тогда действительно пофиг на финальное качество, главное, чтоб сложилась культура работы с хоть какими то метриками.

В остальных случаях я убежден, что llm-as-a-judge - это бомба замедленного действия, которая дает ложное чувство контроля.

👍17❤9💯3🤔2🤡1

5.07K views07:08

Артём обо всём

Некоторое время назад у меня была очень странная цепочка знакомств, встреч и разговоров, которые пошатнули стабильность внутреннего компаса ценностей. Когда ты думаешь «Блин, а может быть я просто слишком наивен? Может быть я одел белое пальто, и размышляю о высоком, а на деле надо грызьться за каждый клочёк места под солнцем. Может быть я не на тех людей смотрю, как на ролевые модели».

Вот этими мыслями я приболел. К счастью близкие люди были рядом и быстро смоделировали куда такая дорожка ведет, и почему ничего хорошего в этом нет. И окончательно вернула волю к жизни в этом мини-кризисе мне статья Сартра: «экзистенциализм - это гуманизм».

Если попробовать ужать ее досуха (что, конечно, преступление), то мысль там простая: человек - это проект, который сам себя строит. И в этом проекте важны и имеют ценность и вес только дела. Все попытки сконструировать другую ценность извне - иллюзорны и несостоятельны. А строя себя ты строишь человечество.

В этом контексте он привел классный пример: во времена оккупации Франции к нему пришел ученик и спросил, как правильно поступить: остаться с ослабевшей матерью и спасти ее от смерти в одиночестве или пойти в сопротивление и бороться с нацистами. Ни одна моральная система не могла помочь в этой конкретной ситуации. Сартр отказался ему что-то советовал, мотивируя тем, что «ты и есть твой выбор в этой ситуации» (если совсем упрощать). Более того парень решал не только за себя в тот момент, но и за все человечество (потому что в один в один такой же выбор во всех деталях больше ни один человек не попадет). А значит его выбор значит очень много.

Так что выбирая что-то противное вопреки себе - ты подрываешь свой собственный проект. Взамен можно получить много: наивным тоже быть не надо, но я думаю все, кто сталкивался с сверхуспешными людьми, понимают какую цену те платят за свой успех. Да и как правило они очень искренни в своём личном проекте и пирамиде ценностей, и не платят налог на то, что предают какие-то свои идеалы (хотя тут сложно в голову залезть, кто знает).

В итоге, остаться верным своим ценностям - я верю, что правильный выбор, даже если за это придется заплатить дорого.

❤19👍9

479 viewsedited 19:36

Артём обо всём

А с векторным-то поиском что не так?

Обсудили, как llm-as-a-judge стал антипаттерном, который непрозрачно прячет под собой большую сложность, теперь давайте поговорим про векторный/семантический поиск.

Если смотреть на эту технику абстрактно - все с ней ок. Задача построения эмбедов снижением размеренности пространства с нами давно, олды из NLP вспомнят LDA/LSA, олды (и не очень) из рексиса матричную факторизацию. Первый ренессанс в широких инженерных массах у векторного поиска случился в середине десятых, когда все распробовали word2vec. Это действительно был очень свежий и классный кусок теха: unsupervised метод, дешевый в обучении (а чаще сразу предобученный) и инференсе, который укладывает семантически близкие слова близко друг к другу в пространстве эмбедов. Обещал с ноги закрыть проблему синонимов-парафразов, морфологии (в фасттексте), а с небольшими допилками еще и мультиязычности. Именно тогда если помните был первый бум чатботов, алексы и т д. Как раз потому что это была простая в реализации и доступная не-млщику технология семантичнского поиска.

Потом правда наступило похмелье: оказалось, что на многих задачах этот метод не обгонял bm25. Непонятно как дружить со структурированными текстами. Он либо работает как надо сразу из коробки, либо получить желаемые свойства очень сложно (единственная нормальная ручка - строить модель поверх). Он не решает вопрос замешивания не-текстовых фичей. Короче в серьезных продуктах все остались на классическом retrieve-rerank, где векторный поиск генерит кандидатов и используется фичей в ранжирование. Ну или стали инициализировать ими сетки для трейна на задачу.

Проходит чуть меньше 10 лет и про векторный поиск опять начинают говорить «все и их мамы». В этот раз в контексте RAG систем и context engineering’a LLM. С тех пор эмбеддинги у нас научились строить поверх предложений, а не слов. Считаются они трансформером, в не лежат в словаре. Но суть та же: unsupervised метод как-то сближает в среднем похожие по смыслу предложения и расталкивает разные.

А болячки все те же. Но в этот раз на них посмотрели не млщики, а армия креативных SWE и сбросив с парахода современности задачу IR начала сначала:
- 50 оттенков чанкинга
- а давайте к чанкам метаданные приписывать еще текстом
- агент, который через MCP сам себе собирает нужный контекст
- надо агенту дать почитать заголовки документов и тулу которой он может достать контент того, что он считает нужным
- mcp уже пробовали?
- диприсеч!
- перепишем все базы знаний, чтоб агент в них разобрался
- и конечно же каждый из методов оборачиваем в фреймворк, который несовместим с 15 уже имеющимися

Ну и это ожидаемо: даже очень классные SWE как правило не привиты дата-дривен культурой и базовой насмотренностью в области IR в той же степени, что и MLE (хотя справедливости ради и многие MLE тоже). Из-за этого в руках оказывается любимый молоток и начинается инвестиция усилий в инженерные решения, вместо инвестиций в данные (эвалы, разметки на руткоз, разметки для обучения). Это еще и полируется сверху llm-as-a-judge, и этот инженерный урборос катится куда-то в сторону от простого решения.

Что с этим всем делать? Во-первых изучать мл-систем дизайн. В арсенале инженера должно быть много инструментов решения типовой проблемы (а поиском мы уже пол века занимаемся). Во-вторых инженерные решения должны опираться на данные. Хорошо бы распричинить ошибки вашей системы на около-прод распределении, и для начала понять, а почему текущий подход не справляется? Это натолкнет на наиболее дешевое решение. Да это гораздо трудозатратнее, чем просто воткнуть модную блестящую штуку себе в пайплан, но зато и успех намного вероятнее в таком подходе.

Артём обо всём

LLM-as-a-judge - индустриальный антипаттерн

Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки…

❤13👍6🌚3💯2🤔1

618 viewsedited 05:55

Артём обо всём

Учим ллм мыслить по-байесовски

Попалась в новостях сегодня классная статья от гугла: ребята обучили ЛЛМпринимать решения по-байесовски просто апроксимировав политику байесовского классификатора лорой на синтетической задаче. И эта способность обобщилась на другие задачи. Причем без всякого grpo.

Почему это важно? Чисто практически - потому что мы все бесимся с того, что ллм совершенно не умеет строить внутри себя модель предпочтений. Ну типо вы пишете одну инструкцию - она исполняет с ошибкой. Просите поправить, она правит, но нарушая оригинальную задачу. Просите опять поправить - возвращается первая ошибка и так по кругу.

Интуиция, почему так происходит понятная: в обучении LLM совершенно нет временного измерения: вся вероятностная модель строится так, как будто модель взглянула на статический слепок данных (по крайней мере в рамках одной стадии обучения). А вот в инференсе появляется новое измерение: время. И во времени ллм начинает получать новые данные. Но при этом учиться учитывать эту новую информацию ее особенно не учат: максимум в датасете преф-тюна есть кусочек корпуса, где пользователь собачится с ллм и та исправляется.

А ребята предложили интересную идею: а давайте возьмем обычный байесовский классификатор на синтетическую задачу (а такой классификатор прекрасно умеет обновлять свое поведение с появлением новой информации) и попробуем задистилить поведение такого классификатора в ллм через преф-тюнинг. И заработало. Причем тупо на лоре, которую на ноуте бытовом можно потюнить. Ллм реально начинает и на других задачах принимать решение в байесовскои подходе.

Там важно понимать, что ребята не измеряли просадку общего качества от такого прикола. Но мне кажется это и не суть важно: индустриальные ребята могут в свой пайп перф-тина добавить эту задачку как реворд и получить лучшее от двух миров.

Рисеч с большой буквы. Не просто заливают все компьютом, а реально свежие идеи рожают. Просто кайф.

Google Research

Teaching LLMs to reason like Bayesians

We teach LLMs to reason in a Bayesian manner by training them to mimic the predictions of an optimal Bayesian model.

👍9🥴2🌚2

466 viewsedited 08:10

Артём обо всём

Я убежден что есть только два типа вкусной еды вне дома: сделанная профессиональным поваром, глубоко разбирающегося в своей профессии и без двух минут обладателя мишленовских звезд и еда из странной точки на фуд-корте, где никто не говорит нормально по русски. Никакого in-between.

В эту дихотомию одной ногой меня погрузила моя жена Оля, которая регулярно находит восхитительные места, открыла для меня Bron (и знает их шефа Мирко), Северян и много других знаковых мест. Именно она обратила внимание на то, что надо искать места, где не заливают все нафиг соусами и заваливают тебя яркими вкусами, а умеют раскрыть продукты продуманным приготовлением, учитывают сезонность, совместную уместность. Где вся атмосфера дает тебе расслабиться и почувствовать себя искренне желанным гостем. Вот мы вместе и ходим.

Второй же тип для меня открыл мой друг Паша, с котором мы переодически после бани ходим в замызганную азербайджанскую кафешку на фуд-корте. Максимально непрезентабельную: странная засаленная вывеска, помимо готовой еды продается куча всякой снести, меню в истертом целлофане, сквозь который уже ничего не видно, персонал не говорит по русски. Но восхитительно вкусно. Обычно это занятное зрелище: мы сидим на пластиковых стульях в окружении лавок с ширпотребом, пьём чай, едим руками лепешки. По соседству сидят серьезные седовласые азербайджанские мужчины и тоже уже не первый час попивают из турецких стаканчиков. И обсуждаем венчуров, GenAI, долину и жизнь в корпорации. Кайф как он есть. С тех пор я стал чаще присматриваться к этим странным местам, и они как при эффекте Даннинга Крюгера стали появляться в поле моего внимания. Даже в Москва сити нашел такую турецкую забегаловку.

Как один режисер сказал: «лучше плохо, чем как все». И в контексте еды мне кажется это хороший совет: нет ничего более унылого и импотентного, чем сетевая массовая посредственность. Про яркие дорогие места в этом смысле все и так знают, а вот нишевые «для своих» очень долго выпадали из моего внимания, а зря. Классная возможность выйти из зоны комфорта в зону «вкусно».

❤9💯5😁3

448 viewsedited 12:47

Артём обо всём

А мы внедрили GenAI!

Из каждого ~~утюга~~ энтерпрайза слышу я. А потом общаюсь с инженерами на местах, и оказывается, что:
- внедрили, но вообще-то можно было и более простым способом достичь тех же или лучше результатов
- внедрили, но реальный end2end эффект внедрения непонятен. За агентом перепроверяет человек, и возможно все только стало медленнее
- внедрили, но на маленький процесс/кусочек процесса, где без массовости и ошибки терпимы и эффекта заметного быть не может
- внедрили, но сами искренне не понимают в чем польза

Там все несчастные семьи несчастны по своему, а вот все счастливые - счастливы одинаково. Давайте расскажу на примере автоматизации чат ботами нашей поддержки, как существенно повысить шансы на бизнесовый успех в GenAI кейсе. Пререквезит тут: у вас есть очень дорогая операция в компании и на ней уже есть какая-то бейзлайновая автоматизация (если ее нет - то вопрос почему? С высокой вероятностью потому что не оцифрованы инфра или CJM слишком сложные и неформализуемые, а тогда и ген-аи не поможет).

Первым делом мы всей командой заперлись на полтора месяца и под лидерством Даниэля начали читать диалоги где не случилась автоматизация. Кажется, что это нерепрезентативно. Но на самом деле прочитав сотню чатов - неизбежно встретишь все массовые проблемы (просто в силу тервера). А не массовые и не особенно интересно раскапывать. Но важно не просто читать, а по каждому диалогу фиксировать резолюцию (решение/класс проблемы), чтоб потом формально их можно было кластеризовать (просто читка ничего не даст).

После этих читок у нас сложилась некоторая онтология проблем: где-то мы контекст не учли, где-то намерение в системе не заведено вообще, где-то процедура поддержки не дописана, где-то не расшифровали ответ клиента на наш доп запрос. На этом этапе было важно хотя бы понятийно представлять для каждой проблемы потенциальное решение, и не заводить неконструктивные проблемы типо «бот тупой».

Дальше эту онтологию надо было квантифицировать. Мы стали писать задачи на разметку, чтобы разметить большой сэмпл прода на эти проблемы. В процессе мы пересмотрели эту онтологию, анализируя спорные кейсы где была рассогласованность. В конечном итоге мы смогли объяснить каждый отвал прода одной из крупных проблем.

Хочу отметить момент: до сих пор вообще ни слова про ЛЛМ (И часть из проблем мы действительно решили без ллм вообще). Инженерные решения начали появляться уже на следующем шаге - где на каждый блок проблем собралась команда инженеров продактов аналитиков и операционных ребят (это кстати было must), которые продолжили углубляться в уже отдельные проблемы и тестировать решения. Там работало много команд в параллель, и успеха достигали те, кто:
- инвестировал в быстрый фидбек луп (качественные офлайн метрики/удоьные быстрые а/б)
- упаривался в работу с данными больше чем в работу с алгоритмами
- стараются не сломать сильные стороны текущего решения, но улучить слабые стороны.

У этого подхода есть один большой минус: он сильно опирается на структуру текущей системы, и это может быть ограничением. На моей практике это случается гораздо реже, чем этого можно ожидать, но риск действительно есть. Поэтому мы выделили кусок потока, где система дизайнилась «с нуля» со всем модным фаршем. Ну и практика показала, что быстрых побед там не было: прошлую систему обгоняло, а вот прошлую систему с ллм-допилками уже нет.

Рассказывать, что конкретно принесло больше денег контекстуальный классификатор, тулы для операционки, раг, n8n-like workflows или агенты с тулами особенно смысла нет. Просто потому что в вашей системе все может дать совсем по другому.

Но важно, что все успешные внедрения ллм в энтерпрайз в моем поле зрения, которые принесли не высосанные из пальца эффекты шли по одному и тому же паттерну: глубокая аналитика и касдев, колоссальная работа с данными и только потом инженерка. Не наоборот.

tldr.daniel

Just another ninja in the jungle.
🥷🥷🥷

AI Product Director @ T-Bank.

💯8❤6👍5

480 viewsedited 05:18

About

Blog

Apps

Platform