Артём обо всём
366 subscribers
17 photos
8 links
Head of NLP в Т. Пишу про все то, о чем не могу не писать.
Download Telegram
Учим ллм мыслить по-байесовски

Попалась в новостях сегодня классная статья от гугла: ребята обучили ЛЛМпринимать решения по-байесовски просто апроксимировав политику байесовского классификатора лорой на синтетической задаче. И эта способность обобщилась на другие задачи. Причем без всякого grpo.

Почему это важно? Чисто практически - потому что мы все бесимся с того, что ллм совершенно не умеет строить внутри себя модель предпочтений. Ну типо вы пишете одну инструкцию - она исполняет с ошибкой. Просите поправить, она правит, но нарушая оригинальную задачу. Просите опять поправить - возвращается первая ошибка и так по кругу.

Интуиция, почему так происходит понятная: в обучении LLM совершенно нет временного измерения: вся вероятностная модель строится так, как будто модель взглянула на статический слепок данных (по крайней мере в рамках одной стадии обучения). А вот в инференсе появляется новое измерение: время. И во времени ллм начинает получать новые данные. Но при этом учиться учитывать эту новую информацию ее особенно не учат: максимум в датасете преф-тюна есть кусочек корпуса, где пользователь собачится с ллм и та исправляется.

А ребята предложили интересную идею: а давайте возьмем обычный байесовский классификатор на синтетическую задачу (а такой классификатор прекрасно умеет обновлять свое поведение с появлением новой информации) и попробуем задистилить поведение такого классификатора в ллм через преф-тюнинг. И заработало. Причем тупо на лоре, которую на ноуте бытовом можно потюнить. Ллм реально начинает и на других задачах принимать решение в байесовскои подходе.

Там важно понимать, что ребята не измеряли просадку общего качества от такого прикола. Но мне кажется это и не суть важно: индустриальные ребята могут в свой пайп перф-тина добавить эту задачку как реворд и получить лучшее от двух миров.

Рисеч с большой буквы. Не просто заливают все компьютом, а реально свежие идеи рожают. Просто кайф.
👍9🥴2🌚2
Я убежден что есть только два типа вкусной еды вне дома: сделанная профессиональным поваром, глубоко разбирающегося в своей профессии и без двух минут обладателя мишленовских звезд и еда из странной точки на фуд-корте, где никто не говорит нормально по русски. Никакого in-between.

В эту дихотомию одной ногой меня погрузила моя жена Оля, которая регулярно находит восхитительные места, открыла для меня Bron (и знает их шефа Мирко), Северян и много других знаковых мест. Именно она обратила внимание на то, что надо искать места, где не заливают все нафиг соусами и заваливают тебя яркими вкусами, а умеют раскрыть продукты продуманным приготовлением, учитывают сезонность, совместную уместность. Где вся атмосфера дает тебе расслабиться и почувствовать себя искренне желанным гостем. Вот мы вместе и ходим.

Второй же тип для меня открыл мой друг Паша, с котором мы переодически после бани ходим в замызганную азербайджанскую кафешку на фуд-корте. Максимально непрезентабельную: странная засаленная вывеска, помимо готовой еды продается куча всякой снести, меню в истертом целлофане, сквозь который уже ничего не видно, персонал не говорит по русски. Но восхитительно вкусно. Обычно это занятное зрелище: мы сидим на пластиковых стульях в окружении лавок с ширпотребом, пьём чай, едим руками лепешки. По соседству сидят серьезные седовласые азербайджанские мужчины и тоже уже не первый час попивают из турецких стаканчиков. И обсуждаем венчуров, GenAI, долину и жизнь в корпорации. Кайф как он есть. С тех пор я стал чаще присматриваться к этим странным местам, и они как при эффекте Даннинга Крюгера стали появляться в поле моего внимания. Даже в Москва сити нашел такую турецкую забегаловку.

Как один режисер сказал: «лучше плохо, чем как все». И в контексте еды мне кажется это хороший совет: нет ничего более унылого и импотентного, чем сетевая массовая посредственность. Про яркие дорогие места в этом смысле все и так знают, а вот нишевые «для своих» очень долго выпадали из моего внимания, а зря. Классная возможность выйти из зоны комфорта в зону «вкусно».
9💯5😁3
А мы внедрили GenAI!

Из каждого утюга энтерпрайза слышу я. А потом общаюсь с инженерами на местах, и оказывается, что:
- внедрили, но вообще-то можно было и более простым способом достичь тех же или лучше результатов
- внедрили, но реальный end2end эффект внедрения непонятен. За агентом перепроверяет человек, и возможно все только стало медленнее
- внедрили, но на маленький процесс/кусочек процесса, где без массовости и ошибки терпимы и эффекта заметного быть не может
- внедрили, но сами искренне не понимают в чем польза

Там все несчастные семьи несчастны по своему, а вот все счастливые - счастливы одинаково. Давайте расскажу на примере автоматизации чат ботами нашей поддержки, как существенно повысить шансы на бизнесовый успех в GenAI кейсе. Пререквезит тут: у вас есть очень дорогая операция в компании и на ней уже есть какая-то бейзлайновая автоматизация (если ее нет - то вопрос почему? С высокой вероятностью потому что не оцифрованы инфра или CJM слишком сложные и неформализуемые, а тогда и ген-аи не поможет).

Первым делом мы всей командой заперлись на полтора месяца и под лидерством Даниэля начали читать диалоги где не случилась автоматизация. Кажется, что это нерепрезентативно. Но на самом деле прочитав сотню чатов - неизбежно встретишь все массовые проблемы (просто в силу тервера). А не массовые и не особенно интересно раскапывать. Но важно не просто читать, а по каждому диалогу фиксировать резолюцию (решение/класс проблемы), чтоб потом формально их можно было кластеризовать (просто читка ничего не даст).

После этих читок у нас сложилась некоторая онтология проблем: где-то мы контекст не учли, где-то намерение в системе не заведено вообще, где-то процедура поддержки не дописана, где-то не расшифровали ответ клиента на наш доп запрос. На этом этапе было важно хотя бы понятийно представлять для каждой проблемы потенциальное решение, и не заводить неконструктивные проблемы типо «бот тупой».

Дальше эту онтологию надо было квантифицировать. Мы стали писать задачи на разметку, чтобы разметить большой сэмпл прода на эти проблемы. В процессе мы пересмотрели эту онтологию, анализируя спорные кейсы где была рассогласованность. В конечном итоге мы смогли объяснить каждый отвал прода одной из крупных проблем.

Хочу отметить момент: до сих пор вообще ни слова про ЛЛМ (И часть из проблем мы действительно решили без ллм вообще). Инженерные решения начали появляться уже на следующем шаге - где на каждый блок проблем собралась команда инженеров продактов аналитиков и операционных ребят (это кстати было must), которые продолжили углубляться в уже отдельные проблемы и тестировать решения. Там работало много команд в параллель, и успеха достигали те, кто:
- инвестировал в быстрый фидбек луп (качественные офлайн метрики/удоьные быстрые а/б)
- упаривался в работу с данными больше чем в работу с алгоритмами
- стараются не сломать сильные стороны текущего решения, но улучить слабые стороны.

У этого подхода есть один большой минус: он сильно опирается на структуру текущей системы, и это может быть ограничением. На моей практике это случается гораздо реже, чем этого можно ожидать, но риск действительно есть. Поэтому мы выделили кусок потока, где система дизайнилась «с нуля» со всем модным фаршем. Ну и практика показала, что быстрых побед там не было: прошлую систему обгоняло, а вот прошлую систему с ллм-допилками уже нет.

Рассказывать, что конкретно принесло больше денег контекстуальный классификатор, тулы для операционки, раг, n8n-like workflows или агенты с тулами особенно смысла нет. Просто потому что в вашей системе все может дать совсем по другому.

Но важно, что все успешные внедрения ллм в энтерпрайз в моем поле зрения, которые принесли не высосанные из пальца эффекты шли по одному и тому же паттерну: глубокая аналитика и касдев, колоссальная работа с данными и только потом инженерка. Не наоборот.
💯86👍5
Генеративки - это новый пластик

Я это остро почувствовал, когда попытался в OpenClaw дописать коннектор к нашим внутрекорпрративным ллм и споткнулся об отвратительнейший дизайн модулей системы. Я это чувствую, глядя на ублюдские генеративные видео на билбордах комсомольского проспекта. Я в этом уверен, когда слышу про очередную компанию, которую накрыла волна инцидентов из-за вайбкода в критических системах. Я понимаю это, когда вижу длинные тире в посредственных текстах на сабстеке.

Я в общем уверен в том, что генеративки сделали цифровой контент дешевле и доступнее, но убили наглухо экологию цифрового пространства.

В пластике нет ничего плохого: он решил большое количество проблем дистрибьюции индустриального общества. Но стал экологической катастрофой из-за фокуса на краткосрочных выгодах. Я уверен, что неумелое применение ллм и жадность сделают то же самое с цифровым пространством. И бороться с этим бессмысленно (значит лучше возглавить).

Скриньте: года через три самые модные стартапы будут заманивать внутрь инженеров тем, что «не используют ллм в разработке».
😁87👍4💯3🤔1🌚1
Артём обо всём
Генеративки - это новый пластик Я это остро почувствовал, когда попытался в OpenClaw дописать коннектор к нашим внутрекорпрративным ллм и споткнулся об отвратительнейший дизайн модулей системы. Я это чувствую, глядя на ублюдские генеративные видео на билбордах…
В догонку прикольная статья на эту тему (особенно респект чуваку, за то что помнит Joel’s test on software): https://www.antifound.com/posts/codegen-is-not-productivity/

Товарищ там немного предвзят: очевидно он большую часть карьеры работал над критичными системами крупных проектов. Если ты стартап запускаешь PoC из говна и палок, то тебе правда все это не очень релевантно. Но на проектах индустриального масштаба мне кажется его тезисы верны на 100%. Если не хочется читать весь rant, то можно скипнуть и посомтреть аппендикс, где он описывает свой LLM-powered workflow, и он мне кажется очень здравым для зрелого проекта.
👍2💯1
Про нетворкинг

Я раньше себя насилу выпихивал «нетворкаться». Списывал своё нежелание на интровертность, но честно тянул эту лямку. Как часто бывает в таких случаях оказалось все скорее в том, что я не понимал в какую игру играю, и просто формально повторял за ребятами поопытнее.

Вот инвестор мой из одного из стартапов. Постоянно был на встречах со всякими заряженными ребятами. Было ощущение, что у него везде друзья и знакомые. Ну и я поверхностно считал, что ну вот просто такой вот дружелюбный харизматичный чувак: не имеет сто рублей, а имеет сто друзей. И время от времени действительно обналичивает свой социальный капитал.

Но как это повторить, я совершенно не понимал. Вот встречаешься ты с каким-то товарищем, который обладает ресурсом полезным, а о чем вообще с ним говорить? Можно конечно и «ни о чем», но так удерживать внимание вообще-то непросто. Дружить? Извините, дружить это вообще-то совсем другое дело. Дружить, это когда человек интересен тебе настолько, что ты готов его боль на себя примерить, а не просто анекдотами обменяться. А на это ты готов только если в этом другом человеке какой-то ответ для тебя важный есть. Иначе ты сидишь и просто все нутро протестует и кричит «что мы здесь делаем».

Дружить в общем не получается. Можно конечно просто на интуиции действовать, но скорее получится психологическими травмами притянуть к себе людей, и разумеется совсем не тех. А чем тогда заниматься? О чем вообще говорить? О чем говорят нетворкеры? А главное, что должно произойти после такого разговора?

Вот размышляя на эти темы я и пришел к понятной мне формуле. Нетворк - это поиск выгодных транзакций. Мы все обладаем какими-то ресурсами. Ну как в третьих героях, золото там, сера, самоцветы... Как минимум своим временем и талантом (что на деле ценнее чего угодно). Как максимум - возможностью принимать какие-то серьезные решения в перераспределении ресурсов. И часто информацией о том, где каких ресурсов в избытке, а где не хватает.

И единственная хорошая игра в нетворкинге - это искать эту разницу потенциалов и устранять ее. Можно и нужно смазывать это всё юмором, историями, просто чтоб доверие быстрее получить. Но ключевой квант нетворка - это сделка.

Кто-то ищет себе сотрудника, кто-то инвестиции, кто-то возможность припарковать деньги, кто-то ищет красоты, кто-то поддержки. И помогая свести продавцов с покупателем ты всегда берешь себе какой-то процент. Не обязательно физически: возможно ты зарабатываешь доверие, которое может пригодиться потом. Но это обычная и очень важная работа, которая при правильном исполнении становится очень крутым вин-вин-вином.

Эта классическая simple but not easy мысль открывает совсем новые правила игры. Ты начинаешь больше спрашивать у людей про потребности, больше интересоваться, кто чем занимается, прогнозировать а кто чем будет обладать на каком-то горизонте. Строить более богатый граф в голове, пытаясь соединить неожиданные вершины в выигрышных комбинациях.

А вот тогда в эту игру играть уже интересно даже просто ради самой игры. Чего всем вам и желаю! (Я то все равно нетворкаться не пойду - я правда интроверт).
👍157🌚5
Прочитал законопроект по регулированию ИИ в России, так что вам не придется

Читаем оригинал. Новости на эту тему не рекомендую читать, там пишут фигню. Если вас это касается, то лучше почитайте сами, потому что я смотрел внимательно только на куски, которые непосредственно могут влиять на мои команды. Какие для себя забрал хайлайты.

1. Вводится понятие доверенных моделей. Могли бы и сразу написать прямым текстом «гигачат» лол. Во всех гос органах и на критической инфраструктуре теперь можно использовать только модели, все стадии тренировки которых проводились в РФ гражданами РФ. И описана куча регуляторки по опразрачиванию данных и регламентов для ФСО/ФСБ, Коммерческие компании не обязаны использовать суверенные модели (по крайней мере я такого не увидел).

2. Информирование и возможность отказаться от ии
Нужно всегда подсвечивать, если в рамках предоставление услуги решения принимает автономно ии без участия человека, за исключением случаев когда это и так очевидно. Что интереснее у пользователя должен быть механизм отказа от ии и получения сервиса через человека. Тут с одной стороны как-то кисло, с другой стороны есть опыт Британии, где запретили авторассылки, и там в итоге сидят специально обученные люди, которые прокликивают не глядя все эти рассылки, чтоб формально выполнять требования.

3. Регулирование сгенерированного континента
Кстати норм тема: сгенерированный контент надо маркировать. Требует явно регламентировать права собственности по всей цепочке использования моделей. Короч вроде норм.

4. Ответственность за косяки моделей
Вот тут интересно: оператор сервиса на базе модели может предъявить иск создателю модели, если оператор принял «все разумные средства предосторожности» а модель все равно накосячила и нанесла ущерб пользователю. С опенсорсом/В2В кажется что станет интереснее и надо будет поработать с юристами плотно.

Резюмируя: могло быть сильно хуже.
👍16
Артём обо всём
Прочитал законопроект по регулированию ИИ в России, так что вам не придется Читаем оригинал. Новости на эту тему не рекомендую читать, там пишут фигню. Если вас это касается, то лучше почитайте сами, потому что я смотрел внимательно только на куски, которые…
UPD: я надеюсь вы мне на слово не верите, и если вам важно, то сами пошли курить законопроект. Потому что я не описал важный ньюанс:
- есть суверенные модели, это те которые полностью обучались в РФ, читай гигачат. Им честь и хвала.
- есть доверенные модели. Это те, которые прошли сертификацию у уполномоченных исполнительных органов и попали в реестр доверенных. Суверенные-национальные почти по определению попадают в список доверенных. Остальные надо как-то в этот реестр заводить. Как - естественно пока не понятно, это уже конкретные органы должны решать. И все кто является критической гос инфрой или работают с ней должны использовать эти доверенные модели которые хотстятся у нас (привет Клод Код). Банки вот критическая инфраструктура - нас это например касается.

Так что ключевой момент там - это как будет устроен этот реестр, потому что пока он описан в виде «мы за все хорошее, просто против шпионажа и диверсий, фсб разберется». А на практике надо будет смотреть как эта процедура реально будет работать .
💯4👍3
Я попытался написать эссе с помощью Opus, так что вам не придется

Меня с момента старта канала несколько человек спросили "а зачем ты вообще этим занимаешься?". И честный ответ: не знаю. Мне нравится умничать и я получаю удовольсвтие, когда получается кого-то этим развлечь. Наверное вот по этому. Так что в этом смысле эксперимент из заголовка поста, мне сразу казался сомнительным. Но из научного интереса решил попробовать текнолоджис в задачке, которая вызывает у меня яркие и живые эмоции. Забегая вперед - получилась полная ерунда, но кое-что полезное я для себя нашел.

Итак сетап: я собрал все свои статьи отсюда, дал его Opus 4.1 (потом пересел на 4.6) и попросил сгенерировать список тем, которые были бы органичны в рамках канала. Первый выхлоп был отстойный: буквально комбинация каких-то тезисов из существующих статей. На мое возражение моделька выплюнула новый список, и там оказалась дейстивтельно занятная тема (я кстати на эту тему еще напишу, действительно животрепещущая). Начали мы вместе тему раскрывать: я попросил выдать тезисы которые можно в рамках этой темы исследовать. Там были даже отчасти занятные, но в итоге они скорее навесли меня на тезис уже из моей головы. Вот под него мы с опусом и начали писать статью.

Получалось плохо: очень длинно, то слишком сухо, то патетично (и везде длинные тире, лол). При этом там были некоторые прикольные примеры конкретных практик, которые я даже решил взять на вооружение. Было очень заметно, что текст какой-то обезличенный что-ли? Я попросил добавить в текст автора, но Opus ограничился одном предложением, описывающем вымышленную ситуацию, в которую я якобы попал - дальше пластик. При этом по фактологии было даже неплохо. Где-то не хватило глубины, или классных ярких сравнений. Сутево мысль то он раскрыл с десятого пинка. Но читать это было неинтересно.

Я вот даже думал: а в чем дело? И понял, что я когда читаю этот текст, я не вижу за ним автора. Там все описано как на википедии. По делу, сухо, но без эмоции и личного опыта. Я еще поигрался, пытался привнести этот дух в текст, задушив опус командами, но у меня ничего не поулчилось. Читать все это просто неинтересно.

При этом, пользу я кстати увидел. Опус сгенерировал действительно прикольную тему (хотя и сам не понял в чем сутевой конфликт внутри этой темы). Опус подкинул прикольыне конкретные примеры практик и иллюстраций. Короче отработал как классный брейншторм-партнер и классная семантическая поисковая система фактов.

Тут на SnowBase Витя Тарнавский сидя на барной стойке, рассказывал, что CTO скоро будут больше не нужны, и надо будет придумать себе через несколкьо лет новое занятие. Вот на случай такого апокалиптического развития событий я думаю я нашел себе полянку "развлекателя байками". На этом попроще опус особо не впечатлил.
10😁6💯5
Орнул с того, как технодемка-генератор-видео-по-картинке, которую дали вот щас потыкать ребята на SnowBase идеально проиллюстрировала пост выше
😁6🌚1
Найм: на позицию или на задачу

Как я писал выше, первые шаги в управлении я делал в стартапе. Там я на своей шкуре почувствовал, что ошибки найма в стартапе имеют максимально разрушительные последствия (мне кажется на корпоративные деньги - это как ошибиться в найме топ менеджера). Поэтому я много экспериментировал с рекурутментом, нарабатывал подходы и обдумывал ошибки. Уже в последних своих стартапах я нанимал достаточно осмысленно, и секрет успеха всегда был в том, что я брал человека на конкретную задачу.

Это значило, что каждый найм предполагал эксклюзивный набор проблем и кейсов на интервью. Я буквально хотел услышать, как кандидат справится с конкретными вызовами, которые стоят перед командой на данном этапе. Это безусловно трудозатратно: либо самому продумать план собеса и задачи, либо найти профильных специалистов извне и правильно их забрифовать на собес, но зато каждый раз я собирал настоящий спецназ, который добегал до амбициозных результатов за очень короткое время.

Когда я ушел в корпорацию, я долго не мог нормально нанимать. Потому что корпоративный найм решает совсем другую задачу: надо нанимать взаимозаменяемых сотрудников, которые смогут пережить ротации. Отсюда - стандартизация воронки найма, профессии и грейды. Там наоборот кандидат должен решать наиболее широкий набор задач, и подходить сразу многим командам. Отсюда странные оторванные от реальности вопросы, много теории и литкода. Единственная точка маневра: это фиты, где можно попробовать загрузить своей проблематикой.

Такая среда очень расслабляет: я по себе знаю, что есть соблазн просто посмотреть на цифру грейда, и несложной калькуляцией брать любого кто набрал достаточную. И это очень плохая идея. Мне кажется любому руководителю важно понимать: корпоративный найм НЕ ВАШ ДРУГ. Я это пишу, как человек, который отстроил найм NLP в Т. Найм в корпе решает задачи корпорации за счет нанимающего менеджера. Поэтому ваша задача каждый раз самостоятельно строить процесс найма, осторожно опираясь на результаты стандартных секций (скорее воспринимать их как общую проверку на вшивость).

Как конкретно это сделать? Для этого берём вашу ключевую бизнесовую цель. Раскладываем ее на конкретные активности, необходимые для достижения. Смотрим, какие для этих активностей нужны компетенции. Берём текущую команду (включая себя) и закрашиваем все компетенции, которые сейчас командой закрыты. А вот недостающие и надо закрывать внешним кандидатом. Под каждую компетенцию можно придумать проверочный вопрос. Для краткосрочных проектов там будут больше Харды. В долгосрочных начнут появляться более софтовые. Часть компетенций можно проверить стандартными секциями, а часть надо проверить самостоятельно.

Достаточно трудоемко, но только так я нанимал/ротировал к себе ключевых людей. Взяв лучшее от двух миров можно построить себе действительно осмысленный найм, где вы будете промахиваться гораздо реже.
👍1410💯3
Стиль

Я два с половиной года работал в Самсунге. В международной команде с менеджментом из долины и некоторым количеством выходцев из фаанга в пирах. И когда меня спрашивают, что сильнее всего бросалась в глаза при сравнении американцев из бигтеха и наших tech ребят, я обычно отшучиваюсь рассказом, что наши после общей пьянки спят до обеда, а американцы в 6:30 уже на пробежке в полном обвесе патагонии (что чистая правда).

Там конечно много интересных ньюансоа, но есть еще одна вещь прямо на поверхности: это стиль.

Итак, заходим на сайт sequoia capital (их вспомнил, потому что как раз товарищ по Самсунгу туда перешёл): https://sequoiacap.com/our-team/?_role=seed-early

Интерьеры. Натуральное дерево, книги, фото, солнечно, почти в каждом кадре живая зелень. Каждый хорошо чувствует свой стиль. Если чел в пиджаке будет выглядеть как Скрудж-макдак, то одевает поло. Если в футболке будет выглядеть как продавец подержанных пикапов - одевает классический пиджак, но чтоб не было душно - рубашка с интересным принтом. Ну и если опиджачиваемся, то это нетипичный расслабленный крой / кожанка / пальто. Очки под форму лица. Девченки одеты ярко, но не вызывающе. Все улыбаются, взгляд открытый. Объектив не широкоуголит, лица выглядят классно и естественно. Ярко и насыщено.

Теперь смотрим «у нас есть венчуры дома». Ссылки оставлять не буду, чтоб никого не обижать. Но загуглите любой на ваш вкус, я вам гарантирую, что увидите одно и то же.

Фона на фото нет. Вернее просто белый фон, как на паспорт. Может и к лучшему - там бы было серое ублюдство из стекла, крашеного дсп и палок-светилтников под потолком. Одежда - либо офисный работник в пиджаке и галстуке, либо однотонный пуловер в стиле «я из органов». Рубашки у всех поголовно не по размеру - огромные или наоборот мелкие манжеты и воротники. И у мужчин и у женщин. Ткань дешевая, отливает нездоровым синтетическим блеском. Выражение лица - Slavic stare, объектив не подходит для портретных фото, свет отвратительно выставлен и просто засвечивает и без того бледную кожу в плоский блин. Ну чисто стареющий офисный менеджер. Как будто из каста сериала «офис».

Тут, конечно, можно закатить глаза: «ой опять этот из т-банка гонит на пиджаков». Да нет, в классическом костюме можно очень классно выглядеть: летим в Милан и смотрим местных от бизнеса. Но там и одежду подбирают по размеру, и ткани дорогие, и аксессуары продуманные. Ну и что уж врать: и следят они за собой лучше (тут только про мужиков - наши женщины лучше всех). А еще все это на фоне построек 18 века и залито итальянским солнцем. Так что там все детали играют вместе на отвал челюсти.

Ясно, что в среднем по больнице у нас не все хорошо со вкусом: когда тебя каждые десять лет трясет, не до стиля. Но блин, вы же венчуры, вы вроде как десятками-сотнями миллионов долларов крутите. Неужели нельзя съездить пару раз в долину для вдохновения, найти стилиста и дизайнера не-колхозоида, который хоть раз был во и в музее Прадо и в новой Третьяковке. Почему надо превращать все в газпром или «молодежный пластиковый офис». У нас куча исторических зданий, уникальная архитектура, своя глубокая история передовой науки и предпринимательства. Хочешь дореволюционных купцов-старообрядцев переосмысляй, хочешь авангард, хочешь советскую научную среду at its prime. Нет, блядь, хотим на белой площади и чтоб все в пластик закатано, да минималистично. Пластмассовый мир.

Вкус ведь не про моду и картинку, а про умение видеть и ценить сложное. Ценить антихрупкость. Дешевые материалы в моменте могут выглядеть очень ярко и круто, но стареют и устаревают они очень плохо.

Что я вообще хочу этим сказать? Мне кажется наша культура очень любит суть. И это здорово. Но кажется, что эта самая суть вполне заслуживает быть облаченной в более изящную форму.
💅139👍9👎2😁1
Пару слов про аплифт моделирование

То ли я криво ищу, то ли на тему индустриального аплифт моделирования преступно мало информации. Обычно пишут что: ну вот раздайте рандомно тритмент, часть данных в обучение, часть в холдаут, учите из стандартной либы 3 стандартных лёрнера и выберите тот, что выбивает наибольшую площадь под аплифт кривой. Если поковыряться поглубже, то можно найти про CATE, что он может быть не в конверсиях а в любой скалярной величине, и как выглядит лосс, чтобы напрямую оптимизировать CATE. На этом все.

А практика обычно такая: тебе надо не конверсии аплифтить, а денег заработать. И вот один твой товарищ построил аплифт в конверсиях (и потом предполагает его множить на средний LTV-скидка), а другой оптимизировал напрямую апдифт в LTV. Продуктовая команда настаивает, что раздавать надо по гороскопу (скидку всем девам). Принесли все они какие-то свои метрики в разных попугаях. И с этим чето надо делать.

Вот мой простой рецепт, что делать:

1. Зафиксируйте метрику приемки А/Б
Это в конечном итоге должна дать одна цифра по которой можно однозначно принять решение. В идеале LTV/cash-flow/PnL. А то оказывается что хочется и конверсия чтоб выросла и отток не нарастить и денег потратить не очень много, и нет однозначного понимания что делать если одна метрика выросла и другая упала. Тут стоит запариться и построить одну единственную метрику для оптимизации. Или одну таргет, вторую как boundary на крайний случай.

2. Соберите офлайн, который позволяет сравнивать разные стратегии раздачи тритмента (включая не аплифтовые)
По факту этот бенч должен давать оценку ожидаемой таргет метрики с прошлого шага на холдауте (сходиться хотя бы по матожиданию к ней). Причем для любой стратегии раздачи тритмента: не только ранжирующих всю базу, но и ту которая раздает тритмент по фазе луны. Любая стратегия на этот бенчмарк - это просто метки тритмента на каждого пользователя. Можно через пересечение с реальными наблюдениями получить оценку тотал эффекта, можно оценивать CATE в когорте - выбирайте где дисперсия меньше.

3. Пробуйте декартово произведение разных лернеров на разные таргеты
Это прямо рутина аплифта. Нет никакого идеального лернера и идеального подхода к выбору таргета. Иногда скалярный таргет слишком шумный и лучше разбить на конверсионный аплифт и помножить потом на скаляр. Иногда лучше учить аплифт сразу на таргет. Надо экспериментировать.

4. Выбирайте модель и когорту по своим бизнес требованиям а не про квини и аплифт кривой
Мой хот тейк: если ты решаешь индустриальную задачу, то забудь про рок ауки и прочие площади под кривыми. Это для учебников. У тебя есть либо ограничение по количеству тритмента: тогда сравнивай модели по uplift@k а в когорту бери K. Либо у тебя задача максимизировать аплифт без ограничения: тогда бери argmax_k(uplift@k) пользователей в когорту, а сравнивай модели по max(uplift@k). Ну либо выбирай k вообще перебором об финальный бенч с шага 2 (что кстати правильнее всего, с точностью до дисперсии).

5. Бектесты, бектесты, бектесты
В идеале нужны холдауты за разные периуды времени. И это возможность полностью зафиксировать стратегию обучения модели и посмотреть как они бы сработали в разные моменты времени (именно стратегию обучения а не конкретную модель). Это позволит оценить устойчивость вашего подхода во времени. Это вообще бич аплифта, что пол года назад эта страта бы дала огромный плюс, а год назад загнала бы в минус. Если стратегия не приносит стабильно аплифта хотя бы в 80% перуида бектаста, то запуск будет скорее русской рулеткой.

6. Постепенная раскатка
Если не уверены в себе: то запустите не на всю базу а не 10% базы. Так у бережете себя от сильного даунлифта, а если все будет хорошо: то доберете следующим скорингом.

Вот как-то так и выживаем. Ну и Casual inference - это один из последних оплотов classical ml, где происходит что-то интересное: искренне рекомендую почитать статейки 20-х годов (этого века) на эту тему.
👍91
Headcount-maxxing

Внутри взрослого с виду лидера часто сидит ребенок, который хочет соревноваться и выигрывать. Соревноваться и кому-то что-то доказывать хочется по разными причинам, но я думаю немалая часть управленцев черпала топливо для карьерного роста оттуда. Особенно начинающие: кто поопытнее - заправляет свой бак более экологичным топливом (каким - дальше). Но вот незадача: взрослая карьера - это не школа и не институт. Тут нет циферки ЕГЭ, рейтингов вузов и других условно-объективных спортивных показателей, которыми можно сравнить себя с другими участниками соревнований. Остается только две цифры, за которые можно зацепится: чистая прибыль и headcount в подчинении (иногда позиция относительно СЕО в оргчарте - но это реже).

И вот именно за эти две цифры подчас хватается амбициозный руководитель и начинает максимизировать. В принципе, это даже не самая плохая игра: зарабатываешь деньги компании и берешь все больше ответственности на себя. Очень понятно с точки зрения презентации вовне: чел, не понимающей специфики проблем конкретной компании вполне поймет масштаб влияния, если в подчинении Х сотрудников и генерируется У выручки.

У этой стратегии есть несколько серьезных негативных сторон. Я не буду касаться психологических - это прямо отдельная тема, просто вполне прикладных.

Во-первых: часто эти две игры противоречат друг другу. Обычно в организации есть очень небольшое количество важных инициатив, которые принесут львиную долю эффектов. И на такие инициативы часто нужна не орава народу, а dream-team с сверхвысоким talent density. Остальные инициативы будут распылять фокус внимания, отвлекать сильных людей, и оглянувшись через несколько лет назад вы искренне не будете понимать, а почему вы закопали столько энергии а это. Все проекты, которыми я искренне горжусь были сделаны очень небольшой core командой (все простое и понятное - на аутсорс).

Во-вторых фокус на деньгах закрывает интересные возможности. Например одним из важнейших шагов в своей карьере я считаю запуск нашей командой опенсорс LLM. Ключевые люди индустрии признают, что мы тогда всколыхнули весь рынок, показав, что «так можно». Мы не заработали на этом денег вообще, но косвенные эффекты для компании оказались очень серьезными. С точки зрения долгосрочного развития существенно ценнее всех тех денег, что были затрачены. Если бы мы максимизировали PnL, то мы бы никогда этим не занимались бы.

И третье, самое важное: а правда ли это поможет с точки зрения долгосрочного карьерного плана? Когда вы начинаете общаться с топ-менеджерами компаний и людьми из советов директоров, вы замечаете, что они не смотрят на ваш хедкаунт, не слишком активно интересуются тем, сколько денег вы заработали. У них в голове есть очень конкретные изменения в организации, которые они хотят привести в жизнь. И им ваш трэк-рэкорд важен именно как примеры типов проблем, с которыми вы можете справиться. В этом смысле релевантность часто важнее масштаба. Как я неоднократно слышал: «если ты научился управляться с 15 людьми, то дальше особо ничего не меняется». Ловшука в том, что можно набрать себе кучу разрозненных активов, но если они не связаны общей сложной целью, то масштаб решаемой вами проблемы останется на уровне одной из этих команд, просто повторенной несколько раз. Без качественного скачка.
👍7💯3
Но есть другой путь. Строить карьеру не максимизируя метрики, а отталкиваясь от того, где вы хотите оказаться и какие проблемы хотите решать. Тогда тактика немного меняется:

1. Надо понять, а куда дальше по карьере вы хотите?
Хотя бы следующий шаг. Возможно честный ответ тут: я ничего не хочу менять, меня полностью устраивает моя позиция. Тогда скорее нужно наоборот поработать над тем, чтоб тратить минимум усилий и получать максимум результата. Если же хочется двигаться дальше, то хорошо бы разведать, а что там дальше, и правда ли это именно то, что вы хотите? Возможно гораздо лучше пивот в смежные специализации и не роста в вашей.

2. Узнать «а какие проблемы решают люди на позиции, на которую я хочу попасть»?
Это точно не «то же самое, что я делаю сейчас, но в два раза больше». Общайтесь, слушайте, подглядывайте за своим руководителем, примеряйте его проблемы на себя. Сталкиваясь с управленческим решением пытайтесь понять, какая опция выгоднее не с вашей, а с точки зрения вашего руководителя (и организации). Это кстати и чисто практически даст вам 100 очков в глазах вашего руководителя (вы перестанете создавать ему/ей мелкие неудобства).

3. Найти возможность решать подобные проблемы
Они могут быть меньшего масштаба, но сутево повторять своих братьев этажом выше. Вполне возможно, что вы уже их решаете, просто не вкладывая в них достаточно внимания. Что кстати очень часто: на более высоких позициях обычно решают менее приятные и понятные проблемы, так что всегда есть соблазн ими не заниматься, а делать то, что вам уже понятно и прикольно. Это кстати еще и прикольный тест драйв: а хотите ли вы на самом деле лезть дальше?

Все опытные люди знают: зарплата и статус греют первый месяц, а потом вы на годы остаетесь один на один с ежедневной нагрузкой. Поэтому в карьере на каком-то уровне жизненно важно оставить в прошлом игры и действовать осознанно. Работа - это способ обеспечить себе классный уровень жизни, дать будущее своим детям, заниматься тем, что искренне нравится в компании близких по духу людей. А закрывать потребности внутреннего ребенка работой - это прямая дорога в дурку.
👍15💯4