Артём обо всём
366 subscribers
17 photos
8 links
Head of NLP в Т. Пишу про все то, о чем не могу не писать.
Download Telegram
Мы тут с женой решили посмотреть какой-нибудь comforting фильм из нулевых, и остановились на комедии «Марли и я». Это кино про семью, которая завела собаку, и та сыграла важную роль в их жизни. Но я совершил стратегический проступок, предложив на двух третях фильма прерваться и пойти спать (а досмотреть на следующий день). В итоге первый день мы посмотрели легкую семейную комедию, а второй вечер смотрели драму про кризис среднего возраста и умирающую собаку.

Не повторяйте моих ошибок.
😁125🌚1
GenAI - это, конечно, инвестиционный пузырь, но именно поэтому заниматься его внедрением надо сейчас
И почему нарратив про продавцов лопат - это булшит

Мне видится, что за прошлый год бизнес среда окончательно поделилась на два лагеря. Технооптимисты, обещающие нам ИИ-сингулярность и автономных агентов десятки процентов роста GDP, и пессимисты, которые грустно смотрят на P/E техно-компаний из S&P, и недоумевают. Кто прав?

Мой тейк: правы и те, и те. GenAI на длинном горизонте действительно даст десятки процентов GDP, но инвестиции в флагманские инфраструктурные компании никогда не окупятся теми иксами, на которые нам намекает их капитализация. Потому что у этих китов парадоксально нет рычага на извлечение львиной доли маржи.

По порядку. Откуда десятки процентов GDP? Ну давайте взглянем на 3 основных источника ценности.

1. Профессия разработки изменилась, и новые продукты создаются быстрее. Особенно с выходом моделей конца 2025-го года. Писать код вручную выглядит как анахронизм. Причем в наибольшем выигрыше опытные инженеры, которые знают, чего они хотят от ллм (их эффективность выросла на 20% - на этой цифре сходятся большинство серьезных исследований). При этом автономные кодинг агенты, которые создают сложные системы без человека - это все еще лабораторные прототипы, но вот быстро пробежать первую милю до MVP они помогут уже сейчас. Соло девелоперы, запускающие полноценные бизнесы уже никого не удивляют.

2. Диджитал (и не только) профессии усилились в разы.
Копирайтинг, маркетинг, управление контентом, аналитика - атомарные кусочки этих конвейеров уже ускорились за счет ко-пилотов. Более 60% сотрудников S&P 500 регулярно используют эти инструменты в работе. Со временем случится и кумулятивный эффект. По оценкам антропика это все незаметно дает +2%% GDP (нифига себе). Нецифровые профессии - готовятся.

3. Энтерпрайз автоматизация идет, но тяжело
Оказывается, что сначала нужно пройти все стадии цифровой трансформации, покрытия глубокой аналитикой (в народе - бигдата), и только потом можно сверху строить ИИ. Но и там где это все сделано, запустить пилот очень просто, масштабироваться без заметных прокрасов метрик - сложнее, а вот сделать большой и стабильный аплифт - очень тяжело. Приходится менять сами бизнес процессы, а не только втыкать ИИ. Но реально: лидеры уже далеко зашли по этий дорожке, и сомнений в успехе нет.

И казалось бы, если ты OpenAI - бери и отжимай маржу через цену за токен. Но все не так просто:
- выжимать деньги из B2C клиентов сложно. Конкуренция острая, и опенсорс не спит. Потеряешь рынок.
- выжимать деньги из В2В - опасно. Им на своей стороне надо еще сделать огромную работу, чтоб это все полетело. Если задушишь их еще и ценой - плюнут и не будут ничего делать. Попробовать самому забраться повыше по цепочке добавочной ценности - нереально (пытаются конечно, через дженерик автономных агентов, но пока выходит плохо). Каждое внедрение уникально, сотни вертикалей. Просто талантов не хватит всех окучить, даже имея бесконечные деньги. Так что приходится партнерство строить, а не быковать.

И получилась интересная ситуация. Чуваки с деньгами понимают, что происходит что-то значимое, пытаются заработать на хайпе и несут деньги в OAI, nvidia, you name it. А они не умеют возвращать инвестиции. Они могут только лопаты раздавать, а существенная часть добавочной ценности на стороне реальных компаний, которые продукты людям строят (и будут делиться маржой со своими стейкхолдерами). Но вы за OAI и софтбанк с шейхами не переживайте - они на IPO бабушкам свои убытки продадут.

А вот если вы строите реальньные продукты, и улучшаете операции опираясь на GenAI, то мои поздравления. Чуваки у которых много денег и мало экспертизы проинвестировали вам офигенный рычаг. Аккуратно считаем PnL проектов, двигаемся осторожно, пилотами, и большая часть маржи осядет в вашей компании (ну и частично у вас 😉). Кайф же.
8👍6💯2
Пейпер нашей фундаментальной команды приняли на EACL’26 🎉

Один из поводов личной гордости: мы первые из крупных компаний пошли в опенсорс LLM в России, и собрали все возможные шишки по дороге, но в итоге раскачали движ, и теперь все крупные игроки стараются что-то сделать для комьюнити. Помимо этого ребята показывают первоклассный уровень владения технологией и изобретают ноухау, и прикольно получить лишнее тому подтверждение
👍144💯3🤡1
Не высовывайся

Вот вчера у меня до пол второго ночи четверо серьезных мужчин ходили по квартире, прикладывали ухо к полу, переодически замирая на месте шепотом восклицали «во, во, пошло» и переговаривались по рации с подвалом, где перекрывали по очереди все инженерные коммуникации. Кто меня хорошо знает, думаю, догадались, что речь идет про судебную экспертизу по моей годовой тяжбе с жилищником и МОЭКО из-за шума от коммуникаций. Экспертизу провели, и сразу так и сказали, что собран инженерный узел из говна и палок с нарушениями (это еще мягко сказано, моя жена, делавшая пусконаладку нескольких крупных предприятий выразилась покрепче). Короче, кажется дальше дело техники (тут огромное спасибо мега-крутому адвокату, заходите за рекомендацией), и дальше борьба уже с другим источником беспокойства вызванного рукожопостью.

Но когда мы с экспертами лазали по квартире, и те искренне разделяли мое негодование, я думал о другом. О том, как меня раз десять посылали подальше в УК, когда я пытался договориться по хорошему. Как убеждали, что никакой проблемы нет, а я один на весь дом такой. Никто же больше не жалуется (ну ладно, один жаловался, но перестал). Че высовываешься?

Зато поскандалить в чате дома о каких то мелочах все в очередь выстраиваются. Мне тут наверное еще повезло, в доме много неравнодушных людей, которые искренне пытаются отстоять общие интересы дома и вкладывают в это силы. Но большинство, конечно не высовывается. Да и я сам чаще всего. Всегда есть хорошая причина.

А иногда наверное надо, просто чтоб жизнь почувствовать. Чтоб с четырьмя серьезными мужчинами играть в час ночи у себя дома в «морская фигура на месте замри», глядя на показания шумометра. Когда еще такой шанс выпадет?
👍96😱3
Чем заканчивается любой банковский брейншторм на любую тему
😁18💯3😢1
Платформенные продукты vs касдев

В какой-то момент карьеры мне подвернулась очень крутая возможность пойти строить AI SAAS в быстрорастущем стартапе. Классные фаундеры, понятный ров, растущая клиентская база, известный фонд прикрывает деньгами, международные продажи, короче мечта.

Год работы спустя мы с командой запускаем продукт, выходит статья про нас на техкранче, батлкарды написаны, короче готовы. Официальный запуск 22 февраля 2022, и уже через два дня планы наши начали довольно резко и необратимо меняться по понятным всем причинам. Потом мы заработали компании денег совсем другими вещами, и это уже совсем другая тема, но вот история моей AI платформы на этом по большому счету закончилась.

Обычно я так эту историю и рассказываю, и драматургически в ней ни добавить, ни убавить. Очень удобно все списать на потрясения в мире. Но на деле то я понимаю, что даже если бы внешний контекст не менялся, мой продукт ждали бы большие проблемы.

Вот в чем дело. Когда я начинал его строить, я естественно погрузился в то, какие решения строят ребята в касдев команде под клиентов, и даже первый пруф оф концепт платформы мы запускали совместно. Но вот потом я в себя поверил и пошел строить дизрапт-некст ген продукт, который давал небывалую гибкость, красивую архитектуру и лучшие модели под капотом. Я до сих пор считаю, что это самый удобный и гибкий конструктор в этой области, из всего что я трогал.

Было два ньюанса.

Этот идеальный конструктор был несовместим с тулчейном касдев команды. Тот был не МЛ-изированный и элегантный, но зато легко адаптировался под любые дикие хотелки клиентов. Разница была как между военной и гражданской техникой: где военная техника не отличается удобством и эргономикой, но зато максимально ремонтно пригодна и проста для модификаций. Вот я и строил айфон для людей, которым нужна была walkie-talkie рация.

Хуже было то, что буквально через год нас ждала LLM революция, и сама парадигма подобных продуктов начала необратимо меняться, а моя платформа в один день стала бы морально устаревшей.

Я этот урок выучил. Уже в Т, когда мы строили AutoML платформу мы действовали совсем по другому: мы начали с того, что долго делали касдев и шаг за шагом обобщали свой опыт инструментами. В итоге набор платформенных инструментов был прост в обслуживании и модификации, недорогим в разработке, и нам было не жалко его забросить, когда он себя исчерпал. А мы смогли из этой активности запустить целое направление контентного менеджмента для екома в Т-Банке и автоматизировать разметки на сотню с лишним миллионов в год.

Я до сих пор считаю, что иногда нужно ломать статус кво и плясать от вижена. Но мне кажется, нам слишком уж часто хочется побыть визионерами там, где надо скучно и целенаправленно сделать свою работу.
6🤔5💯2🌚1
Деконструкция советских комедий

Я видимо старею, но на этих новогодних праздниках с небывалым удовольствием пересмотрел все главные советские комедии. И сейчас стал подмечать, что Новосельцев работает в опенспейсе, которому позавидует большинство современных офисных работников (работягам с водного привет!), модная квартира на мосфильмовской из «Москва слезам не верит» до сих пор вполне себе востребованная недвижка, а сами истории в корне своем почти не стареют.

И я вспомнил о совершенно фееричном выступлении Жоры Крыжовникова Андрея Першина на тиньковской продуктовой конфе «продукты 24» двухлетней давности, где тот разбирал режиссерские инструменты управления зрительским вниманием в советских комедиях. И это оказалось не менее интересно, чем эти самые комедии смотреть. Хочется думать, что именно это выступление сподвигло его запустить свой канал, где он развил эту тему в серию лекций по самым знаковым фильмам Данелия, Рязанова и Гайдая.

И я как наноинфлюенсер хочу отдать дань Андрею и порекомендовать его канал, чтоб его аудитория росла (хоть и на сотню человек, но зато каких!) а он и дальше радовал своими разборами. А если посмотрите другие видосы с канала «карты, деньги и продукт» по первой ссылке, то можете найти и мое там интервью
👍31
LLM-as-a-judge - индустриальный антипаттерн

Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки при внедрении (easy), но при этом непрозрачно прячут под капотом огромную сложность (not simple). Про эмбеддинги поговорим потом, а вот с llm-as-a-judge давайте разбираться.

Казалось бы ну кайф. Вот сделали вы систему (агентскую, разумеется). Надо ее качество замерять на каждом эксперименте. Раньше надо было нанимать разметчиков, обучать их, ждать днями каждую разметку. А тут написал промпт проверки ответа и LLM сама быстро все размечает. Эксперименты ускоряются, ту зэ мун.

Но вот проблема: этот промпт надо написать. А для сложных сценариев надо еще и подложить в этот промпт какие то данные о внешнем состоянии системы в тесткейсе. Уже выглядит как задачка на context engineering. А как из всех возможных промптов выбрать тот, который реально работает? Видимо руками размечать. Кажется, что и ок, руками разметили один раз, а потом у нас автоматический оценщик. Ну так то тоже мимо: дрифт ответов системы (а это буквально задача R&D - сдрифтить ответы системы в сторону правильных), и все, по хорошему надо переразмечать качество джаджа.

Ну ладно, есть задачки где промпты-инструкции простые. Там то все хорошо? Ну вот нет: модели же еще и игнорируют эти инструкции. Опять же в разном проценте случаев на разных распределениях аутпутов системы. Один раз посчитать и забыть не получится.

Че-то нифига не просто да? И без живых разметчиков не обойтись. Вот и получается, что вроде внедрять очень просто, но заставить это стабильно и хорошо работать - очень трудно.

Когда же llm-as-a-judge полезен?

1. Команда относится к джаджу, как к отдельному продукту. Со своими метриками, своим беклогом. И все равно дополняет разметочными метриками.

2. Джадж - это часть композитного реворда для алаймента. Тут все ясно: даже неидеальный рекорд может накинуть метрик.

3. Джадж удешевляет человеческие разметки. Например схема с перекрытиями, где один из размерчиков - это ллм. А лучше ансамбль разных ллм.

4. Вы учитесь строить продукты. Тогда действительно пофиг на финальное качество, главное, чтоб сложилась культура работы с хоть какими то метриками.

В остальных случаях я убежден, что llm-as-a-judge - это бомба замедленного действия, которая дает ложное чувство контроля.
👍179💯3🤔2🤡1
Некоторое время назад у меня была очень странная цепочка знакомств, встреч и разговоров, которые пошатнули стабильность внутреннего компаса ценностей. Когда ты думаешь «Блин, а может быть я просто слишком наивен? Может быть я одел белое пальто, и размышляю о высоком, а на деле надо грызьться за каждый клочёк места под солнцем. Может быть я не на тех людей смотрю, как на ролевые модели».

Вот этими мыслями я приболел. К счастью близкие люди были рядом и быстро смоделировали куда такая дорожка ведет, и почему ничего хорошего в этом нет. И окончательно вернула волю к жизни в этом мини-кризисе мне статья Сартра: «экзистенциализм - это гуманизм».

Если попробовать ужать ее досуха (что, конечно, преступление), то мысль там простая: человек - это проект, который сам себя строит. И в этом проекте важны и имеют ценность и вес только дела. Все попытки сконструировать другую ценность извне - иллюзорны и несостоятельны. А строя себя ты строишь человечество.

В этом контексте он привел классный пример: во времена оккупации Франции к нему пришел ученик и спросил, как правильно поступить: остаться с ослабевшей матерью и спасти ее от смерти в одиночестве или пойти в сопротивление и бороться с нацистами. Ни одна моральная система не могла помочь в этой конкретной ситуации. Сартр отказался ему что-то советовал, мотивируя тем, что «ты и есть твой выбор в этой ситуации» (если совсем упрощать). Более того парень решал не только за себя в тот момент, но и за все человечество (потому что в один в один такой же выбор во всех деталях больше ни один человек не попадет). А значит его выбор значит очень много.

Так что выбирая что-то противное вопреки себе - ты подрываешь свой собственный проект. Взамен можно получить много: наивным тоже быть не надо, но я думаю все, кто сталкивался с сверхуспешными людьми, понимают какую цену те платят за свой успех. Да и как правило они очень искренни в своём личном проекте и пирамиде ценностей, и не платят налог на то, что предают какие-то свои идеалы (хотя тут сложно в голову залезть, кто знает).

В итоге, остаться верным своим ценностям - я верю, что правильный выбор, даже если за это придется заплатить дорого.
19👍9
А с векторным-то поиском что не так?

Обсудили, как llm-as-a-judge стал антипаттерном, который непрозрачно прячет под собой большую сложность, теперь давайте поговорим про векторный/семантический поиск.

Если смотреть на эту технику абстрактно - все с ней ок. Задача построения эмбедов снижением размеренности пространства с нами давно, олды из NLP вспомнят LDA/LSA, олды (и не очень) из рексиса матричную факторизацию. Первый ренессанс в широких инженерных массах у векторного поиска случился в середине десятых, когда все распробовали word2vec. Это действительно был очень свежий и классный кусок теха: unsupervised метод, дешевый в обучении (а чаще сразу предобученный) и инференсе, который укладывает семантически близкие слова близко друг к другу в пространстве эмбедов. Обещал с ноги закрыть проблему синонимов-парафразов, морфологии (в фасттексте), а с небольшими допилками еще и мультиязычности. Именно тогда если помните был первый бум чатботов, алексы и т д. Как раз потому что это была простая в реализации и доступная не-млщику технология семантичнского поиска.

Потом правда наступило похмелье: оказалось, что на многих задачах этот метод не обгонял bm25. Непонятно как дружить со структурированными текстами. Он либо работает как надо сразу из коробки, либо получить желаемые свойства очень сложно (единственная нормальная ручка - строить модель поверх). Он не решает вопрос замешивания не-текстовых фичей. Короче в серьезных продуктах все остались на классическом retrieve-rerank, где векторный поиск генерит кандидатов и используется фичей в ранжирование. Ну или стали инициализировать ими сетки для трейна на задачу.

Проходит чуть меньше 10 лет и про векторный поиск опять начинают говорить «все и их мамы». В этот раз в контексте RAG систем и context engineering’a LLM. С тех пор эмбеддинги у нас научились строить поверх предложений, а не слов. Считаются они трансформером, в не лежат в словаре. Но суть та же: unsupervised метод как-то сближает в среднем похожие по смыслу предложения и расталкивает разные.

А болячки все те же. Но в этот раз на них посмотрели не млщики, а армия креативных SWE и сбросив с парахода современности задачу IR начала сначала:
- 50 оттенков чанкинга
- а давайте к чанкам метаданные приписывать еще текстом
- агент, который через MCP сам себе собирает нужный контекст
- надо агенту дать почитать заголовки документов и тулу которой он может достать контент того, что он считает нужным
- mcp уже пробовали?
- диприсеч!
- перепишем все базы знаний, чтоб агент в них разобрался
- и конечно же каждый из методов оборачиваем в фреймворк, который несовместим с 15 уже имеющимися

Ну и это ожидаемо: даже очень классные SWE как правило не привиты дата-дривен культурой и базовой насмотренностью в области IR в той же степени, что и MLE (хотя справедливости ради и многие MLE тоже). Из-за этого в руках оказывается любимый молоток и начинается инвестиция усилий в инженерные решения, вместо инвестиций в данные (эвалы, разметки на руткоз, разметки для обучения). Это еще и полируется сверху llm-as-a-judge, и этот инженерный урборос катится куда-то в сторону от простого решения.

Что с этим всем делать? Во-первых изучать мл-систем дизайн. В арсенале инженера должно быть много инструментов решения типовой проблемы (а поиском мы уже пол века занимаемся). Во-вторых инженерные решения должны опираться на данные. Хорошо бы распричинить ошибки вашей системы на около-прод распределении, и для начала понять, а почему текущий подход не справляется? Это натолкнет на наиболее дешевое решение. Да это гораздо трудозатратнее, чем просто воткнуть модную блестящую штуку себе в пайплан, но зато и успех намного вероятнее в таком подходе.
13👍6🌚3💯2🤔1
Учим ллм мыслить по-байесовски

Попалась в новостях сегодня классная статья от гугла: ребята обучили ЛЛМпринимать решения по-байесовски просто апроксимировав политику байесовского классификатора лорой на синтетической задаче. И эта способность обобщилась на другие задачи. Причем без всякого grpo.

Почему это важно? Чисто практически - потому что мы все бесимся с того, что ллм совершенно не умеет строить внутри себя модель предпочтений. Ну типо вы пишете одну инструкцию - она исполняет с ошибкой. Просите поправить, она правит, но нарушая оригинальную задачу. Просите опять поправить - возвращается первая ошибка и так по кругу.

Интуиция, почему так происходит понятная: в обучении LLM совершенно нет временного измерения: вся вероятностная модель строится так, как будто модель взглянула на статический слепок данных (по крайней мере в рамках одной стадии обучения). А вот в инференсе появляется новое измерение: время. И во времени ллм начинает получать новые данные. Но при этом учиться учитывать эту новую информацию ее особенно не учат: максимум в датасете преф-тюна есть кусочек корпуса, где пользователь собачится с ллм и та исправляется.

А ребята предложили интересную идею: а давайте возьмем обычный байесовский классификатор на синтетическую задачу (а такой классификатор прекрасно умеет обновлять свое поведение с появлением новой информации) и попробуем задистилить поведение такого классификатора в ллм через преф-тюнинг. И заработало. Причем тупо на лоре, которую на ноуте бытовом можно потюнить. Ллм реально начинает и на других задачах принимать решение в байесовскои подходе.

Там важно понимать, что ребята не измеряли просадку общего качества от такого прикола. Но мне кажется это и не суть важно: индустриальные ребята могут в свой пайп перф-тина добавить эту задачку как реворд и получить лучшее от двух миров.

Рисеч с большой буквы. Не просто заливают все компьютом, а реально свежие идеи рожают. Просто кайф.
👍9🥴2🌚2
Я убежден что есть только два типа вкусной еды вне дома: сделанная профессиональным поваром, глубоко разбирающегося в своей профессии и без двух минут обладателя мишленовских звезд и еда из странной точки на фуд-корте, где никто не говорит нормально по русски. Никакого in-between.

В эту дихотомию одной ногой меня погрузила моя жена Оля, которая регулярно находит восхитительные места, открыла для меня Bron (и знает их шефа Мирко), Северян и много других знаковых мест. Именно она обратила внимание на то, что надо искать места, где не заливают все нафиг соусами и заваливают тебя яркими вкусами, а умеют раскрыть продукты продуманным приготовлением, учитывают сезонность, совместную уместность. Где вся атмосфера дает тебе расслабиться и почувствовать себя искренне желанным гостем. Вот мы вместе и ходим.

Второй же тип для меня открыл мой друг Паша, с котором мы переодически после бани ходим в замызганную азербайджанскую кафешку на фуд-корте. Максимально непрезентабельную: странная засаленная вывеска, помимо готовой еды продается куча всякой снести, меню в истертом целлофане, сквозь который уже ничего не видно, персонал не говорит по русски. Но восхитительно вкусно. Обычно это занятное зрелище: мы сидим на пластиковых стульях в окружении лавок с ширпотребом, пьём чай, едим руками лепешки. По соседству сидят серьезные седовласые азербайджанские мужчины и тоже уже не первый час попивают из турецких стаканчиков. И обсуждаем венчуров, GenAI, долину и жизнь в корпорации. Кайф как он есть. С тех пор я стал чаще присматриваться к этим странным местам, и они как при эффекте Даннинга Крюгера стали появляться в поле моего внимания. Даже в Москва сити нашел такую турецкую забегаловку.

Как один режисер сказал: «лучше плохо, чем как все». И в контексте еды мне кажется это хороший совет: нет ничего более унылого и импотентного, чем сетевая массовая посредственность. Про яркие дорогие места в этом смысле все и так знают, а вот нишевые «для своих» очень долго выпадали из моего внимания, а зря. Классная возможность выйти из зоны комфорта в зону «вкусно».
9💯5😁3
А мы внедрили GenAI!

Из каждого утюга энтерпрайза слышу я. А потом общаюсь с инженерами на местах, и оказывается, что:
- внедрили, но вообще-то можно было и более простым способом достичь тех же или лучше результатов
- внедрили, но реальный end2end эффект внедрения непонятен. За агентом перепроверяет человек, и возможно все только стало медленнее
- внедрили, но на маленький процесс/кусочек процесса, где без массовости и ошибки терпимы и эффекта заметного быть не может
- внедрили, но сами искренне не понимают в чем польза

Там все несчастные семьи несчастны по своему, а вот все счастливые - счастливы одинаково. Давайте расскажу на примере автоматизации чат ботами нашей поддержки, как существенно повысить шансы на бизнесовый успех в GenAI кейсе. Пререквезит тут: у вас есть очень дорогая операция в компании и на ней уже есть какая-то бейзлайновая автоматизация (если ее нет - то вопрос почему? С высокой вероятностью потому что не оцифрованы инфра или CJM слишком сложные и неформализуемые, а тогда и ген-аи не поможет).

Первым делом мы всей командой заперлись на полтора месяца и под лидерством Даниэля начали читать диалоги где не случилась автоматизация. Кажется, что это нерепрезентативно. Но на самом деле прочитав сотню чатов - неизбежно встретишь все массовые проблемы (просто в силу тервера). А не массовые и не особенно интересно раскапывать. Но важно не просто читать, а по каждому диалогу фиксировать резолюцию (решение/класс проблемы), чтоб потом формально их можно было кластеризовать (просто читка ничего не даст).

После этих читок у нас сложилась некоторая онтология проблем: где-то мы контекст не учли, где-то намерение в системе не заведено вообще, где-то процедура поддержки не дописана, где-то не расшифровали ответ клиента на наш доп запрос. На этом этапе было важно хотя бы понятийно представлять для каждой проблемы потенциальное решение, и не заводить неконструктивные проблемы типо «бот тупой».

Дальше эту онтологию надо было квантифицировать. Мы стали писать задачи на разметку, чтобы разметить большой сэмпл прода на эти проблемы. В процессе мы пересмотрели эту онтологию, анализируя спорные кейсы где была рассогласованность. В конечном итоге мы смогли объяснить каждый отвал прода одной из крупных проблем.

Хочу отметить момент: до сих пор вообще ни слова про ЛЛМ (И часть из проблем мы действительно решили без ллм вообще). Инженерные решения начали появляться уже на следующем шаге - где на каждый блок проблем собралась команда инженеров продактов аналитиков и операционных ребят (это кстати было must), которые продолжили углубляться в уже отдельные проблемы и тестировать решения. Там работало много команд в параллель, и успеха достигали те, кто:
- инвестировал в быстрый фидбек луп (качественные офлайн метрики/удоьные быстрые а/б)
- упаривался в работу с данными больше чем в работу с алгоритмами
- стараются не сломать сильные стороны текущего решения, но улучить слабые стороны.

У этого подхода есть один большой минус: он сильно опирается на структуру текущей системы, и это может быть ограничением. На моей практике это случается гораздо реже, чем этого можно ожидать, но риск действительно есть. Поэтому мы выделили кусок потока, где система дизайнилась «с нуля» со всем модным фаршем. Ну и практика показала, что быстрых побед там не было: прошлую систему обгоняло, а вот прошлую систему с ллм-допилками уже нет.

Рассказывать, что конкретно принесло больше денег контекстуальный классификатор, тулы для операционки, раг, n8n-like workflows или агенты с тулами особенно смысла нет. Просто потому что в вашей системе все может дать совсем по другому.

Но важно, что все успешные внедрения ллм в энтерпрайз в моем поле зрения, которые принесли не высосанные из пальца эффекты шли по одному и тому же паттерну: глубокая аналитика и касдев, колоссальная работа с данными и только потом инженерка. Не наоборот.
💯86👍5
Генеративки - это новый пластик

Я это остро почувствовал, когда попытался в OpenClaw дописать коннектор к нашим внутрекорпрративным ллм и споткнулся об отвратительнейший дизайн модулей системы. Я это чувствую, глядя на ублюдские генеративные видео на билбордах комсомольского проспекта. Я в этом уверен, когда слышу про очередную компанию, которую накрыла волна инцидентов из-за вайбкода в критических системах. Я понимаю это, когда вижу длинные тире в посредственных текстах на сабстеке.

Я в общем уверен в том, что генеративки сделали цифровой контент дешевле и доступнее, но убили наглухо экологию цифрового пространства.

В пластике нет ничего плохого: он решил большое количество проблем дистрибьюции индустриального общества. Но стал экологической катастрофой из-за фокуса на краткосрочных выгодах. Я уверен, что неумелое применение ллм и жадность сделают то же самое с цифровым пространством. И бороться с этим бессмысленно (значит лучше возглавить).

Скриньте: года через три самые модные стартапы будут заманивать внутрь инженеров тем, что «не используют ллм в разработке».
😁87👍4💯3🤔1🌚1
Артём обо всём
Генеративки - это новый пластик Я это остро почувствовал, когда попытался в OpenClaw дописать коннектор к нашим внутрекорпрративным ллм и споткнулся об отвратительнейший дизайн модулей системы. Я это чувствую, глядя на ублюдские генеративные видео на билбордах…
В догонку прикольная статья на эту тему (особенно респект чуваку, за то что помнит Joel’s test on software): https://www.antifound.com/posts/codegen-is-not-productivity/

Товарищ там немного предвзят: очевидно он большую часть карьеры работал над критичными системами крупных проектов. Если ты стартап запускаешь PoC из говна и палок, то тебе правда все это не очень релевантно. Но на проектах индустриального масштаба мне кажется его тезисы верны на 100%. Если не хочется читать весь rant, то можно скипнуть и посомтреть аппендикс, где он описывает свой LLM-powered workflow, и он мне кажется очень здравым для зрелого проекта.
👍2💯1
Про нетворкинг

Я раньше себя насилу выпихивал «нетворкаться». Списывал своё нежелание на интровертность, но честно тянул эту лямку. Как часто бывает в таких случаях оказалось все скорее в том, что я не понимал в какую игру играю, и просто формально повторял за ребятами поопытнее.

Вот инвестор мой из одного из стартапов. Постоянно был на встречах со всякими заряженными ребятами. Было ощущение, что у него везде друзья и знакомые. Ну и я поверхностно считал, что ну вот просто такой вот дружелюбный харизматичный чувак: не имеет сто рублей, а имеет сто друзей. И время от времени действительно обналичивает свой социальный капитал.

Но как это повторить, я совершенно не понимал. Вот встречаешься ты с каким-то товарищем, который обладает ресурсом полезным, а о чем вообще с ним говорить? Можно конечно и «ни о чем», но так удерживать внимание вообще-то непросто. Дружить? Извините, дружить это вообще-то совсем другое дело. Дружить, это когда человек интересен тебе настолько, что ты готов его боль на себя примерить, а не просто анекдотами обменяться. А на это ты готов только если в этом другом человеке какой-то ответ для тебя важный есть. Иначе ты сидишь и просто все нутро протестует и кричит «что мы здесь делаем».

Дружить в общем не получается. Можно конечно просто на интуиции действовать, но скорее получится психологическими травмами притянуть к себе людей, и разумеется совсем не тех. А чем тогда заниматься? О чем вообще говорить? О чем говорят нетворкеры? А главное, что должно произойти после такого разговора?

Вот размышляя на эти темы я и пришел к понятной мне формуле. Нетворк - это поиск выгодных транзакций. Мы все обладаем какими-то ресурсами. Ну как в третьих героях, золото там, сера, самоцветы... Как минимум своим временем и талантом (что на деле ценнее чего угодно). Как максимум - возможностью принимать какие-то серьезные решения в перераспределении ресурсов. И часто информацией о том, где каких ресурсов в избытке, а где не хватает.

И единственная хорошая игра в нетворкинге - это искать эту разницу потенциалов и устранять ее. Можно и нужно смазывать это всё юмором, историями, просто чтоб доверие быстрее получить. Но ключевой квант нетворка - это сделка.

Кто-то ищет себе сотрудника, кто-то инвестиции, кто-то возможность припарковать деньги, кто-то ищет красоты, кто-то поддержки. И помогая свести продавцов с покупателем ты всегда берешь себе какой-то процент. Не обязательно физически: возможно ты зарабатываешь доверие, которое может пригодиться потом. Но это обычная и очень важная работа, которая при правильном исполнении становится очень крутым вин-вин-вином.

Эта классическая simple but not easy мысль открывает совсем новые правила игры. Ты начинаешь больше спрашивать у людей про потребности, больше интересоваться, кто чем занимается, прогнозировать а кто чем будет обладать на каком-то горизонте. Строить более богатый граф в голове, пытаясь соединить неожиданные вершины в выигрышных комбинациях.

А вот тогда в эту игру играть уже интересно даже просто ради самой игры. Чего всем вам и желаю! (Я то все равно нетворкаться не пойду - я правда интроверт).
👍157🌚5
Прочитал законопроект по регулированию ИИ в России, так что вам не придется

Читаем оригинал. Новости на эту тему не рекомендую читать, там пишут фигню. Если вас это касается, то лучше почитайте сами, потому что я смотрел внимательно только на куски, которые непосредственно могут влиять на мои команды. Какие для себя забрал хайлайты.

1. Вводится понятие доверенных моделей. Могли бы и сразу написать прямым текстом «гигачат» лол. Во всех гос органах и на критической инфраструктуре теперь можно использовать только модели, все стадии тренировки которых проводились в РФ гражданами РФ. И описана куча регуляторки по опразрачиванию данных и регламентов для ФСО/ФСБ, Коммерческие компании не обязаны использовать суверенные модели (по крайней мере я такого не увидел).

2. Информирование и возможность отказаться от ии
Нужно всегда подсвечивать, если в рамках предоставление услуги решения принимает автономно ии без участия человека, за исключением случаев когда это и так очевидно. Что интереснее у пользователя должен быть механизм отказа от ии и получения сервиса через человека. Тут с одной стороны как-то кисло, с другой стороны есть опыт Британии, где запретили авторассылки, и там в итоге сидят специально обученные люди, которые прокликивают не глядя все эти рассылки, чтоб формально выполнять требования.

3. Регулирование сгенерированного континента
Кстати норм тема: сгенерированный контент надо маркировать. Требует явно регламентировать права собственности по всей цепочке использования моделей. Короч вроде норм.

4. Ответственность за косяки моделей
Вот тут интересно: оператор сервиса на базе модели может предъявить иск создателю модели, если оператор принял «все разумные средства предосторожности» а модель все равно накосячила и нанесла ущерб пользователю. С опенсорсом/В2В кажется что станет интереснее и надо будет поработать с юристами плотно.

Резюмируя: могло быть сильно хуже.
👍16
Артём обо всём
Прочитал законопроект по регулированию ИИ в России, так что вам не придется Читаем оригинал. Новости на эту тему не рекомендую читать, там пишут фигню. Если вас это касается, то лучше почитайте сами, потому что я смотрел внимательно только на куски, которые…
UPD: я надеюсь вы мне на слово не верите, и если вам важно, то сами пошли курить законопроект. Потому что я не описал важный ньюанс:
- есть суверенные модели, это те которые полностью обучались в РФ, читай гигачат. Им честь и хвала.
- есть доверенные модели. Это те, которые прошли сертификацию у уполномоченных исполнительных органов и попали в реестр доверенных. Суверенные-национальные почти по определению попадают в список доверенных. Остальные надо как-то в этот реестр заводить. Как - естественно пока не понятно, это уже конкретные органы должны решать. И все кто является критической гос инфрой или работают с ней должны использовать эти доверенные модели которые хотстятся у нас (привет Клод Код). Банки вот критическая инфраструктура - нас это например касается.

Так что ключевой момент там - это как будет устроен этот реестр, потому что пока он описан в виде «мы за все хорошее, просто против шпионажа и диверсий, фсб разберется». А на практике надо будет смотреть как эта процедура реально будет работать .
💯4👍3
Я попытался написать эссе с помощью Opus, так что вам не придется

Меня с момента старта канала несколько человек спросили "а зачем ты вообще этим занимаешься?". И честный ответ: не знаю. Мне нравится умничать и я получаю удовольсвтие, когда получается кого-то этим развлечь. Наверное вот по этому. Так что в этом смысле эксперимент из заголовка поста, мне сразу казался сомнительным. Но из научного интереса решил попробовать текнолоджис в задачке, которая вызывает у меня яркие и живые эмоции. Забегая вперед - получилась полная ерунда, но кое-что полезное я для себя нашел.

Итак сетап: я собрал все свои статьи отсюда, дал его Opus 4.1 (потом пересел на 4.6) и попросил сгенерировать список тем, которые были бы органичны в рамках канала. Первый выхлоп был отстойный: буквально комбинация каких-то тезисов из существующих статей. На мое возражение моделька выплюнула новый список, и там оказалась дейстивтельно занятная тема (я кстати на эту тему еще напишу, действительно животрепещущая). Начали мы вместе тему раскрывать: я попросил выдать тезисы которые можно в рамках этой темы исследовать. Там были даже отчасти занятные, но в итоге они скорее навесли меня на тезис уже из моей головы. Вот под него мы с опусом и начали писать статью.

Получалось плохо: очень длинно, то слишком сухо, то патетично (и везде длинные тире, лол). При этом там были некоторые прикольные примеры конкретных практик, которые я даже решил взять на вооружение. Было очень заметно, что текст какой-то обезличенный что-ли? Я попросил добавить в текст автора, но Opus ограничился одном предложением, описывающем вымышленную ситуацию, в которую я якобы попал - дальше пластик. При этом по фактологии было даже неплохо. Где-то не хватило глубины, или классных ярких сравнений. Сутево мысль то он раскрыл с десятого пинка. Но читать это было неинтересно.

Я вот даже думал: а в чем дело? И понял, что я когда читаю этот текст, я не вижу за ним автора. Там все описано как на википедии. По делу, сухо, но без эмоции и личного опыта. Я еще поигрался, пытался привнести этот дух в текст, задушив опус командами, но у меня ничего не поулчилось. Читать все это просто неинтересно.

При этом, пользу я кстати увидел. Опус сгенерировал действительно прикольную тему (хотя и сам не понял в чем сутевой конфликт внутри этой темы). Опус подкинул прикольыне конкретные примеры практик и иллюстраций. Короче отработал как классный брейншторм-партнер и классная семантическая поисковая система фактов.

Тут на SnowBase Витя Тарнавский сидя на барной стойке, рассказывал, что CTO скоро будут больше не нужны, и надо будет придумать себе через несколкьо лет новое занятие. Вот на случай такого апокалиптического развития событий я думаю я нашел себе полянку "развлекателя байками". На этом попроще опус особо не впечатлил.
10😁6💯5
Орнул с того, как технодемка-генератор-видео-по-картинке, которую дали вот щас потыкать ребята на SnowBase идеально проиллюстрировала пост выше
😁6🌚1