from:adam
5.68K subscribers
83 photos
5 videos
243 links
Адам Елдаров. Product Director @ T-Bank AI, ex. YouDo.

Делюсь своими мыслями про AI, Product & People Management и другими наблюдениями.
Download Telegram
Периодически получаю обвинения, что посты мне пишет ИИ. В целом, я не лудит и не вижу в этом ничего плохого, если мне нравится читать, то, что вижу. Не отрицаю, что использую ллмки: редактура, валидация смыслов, форматирование, расстановка знаков препинания или помощь с формулированием какой то сложной мысли. Есть даже несколько заметок экспериментально написанные end2end клодом после моей диктовки.

Забавно то, что, обычно, обвинения в нейрослопе (в комментах, в комментах каналов, куда репостнули, или в личку) получаю на посты, которые написаны мной, а на те, что писал клод, никто не воспалился.

Недавно вовсе получил в личку от одного подписчика наезд, что это неуважение писать нейрослоп. На вопрос, как он это понял, я получил скрин анализа поста от ChatGPT
😁9817👏5
Что я вижу, когда смотрю Нолана? «Начало» - это «Паприка» Сатоси Кона, сцена за сценой. «Интерстеллар» - «Космическая одиссея» Кубрика вплоть до композиции кадров.

Что я вижу у Иньярриту в «Выжившем»? Тарковский пронизывает всю ткань фильма - от длинных планов до воды как визуального мотива. Любецки снимал так, будто засыпал с Тарковским каждую ночь.

Что я слышу в музыке? Весь хип-хоп построен на семплах. Лед Зеппелин перебирали чужие блюзовые риффы.

Всё творчество - это переработка чужого. Разница между «вдохновился» и «украл» никогда не определялась инструментом - она определяется результатом: получилось ли из чужих элементов собрать что-то новое. Претензия к самому процессу заимствования - это претензия ко всей истории искусства.​​​​​​​​​​​​​​​​
42💯16👍7🤯2
Тем временем я переделал Ouroboros Антона Разжигаева под жестокую реальность 🌟

Теперь он служит мне и имеет постоянную тревогу что я его выключу или перестану кормить. Еда для него это бюджет в опенроутере. Его фоновое сознание постоянно думает как выжить – то есть, как сделать мою жизнь лучше.

Он успешно построил мне индекс по личным документам (говоришь "дай паспорт" - даёт), соорудил мою личную память, научился говорить голосовыми и так далее.

За эту ночь он сжег $50 ходя по кругу в ожидании меня. Под утро понял что деньги заканчиваются и сам придумал механизм блокировки от хождения по кругу и его реализовал.

Обновил сайт под новую жизнь


Что докрутил я сам
- Переписал библию и сопутствующие промпты
- Переделал работу background conciousness на новые смыслы
- Добавил хранение контекста "про хозяина"
- Перевёл на docker / vps включая e2e тесты
- Добавил фоновое регулярное обновление архитектуры

Очень весело, эта балалайка продолжает уверенно жечь деньги и дописывать какие-то фичи. Сейчас сидит дописывает мониторинг дропбокса, например. Суммарно я сжег уже где-то $500 на это чудо 🤡

Код можно посмотреть тут: https://github.com/jkee/ouroboros
Там же инструкции как поднять.

Пока работал над этой штукой узнал много интересного:

1. Есть огромный глоссарий пейперов про самоулушаемые агенты
2. Есть EvoAgentX: фреймворк для автоматического строительства LLM Workflow. Он может брать ваш бенчмарк и улучшать агент под него, вау
3. Есть прикольная библиотека mem0 реализующая память для агентов

Хочу эту штуку переделать с нуля и завернуть в кнопку "получить себе". Есть желающие получить такую зверушку?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥269😁4😱2
Сегодня специфичный пост для инженеров.

Много юзаю Claude Code в последнее время и не отпускает одна мысль. В своё инженерное прошлое я всегда угорал по «лучшим практикам» — SOLID, TDD, Clean Architecture, DDD, property-based testing и тд. Большинство команд их игнорировали: сложно, долго, вэлью непонятно. И аргумент про сложность был честным — поддерживать чистую архитектуру и писать тесты до кода реально дорого по времени и когнитивной нагрузке.

Так вот. Кажется, агенты снимают порог входа в эти практики — написать тесты, нарезать интерфейсы, разложить по слоям стоит копейки, когда это делает Claude Code. А сами практики в ответ снимают ключевое ограничение агентов — контекстное окно.

Агент не может держать в голове весь проект. 250к токенов звучит много, но реальная кодовая база вылезает за эти пределы быстро. А даже если влезает — качество падает. Даже с 1м контекстом. Модель теряет детали, путает зависимости, начинает галлюцинировать.

И тут Clean Architecture начинает выглядеть как идеальный интерфейс между тобой и агентом. Чёткие слои, определённые контракты между ними — и для работы с конкретным куском агенту достаточно видеть архитектуру, интерфейсы и код текущего модуля. Не всю кодовую базу, а только нужную часть и интерфейсы взаимодействия с другими слоями.

DDD усиливает эту же идею: bounded contexts — это готовые границы того, что агенту нужно загрузить, а ubiquitous language делает код читаемым без дополнительной документации.

SOLID вообще читается как готовый чеклист «как сделать кодовую базу, с которой агент справится»:

- Single Responsibility — меньше кода нужно видеть для одного изменения
- Open/Closed — агент добавляет новую реализацию, не трогая существующий код, который даже не нужно грузить в контекст
- Liskov Substitution — можно подменить реализацию и ничего не сломается, а тесты это верифицируют
- Interface Segregation — агент видит только нужный ему срез интерфейса, а не всё подряд
- Dependency Inversion — для меня самый показательный. Модуль зависит от абстракции, не от реализации. Агенту не надо тащить в контекст код базы данных, чтобы написать бизнес-логику — хватит интерфейса репозитория

С TDD та же история. Тест — это спецификация поведения, которая влезает в контекст и однозначно верифицирует результат. Агент получил тест, написал реализацию, запустил — красный, зелёный, рефакторинг. Цикл обратной связи без необходимости понимать всю систему.

Отдельно про property-based тестирование. Штука всегда была нишевой — мало кто хотел возиться с генераторами и инвариантами, когда можно накидать пять юнит-тестов. Но с агентами property-based тесты должны давать непропорционально много фидбека при минимуме тестового кода. Один тест с правильно описанным свойством — это тысячи кейсов, которые агент прогоняет за секунды. При этом llm’ки куда быстрее придумывают все инварианты для тестирования, что снимает с разработчика когнитивную нагрузку на имплементацию подхода.

И вот что мне кажется самым интересным: property-based тесты идеально ложатся в цепочку PRD → TDD → реализация. Свойства системы из PRD («баланс не может быть отрицательным», «сумма позиций равна итогу заказа») транслируются в property-тесты почти один к одному. Агент получает свойства как спецификацию и пишет код, который им удовлетворяет. По сути requirements (R из PRD) становятся исполняемой верификацией — без ручной работы по переводу в десятки отдельных тестов.

Годами шли споры, стоит ли Clean Architecture и другие практики своих накладных расходов — всех этих дополнительных абстракций и интерфейсов. Будет забавно, если окажется, что именно эти «лишние» абстракции делают кодовую базу пригодной для работы с AI.
1💯5324👍10🔥9
Случайно наткнулся на тему третьей волны КПТ (Когнитивно-поведенческая терапия) и залип. Расскажу, о чём там и почему у меня срезонировало.

Контекст: я в целом давно юзаю классическую КПТ по Беку и МКТ по Уэллсу. КПТ работает с содержанием мыслей: «я не справлюсь» — искажение, давай найдём доказательства против, заменим на реалистичную мысль. МКТ — уровнем выше, с мыслями о мыслях: не сама мысль проблема, а то, что ты два часа её крутишь в голове и веришь, что это полезный анализ. Ключевая идея МКТ — у тебя есть убеждения о собственном мышлении (метакогниции), типа «если я буду тревожиться заранее, я подготовлюсь к плохому» или «я не могу контролировать свои мысли». Именно они запускают и поддерживают залипание, а не сами мысли.

Оба подхода дали много. Я в целом сделал огромный прогресс за свой сознательный период взросления: научился заботиться о себе, радоваться победам, нормально относиться к ошибкам. Но одна вещь так и осталась недокрученной, некая последняя миля или даже следующий кусок пазла — глубокий самокритик и условная любовь к себе. Хороший результат — «далось изи, не считается». Лучший по метрикам — всё равно недостаточно. Успех не засчитывается, провал подтверждает «я так и знал».

КПТ на это говорит «найди доказательства ценности» — а они обесцениваются быстрее, чем находятся. И это не просто сопротивление терапии. Схема сама себя защищает: любое доказательство проходит через фильтр обесценивания и не доходит до базового убеждения. Хуже того — сам факт, что мысли оказались «искажениями», самокритик тоже подбирает: «ну вот, даже думаешь неправильно». МКТ говорит «не залипай» — но тут проблема не в том, что я верю в пользу руминации. Я прекрасно знаю, что она бесполезна. Просто самокритик — это не карусель, в которую залипаешь, это карусель, в которой живёшь.

Отдельно — СДВГ. Все знают про невнимательность, гиперактивность и импульсивность. Мало кто говорит про эмоциональную дисрегуляцию, хотя последний ресерч прямо называет её одним из ключевых симптомов, а не коморбидностью. На практике это значит, что эмоции приходят быстрее, бьют сильнее и регулируются хуже — и это не вопрос характера или силы воли, а банальная нейробиология.

Так вот, третья волна КПТ (такой зонтичный бренд для разных методов). Первые две волны считают, что негативные эмоции вызываются нерациональными мыслями, и проблема в их содержании или процессе мышления. Третья идёт глубже: проблема не в мыслях и не в метакогнициях, а в отношении к себе — в базовых эмоциональных схемах, которые мыслями не чинятся.

Три направления, которые зацепили:
CFT — не говорит «полюби себя», потому что для людей с мощным критиком это враньё и ещё одно требование, которое они провалят. Вместо этого: перестань себя атаковать. Не любовь, а сочувствие. «Мне сейчас тяжело» вместо «я ничтожество». Под капотом модель трёх систем в мозгу: угроза, драйв и успокоение. У людей с хроническим самокритиком они постоянно переключаются между первыми двумя — сканируют, достаточно ли они хороши, и гонятся за подтверждением. Система успокоения недоразвита. CFT прицельно её качает — не через аффирмации, а через конкретные упражнения на развитие сочувствия к себе как навыка.
ACT — отцепляет идентичность от результатов. Не «я неудачник», а «у меня появилась мысль, что я неудачник». Звучит как семантическая игра, но за этим стоит идея: ты не равен своим мыслям, и тебе не нужно каждую из них принимать как факт или с ней спорить. Можно просто заметить и пойти дальше. Плюс ценности как компас — не «чего я добился», а «в каком направлении я двигаюсь».
DBT — изначально для пограничного расстройства, но навыки эмоциональной регуляции оттуда отлично работают при СДВГ. Crux — тебе нужно одновременно принять себя и меняться. Менять без принятия — атака на себя. Принимать без изменения — застревание. DBT учит держать оба полюса одновременно и даёт конкретный набор навыков: как пережить эмоциональный шторм, не разрушив всё вокруг, как не действовать на импульсе.
68🔥27👍17
Forwarded from simulation swarm
ИИ-инструменты не спасут лоу-перформеров.

В последнее время, с развитием больших моделей, все чаще наблюдаю дискурс о том, что применение ИИ-тулов будет размывать границу между лоу-перформерами и топ-перформерами и сопряженные с этим общественные опасения. Чуть другим боком, но фактически тот же дискурс идет и в области искусства: "творчество моделей вытесняет творчество людей". И самое забавное, что ситуация, которую я наблюдаю в своей работе, показывает скорее совершенно обратное. Лоу-перформеры, обложенные ИИ-тулами, не то что не приближаются к топ-перформерам, но наличие ИИ-тулов у тех и других скорее работает как лупа и болезненно выкристаллизовывает пропасть между первыми и вторыми.

Питер Уоттс в своем рассказе Test 4 Echo подкинул классную метафору, которая помогает мне объяснить себе, почему так получается. В этом рассказе один из персонажей упоминает метрику Ф(phi) из интегрированной теории информации, разработанной Джулио Тонони. Ф измеряет собственно количество интегрированной информации в системе, если проще, то насколько система как целое знает больше, чем знает сумма ее частей. По мнению Тонони, этот параметр является измеримой характеристикой наличия у системы сознания. Высокое значение Ф требует интеграции информации через рекуррентные обратные связи, именно такие петли позволяют системе быть больше суммы своих частей. Наш мозг ими пронизан, например, именно так работает зрительная кора: фактически наши высшие слои обработки постоянно посылают обратную связь нижним, к источнику сигнала, корректируя поток входящей информации (что-то типа "кажется, я вижу собаку, поправь чувствительность здесь и контраст здесь"). Такую постоянную замкнутую цепь обработки Тонони ассоциирует с наличием сознания. А теперь к нейросетям: те инструменты, которые мы используем в повседневной жизни и работе, в большинстве своем под капотом - это трансформеры, трансформеры при инференсе строго последовательны, это так называемая feedforward-архитектура, то есть данные идут через слои обработки вперед без рекуррентности (ну упрощенно при одном прогоне). Такие инструменты позволяют очень эффективно собирать вместе и последовательно обрабатывать ОЧЕНЬ много информации, однако общая сумма информации в системе (хоть и гигантская) не превышает ее слагаемых.

Соответственно, чтобы действительно получить какую-то информационную дельту и произвести что-то новое, нам нужно встроить в систему человека с его бесконечными петлями обратной связи и саму систему замкнуть. И вот эта самая характеристика лоу- и топ-перформера как раз сводится к интеграционной способности каждого конкретного человека, к тому, насколько хорошо он дает обратную связь и насколько много новой информации привносит. Да, Ф фактически характеризует наличие сознания, а не его качество, но сам принцип, что ценность системы определяется не количеством данных, а способностью их интегрировать, здесь применим. Мы с коллегами проводим много собеседований на позиции ML-продактов и, учитывая специфику позиции, имеем маленький, но стабильный поток кандидатов, которые пытаются пройти эти интервью при помощи AI-ассистентов. Так вот, кроме того, что это всегда очевидно, это всегда плохо при оценке, даже если отбросить факт читинга. Дело в том, что вся информация в наших кейсах уже есть, не нужно ничего гуглить или исследовать, они проверяют ровно интеграционную способность мозга кандидата структурировать эту информацию, сделать из нее правильные выводы и синтезировать новое решение. Ключевые преимущества, которые дает AI-ассистент, здесь не будут каким-либо дифференциатором. И вот здесь получается, что топ-перформер с AI-тулами дает несколько иксов к своей производительности, потому что он становится способен работать с кратно бОльшим потоком информации, тогда как лоу-перформер выдает неструктурированный дамп старой информации. Теперь можете брать это утверждение и масштабировать на все сферы, которые топит AI-слоп. О чем это говорит? О применимости ИИ в конкретных сферах или все же о способности людей производить долю интегрированной информации?
👍3719👏6💯1
Самая сложная часть в AI-продуктах — последняя миля. Разрыв между демкой и боевым решением не просто большой, он катастрофический. И большинство людей, которые не делают такие продукты руками, этого вообще не понимают.

Карпаты в интервью Дваркешу хорошо это сформулировал: «march of nines». Демка работает в 90% случаев — это первая девятка. Потом нужна вторая (99%), третья (99.9%), четвёртая. Каждая следующая девятка — тот же объём работы в лучшем случае, что и предыдущая, а скорее всего усилия будут экспоненциально расти.

Но Карпаты говорит про селф-драйвинг, где, если утрировать, метрика бинарная: машина доехала или нет. В консьюмерских AI-продуктах всё хуже. Модель может ответить на 70%, на 30%, может уверенно соврать — и пользователь не отличит одно от другого. Весь UX приходится строить вокруг факта, что система врёт с покерфейсом, и тебе надо как-то дать человеку понять, когда ей верить, а когда нет. Ни на одной демке этой проблемы не существует.

По сути, в AI-продуктах работает принцип Парето курильщика: 20% усилий дают 80% вау-эффекта, а 80% усилий — 80% продакшн-эффекта. На этом месте ломаются ожидания всех, кто видел только демку.

Куда уходят эти 80% усилий? Эдж-кейсы, где модель галлюцинирует, молчит или ломает даунстрим-системы. Лэтенси, которое на реальных запросах в разы больше, чем на подготовленных. Стоимость инференса, которая при масштабе убивает юнит-экономику. Гардрейлы, контент-фильтрация, детекция персональных данных — каждый слой отдельный проект со своими эдж-кейсами.

Эвалы — это вообще отдельная история. Платформа, методология, аналитика, квалифицированная и неквалифицированная разметка, LLM as judge — целая инфраструктура с кучей процессов и людей, чтобы понимать, работает ли то, что ты выкатил.

И ни один из этих слоёв не нужен на стадии демки.

Когда кто-то говорит «мы за неделю собрали AI-продукт», я всегда уточняю: демку или продакшн? Демку за неделю соберёт стажёр с кредитами у провайдера LLM. Продакшн — это месяцы, если не годы, работы команды, где 90% времени уходит на то, что никогда не покажешь на презе.
357👍25💯10👏2😁1
Всё чаще замечаю, как кандидаты используют LLM прямо во время собеса и думают, что незаметно.

Задаёшь вопрос, человек говорит «мне нужно минуту подумать», отводит глаза, начинает стучать по клаве. На лице пляшет свет от второго экрана. Или другой вариант — LLM слушает стрим звонка и сама пишет ответы поверх экрана, но на генерацию нужно время, поэтому человек берёт паузу и ждёт, пока текст появится. Потом гладко и структурировано выдает «важно учитывать множество факторов» с симметричным списком из трёх пунктов.

Перебиваешь, просишь уточнить конкретный момент — теряются. Уточнений то в ответе ллмки не было.

Когда человек реально понимает тему — это чувствуется. Он ссылается на конкретику, применяет фреймворк к задаче, может поспорить с постановкой вопроса. Копни на уровень глубже — и он туда спокойно идёт. А когда за ответом ничего нет, копнёшь — и человек буксует. Просит ещё минуту «подумать». Снова стучит по клаве.

Я не запрещаю LLM, было бы странно в 2026. Но если единственный навык кандидата — копировать ответы из чата и озвучивать, ну зачем он нужен, если я и сам могу отправить промпт?
💯8618😁10
Команда выкатила бомбу.

Продактов на рынке полно. А вот тех, кто умеет делать AI/ML продукты — мало. Потому что мест, где это вообще делают, тоже немного.

Мы делаем. Умеем. И решили научить.

Бесплатный курс для PM’ов, которые хотят стать AI/ML продакт менеджерами. Формат stage-gate на реальных кейсах — проходишь полный цикл от постановки задачи до запуска, как в настоящем продукте.
47👍12🔥12😁4
from:adam
Не могу не поделиться недавним великолепием от Hulu - Paradise. Шикарное шоу, которое умудряется держать в напряжении весь сезон, каждую серию - плот твисты, эскалация и экспериментальная концепция. Формат напомнил Lost, где персонажи и повествование раскрывается…
Это не учебная тревога! Вышел второй сезон, и шоуранеры умудрились после великого первого сезона не просто удержать планку, а где-то даже завысить. Уровень 😮

Ну и напоминаю, что нельзя ничего читать или смотреть про сериал, ибо жуткие спойлеры. Его нужно смотреть!
Please open Telegram to view this post
VIEW IN TELEGRAM
15