Forwarded from from:adam
Команда выкатила бомбу.
Продактов на рынке полно. А вот тех, кто умеет делать AI/ML продукты — мало. Потому что мест, где это вообще делают, тоже немного.
Мы делаем. Умеем. И решили научить.
Бесплатный курс для PM’ов, которые хотят стать AI/ML продакт менеджерами. Формат stage-gate на реальных кейсах — проходишь полный цикл от постановки задачи до запуска, как в настоящем продукте.
Продактов на рынке полно. А вот тех, кто умеет делать AI/ML продукты — мало. Потому что мест, где это вообще делают, тоже немного.
Мы делаем. Умеем. И решили научить.
Бесплатный курс для PM’ов, которые хотят стать AI/ML продакт менеджерами. Формат stage-gate на реальных кейсах — проходишь полный цикл от постановки задачи до запуска, как в настоящем продукте.
🔥72❤23🤡11🤔2 1
Есть такой человек – Тобиас Лютке. Днём он основатель и CEO Shopify – компании с капитализацией $150B+.
А ночью Тоби развивает собственный on-device опенсорс поисковый движок по документам - qmd.
Проект мощный технологически. Трёхстадийный гибридный пайплайн, параллельный ретривал с разными движками, отдельный слой склейки, LLM реранкер. Всё покрыто метриками, всё на SOTA-подходах. И локально!
Тоби прикрутил его к агентам и теперь движок отлично дополняет openclaw и claude code. у проекта 12k звезд на гитхабе.
В свободное от этих двух проектов время (откуда???) Тоби профессионально соревнуется в тех самых 24-х часовых гонках LeMans. В 2025 году он занял 15-е место из 58 пилотов в своей категории LMP2 в самом большом соревновании в Северной Америке.
Я даже не знаю как можно быть ещё более крутым🤖
А ночью Тоби развивает собственный on-device опенсорс поисковый движок по документам - qmd.
Проект мощный технологически. Трёхстадийный гибридный пайплайн, параллельный ретривал с разными движками, отдельный слой склейки, LLM реранкер. Всё покрыто метриками, всё на SOTA-подходах. И локально!
Тоби прикрутил его к агентам и теперь движок отлично дополняет openclaw и claude code. у проекта 12k звезд на гитхабе.
В свободное от этих двух проектов время (откуда???) Тоби профессионально соревнуется в тех самых 24-х часовых гонках LeMans. В 2025 году он занял 15-е место из 58 пилотов в своей категории LMP2 в самом большом соревновании в Северной Америке.
Я даже не знаю как можно быть ещё более крутым
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥117❤31 2
OpenAI выложили в opensource Symphony – оркестратор для агентов. Проект интересен сам по себе, но важно не это.
Внимание, официальная инструкция по установке:
🌟
Внимание, официальная инструкция по установке:
Tell your favorite coding agent to build Symphony in a programming language of your choice:
Implement Symphony according to the following spec: https://github.com/openai/symphony/blob/main/SPEC.md
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Все выходные вайбкодим с ребенком игру и это лучшее время ever 🤖
Соорудили восьмибитную игру про нашего кота Макара. Кот отправляется в прошлое чтобы собрать ДНК других котов и спасти планету🌟 10 уровней, веселые боссы, кото-мехо-костюм и глитч-эффекты от разрыва континуума прилагаются!
Я сделал для вас рецепт для Claude Code чтобы вы могли быстро засетапить такое же приключение. Закидывайте его в пустую папку, запускаете там claude code и делайте /init.
Ребенку можно отдать придумывание смыслов и уровней. Мой просто надиктовывал в chatgpt, затем я выгружал в виде текста и закидывал как новые куски гейм дизайна. Дальше claude code сам разберется.
Всем классных выходных!
Соорудили восьмибитную игру про нашего кота Макара. Кот отправляется в прошлое чтобы собрать ДНК других котов и спасти планету
Я сделал для вас рецепт для Claude Code чтобы вы могли быстро засетапить такое же приключение. Закидывайте его в пустую папку, запускаете там claude code и делайте /init.
Ребенку можно отдать придумывание смыслов и уровней. Мой просто надиктовывал в chatgpt, затем я выгружал в виде текста и закидывал как новые куски гейм дизайна. Дальше claude code сам разберется.
Всем классных выходных!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤98🔥31
Harness Engineering
Давайте расскажу про этот свежий баззворд 2026-го.
В начале года выяснилось что скорость разработки упирается уже не в модели и не в агентов, а в способ их запрягать. Нужно уметь запускать много раз, координировать работу, учить не повторять ошибки, и так далее.
Народ быстро собрал смешной ответ в виде Ralph loop: примитивный цикл запуска Claude Code, названного в честь Ральфа из Симпсонов. Эта штука просто долбит агент в цикле задачами из списка. И даже с такой тупой обвязкой народ справлялся делать реально огромные проекты.
Баззворд Harness Engineering взлетел после одноименной статьи от OpenAI где они рассказывали про обвязку вокруг Codex для автономного кодирования нового своего проекта. Народ быстро подхватил нейминг и побежал заниматься своими harness. Как обычно, людям только дай название.
С тех пор появилось множество проектов и накопленного опыта как лучше обвязки делать. Часть обвязок лежит на стороне агентов, часть – в скиллах и внешних координаторах. Есть простые штуки вроде "не повторяй ошибок", есть сложные системы координации тысяч агентов для работы над огромными проектами.
Что точно понятно – это ещё один важный компонент LLM-инженерии. Кто лучше делает harness, тот больше и стабильней выдает результата.
Учитесь запрягать ваших агентов🤖 🤖
Давайте расскажу про этот свежий баззворд 2026-го.
В начале года выяснилось что скорость разработки упирается уже не в модели и не в агентов, а в способ их запрягать. Нужно уметь запускать много раз, координировать работу, учить не повторять ошибки, и так далее.
Народ быстро собрал смешной ответ в виде Ralph loop: примитивный цикл запуска Claude Code, названного в честь Ральфа из Симпсонов. Эта штука просто долбит агент в цикле задачами из списка. И даже с такой тупой обвязкой народ справлялся делать реально огромные проекты.
Баззворд Harness Engineering взлетел после одноименной статьи от OpenAI где они рассказывали про обвязку вокруг Codex для автономного кодирования нового своего проекта. Народ быстро подхватил нейминг и побежал заниматься своими harness. Как обычно, людям только дай название.
С тех пор появилось множество проектов и накопленного опыта как лучше обвязки делать. Часть обвязок лежит на стороне агентов, часть – в скиллах и внешних координаторах. Есть простые штуки вроде "не повторяй ошибок", есть сложные системы координации тысяч агентов для работы над огромными проектами.
Что точно понятно – это ещё один важный компонент LLM-инженерии. Кто лучше делает harness, тот больше и стабильней выдает результата.
Учитесь запрягать ваших агентов
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32 13
Игра в закрытость
Мало кто заметил, но Amazon выиграл дело против Perplexity. Теперь Perplexity не может выбирать товары на Amazon через свой браузер Comet.
Это пример довольно простого тезиса – если игроки хотят закрыться от AI-агентов, они могут это сделать. В крайнем случае – через суд.
Другой хороший пример – доступ к Youtube. Я практически полностью пересел на Claude, но запросы "вот в этом подкасте какие ключевые идеи <link>" отправляю в Gemini. У него дырочка есть в Youtube. Остальным приходится искать транскрипты в интернете.
Мощь агентов – не только крутость мозгов, но и доступ к источникам и тулам. А у кого больше экосистема – у того больше контроль для агентских ручек и ножек.
Мало кто заметил, но Amazon выиграл дело против Perplexity. Теперь Perplexity не может выбирать товары на Amazon через свой браузер Comet.
Это пример довольно простого тезиса – если игроки хотят закрыться от AI-агентов, они могут это сделать. В крайнем случае – через суд.
Другой хороший пример – доступ к Youtube. Я практически полностью пересел на Claude, но запросы "вот в этом подкасте какие ключевые идеи <link>" отправляю в Gemini. У него дырочка есть в Youtube. Остальным приходится искать транскрипты в интернете.
Мощь агентов – не только крутость мозгов, но и доступ к источникам и тулам. А у кого больше экосистема – у того больше контроль для агентских ручек и ножек.
1🔥61🤔17❤11 3
Forwarded from South HUB
Писать код скоро не нужно будет совсем. Архитектура, спеки, документация, деплой — модели справляются. Вчера это джуны, сегодня мидлы, завтра CTO. Придём к принятию вместе. А потом поговорим о главном: чем теперь заниматься всем этим людям. Огород? Рыбалка?
⛷️ Увидимся на склоне.
👉 Вся программа на сайте Snow BASE.
⛷️ Увидимся на склоне.
👉 Вся программа на сайте Snow BASE.
1🔥46❤32🤡26 5
South HUB
Писать код скоро не нужно будет совсем. Архитектура, спеки, документация, деплой — модели справляются. Вчера это джуны, сегодня мидлы, завтра CTO. Придём к принятию вместе. А потом поговорим о главном: чем теперь заниматься всем этим людям. Огород? Рыбалка?…
Иду на Snow BASE от South HUB говорить про то что разработчики больше не нужны 😅
До CTO модели доберутся через пару релизов.
До CTO модели доберутся через пару релизов.
🔥64❤35🤡19 11
Сооснователь Uber Travis Kalanick вышел из восьмилетнего стелс-режима. Всё это время он строил Atoms – автономный транспорт и промышленность.
Трэвис написал яркий резонансный манифест. Манифест написан как будто это месть для Uber. И это так.
Трэвиса буквально выкинули из Uber в 2017. За год до этого Uber выпустил красивое видео с ребрендингом компании, которое называется Bits and Atoms.
Вы поняли? Uber это только Bits, а Трэвис теперь делает Atoms. Кстати, Uber закрыл направление беспилотных автомобилей в 2020-м году.
Новый рынок такси это рынок беспилотных такси. В Калифорнии скоро останется только Waymo. Если Atoms сможет в беспилотные такси, это будет реальная угроза для Uber. Месть!
Кстати, из Uber его выкинули его за sexual harassment. Официально.
Трэвис написал яркий резонансный манифест. Манифест написан как будто это месть для Uber. И это так.
Трэвиса буквально выкинули из Uber в 2017. За год до этого Uber выпустил красивое видео с ребрендингом компании, которое называется Bits and Atoms.
Вы поняли? Uber это только Bits, а Трэвис теперь делает Atoms. Кстати, Uber закрыл направление беспилотных автомобилей в 2020-м году.
Новый рынок такси это рынок беспилотных такси. В Калифорнии скоро останется только Waymo. Если Atoms сможет в беспилотные такси, это будет реальная угроза для Uber. Месть!
When I told my friends, family and colleagues about my plans for what was next, they were really excited that I was “coming back.”
The thing is, I never left.
Кстати, из Uber его выкинули его за sexual harassment. Официально.
🔥31🥱9❤7🤡5 1
К разговору о ручках, ножках и экосистемах
Записал я тут длинный войс мемо в свой айфон с размышлениями на одну тему. И пытаюсь загрузить в какой-нибудь эйай.
Claude сразу сказал что у него speech-to-text тут нет и ничем помочь не может. Приходите с текстом.
Gemini вроде бодро взялся, но обнаружил пустой файл. Чем заставил меня минут десять перезагружать чертов файл разными способами. Какова же была моя ярость узнать что Gemini имеет скрытый лимит в 10 минут аудио🌟 ну хоть ошибку можно было сделать норм?
ChatGPT проявил себя как очень умный, но бестолковый приятель. Знаете таких?
Эта невероятно интеллектуальная система развернула всю мощь 5.4 Extended Thinking и мучала мой файл целых четыре минуты. Среди попыток замечено:
- Скачивание спец сборки ffmpeg с транскрибацией
- Перебор бесплатных интернет-сервисов
- Попытки заимпортить нужные локальные пакеты из окружения
- Эпичная попытка установить локальный Whisper
На проблемах с компиляцией whisper.cpp эта штука перестала греть воду в Аризоне и сдалась.
После этого я загрузил файл в свой nanoclaw в телеге. Он мне всё сделал за минуту даже не спросив контекста задачи. Сходил в Whisper API да и всё.
Выводы делайте сами🤖
Записал я тут длинный войс мемо в свой айфон с размышлениями на одну тему. И пытаюсь загрузить в какой-нибудь эйай.
Claude сразу сказал что у него speech-to-text тут нет и ничем помочь не может. Приходите с текстом.
Gemini вроде бодро взялся, но обнаружил пустой файл. Чем заставил меня минут десять перезагружать чертов файл разными способами. Какова же была моя ярость узнать что Gemini имеет скрытый лимит в 10 минут аудио
ChatGPT проявил себя как очень умный, но бестолковый приятель. Знаете таких?
Эта невероятно интеллектуальная система развернула всю мощь 5.4 Extended Thinking и мучала мой файл целых четыре минуты. Среди попыток замечено:
- Скачивание спец сборки ffmpeg с транскрибацией
- Перебор бесплатных интернет-сервисов
- Попытки заимпортить нужные локальные пакеты из окружения
- Эпичная попытка установить локальный Whisper
На проблемах с компиляцией whisper.cpp эта штука перестала греть воду в Аризоне и сдалась.
После этого я загрузил файл в свой nanoclaw в телеге. Он мне всё сделал за минуту даже не спросив контекста задачи. Сходил в Whisper API да и всё.
Выводы делайте сами
Please open Telegram to view this post
VIEW IN TELEGRAM
1 46❤15🔥7
Вот так выглядит гитхаб Лёши Миловидова, CTO ClickHouse.
Opus 4.6 release date: Feb 5, 2026
Opus 4.6 release date: Feb 5, 2026
🔥89🥱22🤡8 3❤2
Помните историю когда Anthropic выложил маркетинг булшит статью про невероятные успехи в COBOL и акции IBM упали на 10%?
Так вот, кто-то реально проверил как Claude показывает себя на задачах по COBOL. Показывает плохо )
Особенно паршиво выглядят расчеты произведенные COBOL-правилами написанными Opus 4.6, на картинке.
тудым сюдым семь-восемь 🤡
p.s. акции IBM уже откатились
Так вот, кто-то реально проверил как Claude показывает себя на задачах по COBOL. Показывает плохо )
Особенно паршиво выглядят расчеты произведенные COBOL-правилами написанными Opus 4.6, на картинке.
тудым сюдым семь-восемь 🤡
p.s. акции IBM уже откатились
🤡23🔥8 5
Anthropic запустили доступ к десктопу через телефон.
Само по себе это оч круто - пдф там доделать или фотки в почту отправить, супер.
Но это все промежуточные шаги. Ноут закрыл и не работает - бред же.
Либо копия десктопа переедет в облако, либо у всех теперь будут домашние Mac mini.
Я бы хотел чтобы победили облака - это безопасней и удобней. Но видя глобальное недоверие и всякие блокировки, получиться может наоборот.
Исторически, тонкие клиенты каждый раз проигрывают битву за пользователя.
Еще есть неожиданный вариант - телефон подтянет всю нужную инфу и станет филиалом десктопа. Пока такого не получилось.
Apple, ау?
Само по себе это оч круто - пдф там доделать или фотки в почту отправить, супер.
Но это все промежуточные шаги. Ноут закрыл и не работает - бред же.
Либо копия десктопа переедет в облако, либо у всех теперь будут домашние Mac mini.
Я бы хотел чтобы победили облака - это безопасней и удобней. Но видя глобальное недоверие и всякие блокировки, получиться может наоборот.
Исторически, тонкие клиенты каждый раз проигрывают битву за пользователя.
Еще есть неожиданный вариант - телефон подтянет всю нужную инфу и станет филиалом десктопа. Пока такого не получилось.
Apple, ау?
1❤29
Forwarded from Артём обо всём
LLM-as-a-judge - индустриальный антипаттерн
Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки при внедрении (easy), но при этом непрозрачно прячут под капотом огромную сложность (not simple). Про эмбеддинги поговорим потом, а вот с llm-as-a-judge давайте разбираться.
Казалось бы ну кайф. Вот сделали вы систему (агентскую, разумеется). Надо ее качество замерять на каждом эксперименте. Раньше надо было нанимать разметчиков, обучать их, ждать днями каждую разметку. А тут написал промпт проверки ответа и LLM сама быстро все размечает. Эксперименты ускоряются, ту зэ мун.
Но вот проблема: этот промпт надо написать. А для сложных сценариев надо еще и подложить в этот промпт какие то данные о внешнем состоянии системы в тесткейсе. Уже выглядит как задачка на context engineering. А как из всех возможных промптов выбрать тот, который реально работает? Видимо руками размечать. Кажется, что и ок, руками разметили один раз, а потом у нас автоматический оценщик. Ну так то тоже мимо: дрифт ответов системы (а это буквально задача R&D - сдрифтить ответы системы в сторону правильных), и все, по хорошему надо переразмечать качество джаджа.
Ну ладно, есть задачки где промпты-инструкции простые. Там то все хорошо? Ну вот нет: модели же еще и игнорируют эти инструкции. Опять же в разном проценте случаев на разных распределениях аутпутов системы. Один раз посчитать и забыть не получится.
Че-то нифига не просто да? И без живых разметчиков не обойтись. Вот и получается, что вроде внедрять очень просто, но заставить это стабильно и хорошо работать - очень трудно.
Когда же llm-as-a-judge полезен?
1. Команда относится к джаджу, как к отдельному продукту. Со своими метриками, своим беклогом. И все равно дополняет разметочными метриками.
2. Джадж - это часть композитного реворда для алаймента. Тут все ясно: даже неидеальный рекорд может накинуть метрик.
3. Джадж удешевляет человеческие разметки. Например схема с перекрытиями, где один из размерчиков - это ллм. А лучше ансамбль разных ллм.
4. Вы учитесь строить продукты. Тогда действительно пофиг на финальное качество, главное, чтоб сложилась культура работы с хоть какими то метриками.
В остальных случаях я убежден, что llm-as-a-judge - это бомба замедленного действия, которая дает ложное чувство контроля.
Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки при внедрении (easy), но при этом непрозрачно прячут под капотом огромную сложность (not simple). Про эмбеддинги поговорим потом, а вот с llm-as-a-judge давайте разбираться.
Казалось бы ну кайф. Вот сделали вы систему (агентскую, разумеется). Надо ее качество замерять на каждом эксперименте. Раньше надо было нанимать разметчиков, обучать их, ждать днями каждую разметку. А тут написал промпт проверки ответа и LLM сама быстро все размечает. Эксперименты ускоряются, ту зэ мун.
Но вот проблема: этот промпт надо написать. А для сложных сценариев надо еще и подложить в этот промпт какие то данные о внешнем состоянии системы в тесткейсе. Уже выглядит как задачка на context engineering. А как из всех возможных промптов выбрать тот, который реально работает? Видимо руками размечать. Кажется, что и ок, руками разметили один раз, а потом у нас автоматический оценщик. Ну так то тоже мимо: дрифт ответов системы (а это буквально задача R&D - сдрифтить ответы системы в сторону правильных), и все, по хорошему надо переразмечать качество джаджа.
Ну ладно, есть задачки где промпты-инструкции простые. Там то все хорошо? Ну вот нет: модели же еще и игнорируют эти инструкции. Опять же в разном проценте случаев на разных распределениях аутпутов системы. Один раз посчитать и забыть не получится.
Че-то нифига не просто да? И без живых разметчиков не обойтись. Вот и получается, что вроде внедрять очень просто, но заставить это стабильно и хорошо работать - очень трудно.
Когда же llm-as-a-judge полезен?
1. Команда относится к джаджу, как к отдельному продукту. Со своими метриками, своим беклогом. И все равно дополняет разметочными метриками.
2. Джадж - это часть композитного реворда для алаймента. Тут все ясно: даже неидеальный рекорд может накинуть метрик.
3. Джадж удешевляет человеческие разметки. Например схема с перекрытиями, где один из размерчиков - это ллм. А лучше ансамбль разных ллм.
4. Вы учитесь строить продукты. Тогда действительно пофиг на финальное качество, главное, чтоб сложилась культура работы с хоть какими то метриками.
В остальных случаях я убежден, что llm-as-a-judge - это бомба замедленного действия, которая дает ложное чувство контроля.
3❤33🤡12 6🤔1
Артём обо всём
LLM-as-a-judge - индустриальный антипаттерн Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки…
Один из неожиданных индустриальных выводов на текущий момент – llm достаточно плохо проверяет работу llm. Ошибка умножается, поддерживать сложно, и так далее.
Есть несколько областей где полезно, Артём их хорошо описал. Я добавлю еще две:
– если вы оптимизируете и собираете пайплайн на небольших моделях. Тогда проверять умным оракулом - очень ок
– если система это агент про действия а не про интеллект и проверка проще чем сама задача
Стоит использовать llm-as-a-judge только если вы понимаете зачем, а не как дефолтный выбор.
Есть несколько областей где полезно, Артём их хорошо описал. Я добавлю еще две:
– если вы оптимизируете и собираете пайплайн на небольших моделях. Тогда проверять умным оракулом - очень ок
– если система это агент про действия а не про интеллект и проверка проще чем сама задача
Стоит использовать llm-as-a-judge только если вы понимаете зачем, а не как дефолтный выбор.
🔥20🤡13❤4 1