[38/100] Витя Тарнавский

Есть такой человек – Тобиас Лютке. Днём он основатель и CEO Shopify – компании с капитализацией $150B+.

А ночью Тоби развивает собственный on-device опенсорс поисковый движок по документам - qmd.

Проект мощный технологически. Трёхстадийный гибридный пайплайн, параллельный ретривал с разными движками, отдельный слой склейки, LLM реранкер. Всё покрыто метриками, всё на SOTA-подходах. И локально!

Тоби прикрутил его к агентам и теперь движок отлично дополняет openclaw и claude code. у проекта 12k звезд на гитхабе.

В свободное от этих двух проектов время (откуда???) Тоби профессионально соревнуется в тех самых 24-х часовых гонках LeMans. В 2025 году он занял 15-е место из 58 пилотов в своей категории LMP2 в самом большом соревновании в Северной Америке.

Я даже не знаю как можно быть ещё более крутым 🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥117❤312

7.91K views07:13

[38/100] Витя Тарнавский

OpenAI выложили в opensource Symphony – оркестратор для агентов. Проект интересен сам по себе, но важно не это.

Внимание, официальная инструкция по установке:

Tell your favorite coding agent to build Symphony in a programming language of your choice:
Implement Symphony according to the following spec: https://github.com/openai/symphony/blob/main/SPEC.md

🌟

Please open Telegram to view this post

VIEW IN TELEGRAM

44❤17🤡3

15.4K views08:42

[38/100] Витя Тарнавский

0:20

Media is too big

VIEW IN TELEGRAM

Все выходные вайбкодим с ребенком игру и это лучшее время ever 🤖

Соорудили восьмибитную игру про нашего кота Макара. Кот отправляется в прошлое чтобы собрать ДНК других котов и спасти планету 🌟 10 уровней, веселые боссы, кото-мехо-костюм и глитч-эффекты от разрыва континуума прилагаются!

Я сделал для вас рецепт для Claude Code чтобы вы могли быстро засетапить такое же приключение. Закидывайте его в пустую папку, запускаете там claude code и делайте /init.

Ребенку можно отдать придумывание смыслов и уровней. Мой просто надиктовывал в chatgpt, затем я выгружал в виде текста и закидывал как новые куски гейм дизайна. Дальше claude code сам разберется.

Всем классных выходных!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤98🔥31

6.61K views11:02

[38/100] Витя Тарнавский

RECIPE.md

5 KB

Рецепт!

❤31

6.08K views11:02

[38/100] Витя Тарнавский

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

🔥38❤19

5.55K views12:49

[38/100] Витя Тарнавский

Harness Engineering

Давайте расскажу про этот свежий баззворд 2026-го.

В начале года выяснилось что скорость разработки упирается уже не в модели и не в агентов, а в способ их запрягать. Нужно уметь запускать много раз, координировать работу, учить не повторять ошибки, и так далее.

Народ быстро собрал смешной ответ в виде Ralph loop: примитивный цикл запуска Claude Code, названного в честь Ральфа из Симпсонов. Эта штука просто долбит агент в цикле задачами из списка. И даже с такой тупой обвязкой народ справлялся делать реально огромные проекты.

Баззворд Harness Engineering взлетел после одноименной статьи от OpenAI где они рассказывали про обвязку вокруг Codex для автономного кодирования нового своего проекта. Народ быстро подхватил нейминг и побежал заниматься своими harness. Как обычно, людям только дай название.

С тех пор появилось множество проектов и накопленного опыта как лучше обвязки делать. Часть обвязок лежит на стороне агентов, часть – в скиллах и внешних координаторах. Есть простые штуки вроде "не повторяй ошибок", есть сложные системы координации тысяч агентов для работы над огромными проектами.

Что точно понятно – это ещё один важный компонент LLM-инженерии. Кто лучше делает harness, тот больше и стабильней выдает результата.

Учитесь запрягать ваших агентов 🤖

🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3213

7.03K views08:42

[38/100] Витя Тарнавский

Игра в закрытость

Мало кто заметил, но Amazon выиграл дело против Perplexity. Теперь Perplexity не может выбирать товары на Amazon через свой браузер Comet.

Это пример довольно простого тезиса – если игроки хотят закрыться от AI-агентов, они могут это сделать. В крайнем случае – через суд.

Другой хороший пример – доступ к Youtube. Я практически полностью пересел на Claude, но запросы "вот в этом подкасте какие ключевые идеи <link>" отправляю в Gemini. У него дырочка есть в Youtube. Остальным приходится искать транскрипты в интернете.

Мощь агентов – не только крутость мозгов, но и доступ к источникам и тулам. А у кого больше экосистема – у того больше контроль для агентских ручек и ножек.

1🔥61🤔17❤113

7.51K views11:04

[38/100] Витя Тарнавский

Forwarded from South HUB

Писать код скоро не нужно будет совсем. Архитектура, спеки, документация, деплой — модели справляются. Вчера это джуны, сегодня мидлы, завтра CTO. Придём к принятию вместе. А потом поговорим о главном: чем теперь заниматься всем этим людям. Огород? Рыбалка?

⛷️ Увидимся на склоне.

👉 Вся программа на сайте Snow BASE.

1🔥46❤32🤡265

6.53K views10:22

[38/100] Витя Тарнавский

South HUB

Иду на Snow BASE от South HUB говорить про то что разработчики больше не нужны 😅

До CTO модели доберутся через пару релизов.

🔥64❤35🤡1911

7.02K views10:24

[38/100] Витя Тарнавский

Сооснователь Uber Travis Kalanick вышел из восьмилетнего стелс-режима. Всё это время он строил Atoms – автономный транспорт и промышленность.

Трэвис написал яркий резонансный манифест. Манифест написан как будто это месть для Uber. И это так.

Трэвиса буквально выкинули из Uber в 2017. За год до этого Uber выпустил красивое видео с ребрендингом компании, которое называется Bits and Atoms.

Вы поняли? Uber это только Bits, а Трэвис теперь делает Atoms. Кстати, Uber закрыл направление беспилотных автомобилей в 2020-м году.

Новый рынок такси это рынок беспилотных такси. В Калифорнии скоро останется только Waymo. Если Atoms сможет в беспилотные такси, это будет реальная угроза для Uber. Месть!

When I told my friends, family and colleagues about my plans for what was next, they were really excited that I was “coming back.”

The thing is, I never left.

Кстати, из Uber его выкинули его за sexual harassment. Официально.

🔥31🥱9❤7🤡51

6.28K views07:21

[38/100] Витя Тарнавский

К разговору о ручках, ножках и экосистемах

Записал я тут длинный войс мемо в свой айфон с размышлениями на одну тему. И пытаюсь загрузить в какой-нибудь эйай.

Claude сразу сказал что у него speech-to-text тут нет и ничем помочь не может. Приходите с текстом.

Gemini вроде бодро взялся, но обнаружил пустой файл. Чем заставил меня минут десять перезагружать чертов файл разными способами. Какова же была моя ярость узнать что Gemini имеет скрытый лимит в 10 минут аудио 🌟 ну хоть ошибку можно было сделать норм?

ChatGPT проявил себя как очень умный, но бестолковый приятель. Знаете таких?

Эта невероятно интеллектуальная система развернула всю мощь 5.4 Extended Thinking и мучала мой файл целых четыре минуты. Среди попыток замечено:
- Скачивание спец сборки ffmpeg с транскрибацией
- Перебор бесплатных интернет-сервисов
- Попытки заимпортить нужные локальные пакеты из окружения
- Эпичная попытка установить локальный Whisper
На проблемах с компиляцией whisper.cpp эта штука перестала греть воду в Аризоне и сдалась.

После этого я загрузил файл в свой nanoclaw в телеге. Он мне всё сделал за минуту даже не спросив контекста задачи. Сходил в Whisper API да и всё.

Выводы делайте сами 🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

146❤15🔥7

7.54K views10:09

[38/100] Витя Тарнавский

Вот так выглядит гитхаб Лёши Миловидова, CTO ClickHouse.
Opus 4.6 release date: Feb 5, 2026

🔥89🥱22🤡83❤2

9.28K views11:48

[38/100] Витя Тарнавский

Помните историю когда Anthropic выложил маркетинг булшит статью про невероятные успехи в COBOL и акции IBM упали на 10%?

Так вот, кто-то реально проверил как Claude показывает себя на задачах по COBOL. Показывает плохо )

Особенно паршиво выглядят расчеты произведенные COBOL-правилами написанными Opus 4.6, на картинке.
тудым сюдым семь-восемь 🤡

p.s. акции IBM уже откатились

🤡23🔥85

7.67K views08:54

[38/100] Витя Тарнавский

Anthropic запустили доступ к десктопу через телефон.

Само по себе это оч круто - пдф там доделать или фотки в почту отправить, супер.

Но это все промежуточные шаги. Ноут закрыл и не работает - бред же.

Либо копия десктопа переедет в облако, либо у всех теперь будут домашние Mac mini.

Я бы хотел чтобы победили облака - это безопасней и удобней. Но видя глобальное недоверие и всякие блокировки, получиться может наоборот.

Исторически, тонкие клиенты каждый раз проигрывают битву за пользователя.

Еще есть неожиданный вариант - телефон подтянет всю нужную инфу и станет филиалом десктопа. Пока такого не получилось.

Apple, ау?

1❤29

6.26K views08:05

[38/100] Витя Тарнавский

Forwarded from Артём обо всём

LLM-as-a-judge - индустриальный антипаттерн

Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки при внедрении (easy), но при этом непрозрачно прячут под капотом огромную сложность (not simple). Про эмбеддинги поговорим потом, а вот с llm-as-a-judge давайте разбираться.

Казалось бы ну кайф. Вот сделали вы систему (агентскую, разумеется). Надо ее качество замерять на каждом эксперименте. Раньше надо было нанимать разметчиков, обучать их, ждать днями каждую разметку. А тут написал промпт проверки ответа и LLM сама быстро все размечает. Эксперименты ускоряются, ту зэ мун.

Но вот проблема: этот промпт надо написать. А для сложных сценариев надо еще и подложить в этот промпт какие то данные о внешнем состоянии системы в тесткейсе. Уже выглядит как задачка на context engineering. А как из всех возможных промптов выбрать тот, который реально работает? Видимо руками размечать. Кажется, что и ок, руками разметили один раз, а потом у нас автоматический оценщик. Ну так то тоже мимо: дрифт ответов системы (а это буквально задача R&D - сдрифтить ответы системы в сторону правильных), и все, по хорошему надо переразмечать качество джаджа.

Ну ладно, есть задачки где промпты-инструкции простые. Там то все хорошо? Ну вот нет: модели же еще и игнорируют эти инструкции. Опять же в разном проценте случаев на разных распределениях аутпутов системы. Один раз посчитать и забыть не получится.

Че-то нифига не просто да? И без живых разметчиков не обойтись. Вот и получается, что вроде внедрять очень просто, но заставить это стабильно и хорошо работать - очень трудно.

Когда же llm-as-a-judge полезен?

1. Команда относится к джаджу, как к отдельному продукту. Со своими метриками, своим беклогом. И все равно дополняет разметочными метриками.

2. Джадж - это часть композитного реворда для алаймента. Тут все ясно: даже неидеальный рекорд может накинуть метрик.

3. Джадж удешевляет человеческие разметки. Например схема с перекрытиями, где один из размерчиков - это ллм. А лучше ансамбль разных ллм.

4. Вы учитесь строить продукты. Тогда действительно пофиг на финальное качество, главное, чтоб сложилась культура работы с хоть какими то метриками.

В остальных случаях я убежден, что llm-as-a-judge - это бомба замедленного действия, которая дает ложное чувство контроля.

3❤33🤡126🤔1

5.84K views09:23

[38/100] Витя Тарнавский

Артём обо всём

LLM-as-a-judge - индустриальный антипаттерн Есть в AI индустрии две инженерные идеи, которые с распространением ллм-технологий на мой вкус стали антипаттернами. Это LLM-as-a-judge и векторный поиск. Их объединяет то, что они не требуют ментальной нагрузки…

Один из неожиданных индустриальных выводов на текущий момент – llm достаточно плохо проверяет работу llm. Ошибка умножается, поддерживать сложно, и так далее.

Есть несколько областей где полезно, Артём их хорошо описал. Я добавлю еще две:
– если вы оптимизируете и собираете пайплайн на небольших моделях. Тогда проверять умным оракулом - очень ок
– если система это агент про действия а не про интеллект и проверка проще чем сама задача

Стоит использовать llm-as-a-judge только если вы понимаете зачем, а не как дефолтный выбор.

🔥20🤡13❤41

6.87K viewsedited 09:28

[38/100] Витя Тарнавский

❤8🔥3🤔1

7.42K views06:20

[38/100] Витя Тарнавский

На прошлой неделе выступал на Snow Base в Красной Поляне с вбросом разработчики больше не нужны, и CTO тоже. Крутые ребята собрались там!

Я провёл высокоточную аналитику по бенчмарку METR с использованием карандаша. AI закроет задачи CTO в 2028 году.

Скептики конечно скажут что аналитика фуфло, работа CTO великая и не описана, и вообще ты рассказывал с пивом в руках, не считается. Ну напомню что раньше так говорили про разработчиков, а потом – про архитектуру сервисов. И где мы сейчас?

Разработке в старом виде больше не будет. На всех уровнях. Привыкайте.

Разработчики прошлого это слесари которые лобзиком делали мебель. Роль CTO – собрать лучших слесарей, сделать операционные процессы мастерской, наладить отдел посиделок на стульях для тестирования и так далее.

Мы входим в эпоху фабрик софта. CTO будущего это ребята которые делают заводы. Заводы эти, кстати, довольно лёгкие.

Работа это точно другая. Кто-то перестроится, станет экспертом по заводам, поднимется. Кто-то не сможет и будет ныть о старых добрых временах.

Стульев явно будет больше. Ну, софта. Спрос вырастет, вместе с ним и индустрия. А вот маржинальность этого ремесла скорее всего будет падать.

А вот нужно ли нам много строителей заводов – непонятно. Софт писать всё легче. Возможно, заводы схлопнутся совсем. А может и наоборот – спрос вырастет невероятно.

Точно понятно, что старых слесарей больше не нужно.

❤5615🔥12🤡9🤔3

10.6K views06:20

About

Blog

Apps

Platform