ml phys
2.78K subscribers
188 photos
12 videos
2 files
113 links
Короткие технические разборы AI agents, coding agents, evals и LLM-инфры
Download Telegram
Open source (и не только) AI тулзы которые у меня прижились

1. Dayflow Calendar - пишет экран 24/7 и скармливает локальной модели. Получаешь честный календарь своей активности по часам. Ручные трекеры типа Toggl бесят - там надо тыкать кнопки, а тут просто живёшь и оно само фиксирует твой позор. Можно ретроспективно возвращаться к своим результатам и понимать сколько реально ушло времени на те или иные задачи.

2. Happy Coder - управляешь claude code сессиями с телефона. Пока сыровато, но идея огонь

3. Whisper Flow - надиктовка текста виспером в любом месте. Платный, но это единственное решение где UX сделан не через жопу. Звучит тривиально, но попробуйте найти альтернативу которая не выглядит как кусок говна

4. tl;dw - закидываешь ютуб видос, получаешь саммари. Селфхостнул, юзаю для фильтрации контента. Есть youtube transcript MCP, но там лимит 20к токенов на вызов. Gemini тоже умеет такое, но она жутко меня бесит

5. YouTube Clickbait Decoder - нейронка переписывает названия роликов. "5 акций без которых вы сдохнете нищим" на "обзор долгосрочного инвестирования". Превью заменяет на рандомный кадр. Ютуб становится почти терпимым
27👍14🔥11💋2
Сейчас все пишут что Google сделал очередной прорыв, и запилил Agentic Vision, но не могу понять чем это отличается от того что умела делать o3 еще больше года назад, но потом это воде как выпилили и все забили.

Че там такого прорывного у гугла? Я не понимаю....
7👍2🔥2
Активно обсуждают твит о том что Claude Code написал код из-за которого DeFi протокол Moonwell потерял $1.78M. Типа первый хак вайб-кода.

Полез в PR и чет мне кажется проблема вообще не в Claude.

Сам баг - чтобы узнать цену токена в долларах нужно два числа: курс токена к эфиру и цену эфира в долларах. Перемножаешь - получаешь доллары. Claude ошибся в конфиге, что сработало только первое умножение. Протокол стал считать что токен стоит $1.05 а не $2200. Боты налетели за минуты.

Ошибка тупая но
• Там довольно сложный код с большим числом абстракций, не просто price = x/y*k/p, все задается через конфиги, что то закоменчено, что то не работает, что то надо было раскоментить в PR. Смотрите в картинке выше
• Автор PR замёржила сама себе. Branch protection не настроен. На DeFi протоколе. С реальными деньгами
• GitHub писал "review required". 5 ревьюеров - ноль approve, наоборот были правки. GitHub Copilot reviewer тоже не дал аппрув (хотя и не нашел этой ошибки
• 28 автотестов зелёные, много вопросов к подбору тесткейсов
• Аудит от Halborn был на предыдущую версию кода, новый код пошёл в прод без аудита)

Тч это не "вайбкодинг ненадёжен" - это мёрж без approve на протокол с реальными деньгами
20👍6🤔4
Часто слышу тейки что антропик теряет деньги на подписках за 200 долларов, и "раскидывают деньги инвесторов" что б занять рынок. На самом деле довольно просто прикинуть цену инференса для антропиков (примерно понимаем размер модели, понимаем цену GPUшек, математику нейросетей), так я попытался собрать полную бизнес модель их инференса.

В рассчетах я оценил скорость генерации трансформера в зависимости от размера модели, учел KV кеширование, префил промпта, квантизацию, рассмотрел несколько вариантов архитектуры.

По ним - Anthropic работают точно не в убыток, а скорее всего в небольшую операционную прибыль, даже если бы все аккаунты с подпиской за 200 баксов использовали бы 100% своих лимитов каждый месяц.


https://claude-inference-cost.mametevalex.workers.dev/
^^^^^^^^
👍156🤔3🐳1
В чем ботлнек при работе ЛЛМки? Почему они не могут генерировать быстрее?

в GPU есть 2 основных ботлнека - память и компьют. Во первых нам надо считать все веса из VRAM в условные регистры, после чего произвести какие то вычисления.

Перед началой генерации надо рассчитать KV кеш по всем input токенам + считать веса модели один раз. В этом случае компьют является ботлнеком - время до первого токена это обьем вычислений / мощность гпу, более подробные вычисления приведены в картинках. Замечу что это теоретическая оценка. Из-за разных оверхедов реальные значения у vLLM будут на 20-30% хуже.

При генерации, на каждый токен надо считать веса 1 раз + forward pass для всего одного токена. В этом случае ботлнеком является уже скорость памяти, а не компьют, время генерации одного токена - размер модели / скорость памяти

Подумайте почему квантизации активно применяются для ускорения ЛЛМок, но вот в случае с дифузиями таким занимаются не так активно. Жду ваших версий в коментариях?
10👍4🔥2🥰2🤔1
Многие кто общался с клодом говорят что он "очень приятный по вайбу", и хотя другие модели кодят не сильно хуже по метрикам, общаться с ним не вайбово, гпт (а особенно гемини) использует блевотные аи слоп формулировки.

Нашёл бенчмарк, измеряющий это, bullshit bebch. Они задают модели несуразные вопросы и смотрят начнет ли она нести чушь.

Результаты ожидаемые - модели клауде в топе.
😁1810👍4🔥4💯1
Разобрался как работает Deep Research у клода (имхо самый юзабельный из всех)

Под капотом это не одна умная моделька (как у опенаи), там Opus как менеджер + 3-5 параллельных субагентов, каждый в своём контексте. Допустим спрашиваешь "сравни подходы к alignment у Anthropic, OpenAI и DeepMind за последний год". Opus декомпозирует и раздаёт задачи: один субагент копает Anthropic, другой OpenAI, третий DeepMind, четвёртый ищет независимую критику. Все работают параллельно. Каждый субагент переварил куча статей, сайтов итп в своём контексте, выдал концентрат на пару тысяч токенов + ссылки на источники. Opus читает концентраты, а не сырые страницы. При необходимости может обратиться к ключевым первоисточникам по ссылкам, если не хватает самари. Если видит пробелы в ресерче - спавнит ещё субагентов на доработку, глубина диприсерча строга не ограничена, модель сама решает когда заканчивать. Результаты всех раундов складываются в файлы, чтобы контекст лида не забивался между итерациями. Когда данных хватает - собирает финальный отчёт с цитатами, читая резульаты всех субагентов.

Это конечно верхнеуровневая картинка. Чтобы это всё не разваливалось на практике, Антропик допилили инфраструктуру вокруг: сжатие контекста когда агент упирается в лимит, файловую систему для передачи промежуточных результатов между агентами, отдельную memory для оркестратора (живёт только в рамках одного ресёрча, не путать с памятью между чатами). Подробнее можно почитать тут

У gemini и openai дип рисерчи работают концептуально по другому. Если этот пост не наберет ни одной обидной эмодзи - расскажу как.
47🔥24👍13🤡12😁5🖕5👻4🤝3🎃2💊2💋1
Forwarded from пепега pro max (Maksim Artemev)
JB сегодня запустили public preview своей новой агентской среды!

Мне (к сожалению) не заплатили за рекламу, но выглядит очень интересно и вкусно. Там можно и свои ключи использовать, и жб подписку.

Мой товарищ который лидит эту разработку обещает что оно уже скоро обрастет фичами и станет #1 агентской средой в мире, так что срочно нужно перекатываться 🫡


https://air.dev/
Please open Telegram to view this post
VIEW IN TELEGRAM
💩10🔥7👎3🤡2🍌1🖕1
Последние пару недель все задачи вайбкожу через Ralph Loop и считаю что это очередной прорыв в вайбкодинге


Суть - заворачиваешь claude code в while true, каждая итерация с чистым контекстом.
while true; do
claude -p "$(cat PROMPT.md)"
done

Агент читает план из файла, берет одну задачу, пилит, тесты, коммит, обновляет прогресс. Контекст выкидывается целиком. Мы специально не используем /compact из-за сжатия с потерями, которые часто вызывают проблемы (например недавно из за неудачного compact агент удалил куча сообщений с почты директора по alignment в Meta Superintelligence Labs)

В таком подходе модель всегда в первых 30-60% контекстного окна где качество максимальное + нет компактов + нет проблем что какой то инфы нет в контексте.

Весь стейт живет в файлах - PRD, прогресс-трекер, AGENTS.md с паттернами проекта. За итерацию делается одна задача.

Например можно создать TASKS.md - с описанием задач которые надо сделать. В качестве промпта ralph цикла буедт что то "открой TASKS.md прочитай какие задачи уже выполнены, а какие в планах. Затем возьми самую первую не выполненную задачу, изучи кодовую базу проекта и начни ее выполнять. После завершения - отметь ее как выполненной в @TASKS.md а так же закомить изменения.". Можете придумать какой то свой промпт, который лучше подходит под ваши проекты и ваш стиль кодинга.

Агент будет сам поочередно делать задачи, а вы можете пойти заниматься другими делами собирать TASKS.md для другого проекта.
🔥27🤡5🤯2🤮2💩2🤝2
Пользуюсь Whisp Flow для закидывания задач клод коду последние несколько месяцев - это в несколько раз быстрее чем писать, а клод без проблем распаришвает мой поток мысли.

Попробовал все альтернативы, включая опенсорсные - нигде даже близко нет такого качества (а я очень хорошо искал, так как жмотил деньги на подписку)

Разобрался почему. Дело не в модели. Whisper у всех одинаковый. Разница в контексте который уходит в модели вместе с аудиозаписью

В каждый запрос Wispr собирает:
- App context - имя приложения, URL, тип (email/messaging/browser/developer)
- Textbox - текст до/после курсора, выделенный текст через accessibility features мака.
- Dynamic vocabulary - через OCR и accessibility собирает термины с экрана (имена переменных в IDE, имена файлов, имена людей в чате) и передает в виспер, что бы он это лучше переводил. Static vocabulary - задается в настройках, так же передается в декодер виспера.
- Screenshot - скриншот активного окна, передается в VLM на постпроцессинге.
- Style config - уровень формальности, email-подпись, tagging style для Slack, задается в настройках + зависит от приложения.
- Previous ASR/LLM text - что модель уже надиктовала в этой сессии, чтобы следующие фразы были консистентны

Поэтому когда ты диктуешь в Slack - получаешь короткое сообщение, в Claude Code - промпт с правильными именами переменных. Если поправляешься на ходу ("нет, не в 2 а в 4") - оно выкинет первую версию и оставит только финальную.

Искал опенсорс аналог - не нашел ничего сравнимого. Потому что хороший продукт это не "возьми whisper и оберни в UI", а инженерная и продуктовая работа.

Если будете брать себе - по этой ссылке дают триалку.
🔥165🤡5👍4👀2
Наткнулся на твит что у Anthropic весь growth marketing 10 месяцев тянул один человек. Paid search, paid social, app stores, email, SEO - всё он.
Пайплайн: Claude Code анализирует метрики и генерит варианты объявлений через субагентов, через Figma плагин раскидывает копирайт по шаблонам, MCP к Meta Ads тянет live аналитику что бы понимать какие посты перформят, в memory записывается тлдр гипотез с результатом. Каждый цикл лучше предыдущего. Создание рекламы с 2 часов до 15 минут.
Субагенты, MCP, feedback loop, memory - нетехнический маркетолог использует те же паттерны что мы в разработке, просто домен другой. Так что деление "Claude Code для программистов, ChatGPT для остальных" уже не работает. Кто понимает как работает agentic- тот строит пайплайны в любом домене.

P.S. Сейчас в marketing team антропика ~100 человек. Команда разрослась несколько месяцев назад.

https://x.com/itsolelehmann/status/2031308486815133905?s=20 - крайне советую почитать более детальное описание схемы в твитере
🤯14👍105🤔2🔥1😱1
Percepta выкатили пост "Can LLMs Be Computers?" и твиттер сходит с ума. Если коротко: они собрали трансформер который исполняет WebAssembly.

Идея красивая, но давайте разберемся. (тут вам наверное лучше самим прочитать пост, хотя бы через самари ЛЛМки)

Они не обучили модель считать. Они руками сконструировали веса очень маленького трансформера так чтобы он работал как интерпретатор. Это не learning, это компиляция программы в веса.

Все обсуждают их ускорение attention с O(t) до O(log t). Но есть нюанс который все пропускают. Это работает только потому что они заменили softmax на hard-max. В их задаче на каждом шаге нужно достать конкретное значение из стека или памяти по адресу, не мягкую смесь всех значений. Для этого hard-max хватает. Нормальные LLM используют softmax где нужны скоры от всех ключей для взвешенной суммы. Их ускорение к этому неприменимо (и концептуально невозможно сделать softmax n величин быстрее чем O(n)).

Результат интересный как конструкция, но к реальным LLM это отношения не имеет, а нарратив "мы превратили LLM в компьютер" это чистый маркетинг.

P.S. Весь смысл работы это дифференцируемый интерпретатор WASM без tool calling. Но ни одного эксперимента с градиентами нет, как и обьяснения как оно хотя бы должно работать с next gen ллмками.
👍125🔥4😁2🤔1
Кэшированные input токены у Антропиков стоят в 10 раз дешевле. Им это реально в 10 раз дешевле обходится.

Когда шлёшь промпт в LLM, модель прогоняет все входные токены через все слои и сохраняет промежуточные результаты - KV cache - рассчёт attention по входным токенам, "память" модели о том что она прочитала. Операция тяжёлая, даже на кластере H100 десятки тысяч токенов в секунду. Запрос на 500K токенов = секунды GPU-времени на каждый запрос.

Кэшированные токены этот шаг пропускают. KV cache уже посчитан, надо просто прочитать. Отсюда 10x разница в цене.

KV cache занимает гигабайты. Где хранить между запросами - иерархия от быстрого и дорогого к медленному и дешёвому:

G1 - видеопамять
G2 - оперативка сервера
G3 - SSD на сервере
G4 - обычное сетевое хранилище

У Антропика два TTL кэша - 5 минут и 1 час. Вероятнее всего 5 минут = кэш в видеопамяти, 1 час = сброс в оперативку или на SSD. Поэтому cache write дороже (копирование вниз по иерархии), а cache read в 10 раз дешевле - даже достать с SSD быстрее чем пересчитать заново.

Сейчас проблема в том что видеопамять быстрая но маленькая и дорогая, а SSD большой и дешёвый но медленный. Nvidia пилит Storage Next с SK hynix и Kioxia - SSD на 100 млн IOPS (обычные делают 3-5 млн), подключение напрямую к GPU минуя CPU. GPU работает с ним как с памятью. KV cache сможет жить дольше и дешевле чем в видеопамяти, но без просадки по скорости как на обычном диске.

Скорее всего это вызовет сильное удешевление кеша, и всех агенских систем в частности
👍178🔥6🥰2
😁38🔥2
Все активно обсуждают новую модель mythos 5, которую антропики начинают раскатывать на некоторые компании с enterprice тарифом и отдельных power users с Max планом. Я получил эту модель пару дней назад, и я уже смог сформировать впечатление по ее работе.

Что не понравилось
- пиздец долгая, раза в 2 медленнее обычного опуса. Благо /fast режим с ней тоже работает (хотя и очень дорогой).
- Сильно хуже не в кодинг задачах, любит все усложнять, использует слишком замудреный язык. Для планинга понял что опус сильно лучше.
- Такое ощущение что полное отстутсвие сейфти. Сходу была готова делать плохие вещи, страшно такое раскатывать всем

Что супер понравилось
- Огромный контекст. 10 миллионов токенов есть 10 миллионов токенов. Качество на них не проседает, после 3х часов работы не заметил разницы с началом
- Умение саморефлексии. Не знаю как сказать подругому. Пилил бэкенд для нетривиального проекта, после того как 3ий раз подряд фича не работала - сам предложил дополнить unit тесты хорошими интеграционными + обновил себе claude.md что надо тестировать сложные фичи e2e через playwright browser.
- Мультиагентность - иделаьно понимает когда надо запустить подагента, какой сделать ему промпт, валидирует его работу а не переделывает. Кажется по мультиагентности хорошо прошлись RL ем


В целом впечатления позитивные. С этой моделью можно закодить то же самое что с опусом, но с ним это потребует много хаков - Ralph лупы, файлы с памятью, итп, то в Mythos можно сказать что то типо - вот сервис, разберись как он работет. Вот jira mcp с задачами, надо все сделать, протестировать, задеплоить - уйти на 2-3 часа и быть увереным что все готово
18🔥10👍2💩2😁1