ml phys

Многие кто общался с клодом говорят что он "очень приятный по вайбу", и хотя другие модели кодят не сильно хуже по метрикам, общаться с ним не вайбово, гпт (а особенно гемини) использует блевотные аи слоп формулировки.

Нашёл бенчмарк, измеряющий это, bullshit bebch. Они задают модели несуразные вопросы и смотрят начнет ли она нести чушь.

Результаты ожидаемые - модели клауде в топе.

😁18❤10👍4🔥4💯1

3.55K viewsАлексей Маметьев, 09:15

ml phys

Разобрался как работает Deep Research у клода (имхо самый юзабельный из всех)

Под капотом это не одна умная моделька (как у опенаи), там Opus как менеджер + 3-5 параллельных субагентов, каждый в своём контексте. Допустим спрашиваешь "сравни подходы к alignment у Anthropic, OpenAI и DeepMind за последний год". Opus декомпозирует и раздаёт задачи: один субагент копает Anthropic, другой OpenAI, третий DeepMind, четвёртый ищет независимую критику. Все работают параллельно. Каждый субагент переварил куча статей, сайтов итп в своём контексте, выдал концентрат на пару тысяч токенов + ссылки на источники. Opus читает концентраты, а не сырые страницы. При необходимости может обратиться к ключевым первоисточникам по ссылкам, если не хватает самари. Если видит пробелы в ресерче - спавнит ещё субагентов на доработку, глубина диприсерча строга не ограничена, модель сама решает когда заканчивать. Результаты всех раундов складываются в файлы, чтобы контекст лида не забивался между итерациями. Когда данных хватает - собирает финальный отчёт с цитатами, читая резульаты всех субагентов.

Это конечно верхнеуровневая картинка. Чтобы это всё не разваливалось на практике, Антропик допилили инфраструктуру вокруг: сжатие контекста когда агент упирается в лимит, файловую систему для передачи промежуточных результатов между агентами, отдельную memory для оркестратора (живёт только в рамках одного ресёрча, не путать с памятью между чатами). Подробнее можно почитать тут

У gemini и openai дип рисерчи работают концептуально по другому. Если этот пост не наберет ни одной обидной эмодзи - расскажу как.

❤47🔥24👍13🤡12😁5🖕5👻4🤝3🎃2💊2💋1

2.13K viewsАлексей Маметьев, 10:47

ml phys

Forwarded from пепега pro max (Maksim Artemev)

JB сегодня запустили public preview своей новой агентской среды!

Мне (к сожалению) не заплатили за рекламу, но выглядит очень интересно и вкусно. Там можно и свои ключи использовать, и жб подписку.

Мой товарищ который лидит эту разработку обещает что оно уже скоро обрастет фичами и станет #1 агентской средой в мире, так что срочно нужно перекатываться 🫡

https://air.dev/

Please open Telegram to view this post

VIEW IN TELEGRAM

air.dev

Air: Multitask with agents, stay in control

JetBrains Air is the Agentic Development Environment where Codex, Claude Agent, Gemini CLI, and Junie execute independent task loops without interfering with each other.

💩10🔥7👎3🤡2🍌1🖕1

1.71K viewsАлексей Маметьев, 17:47

ml phys

Последние пару недель все задачи вайбкожу через Ralph Loop и считаю что это очередной прорыв в вайбкодинге

Суть - заворачиваешь claude code в while true, каждая итерация с чистым контекстом.

while true; do
  claude -p "$(cat PROMPT.md)"
done

Агент читает план из файла, берет одну задачу, пилит, тесты, коммит, обновляет прогресс. Контекст выкидывается целиком. Мы специально не используем /compact из-за сжатия с потерями, которые часто вызывают проблемы (например недавно из за неудачного compact агент удалил куча сообщений с почты директора по alignment в Meta Superintelligence Labs)

В таком подходе модель всегда в первых 30-60% контекстного окна где качество максимальное + нет компактов + нет проблем что какой то инфы нет в контексте.

Весь стейт живет в файлах - PRD, прогресс-трекер, AGENTS.md с паттернами проекта. За итерацию делается одна задача.

Например можно создать TASKS.md - с описанием задач которые надо сделать. В качестве промпта ralph цикла буедт что то "открой TASKS.md прочитай какие задачи уже выполнены, а какие в планах. Затем возьми самую первую не выполненную задачу, изучи кодовую базу проекта и начни ее выполнять. После завершения - отметь ее как выполненной в @TASKS.md а так же закомить изменения.". Можете придумать какой то свой промпт, который лучше подходит под ваши проекты и ваш стиль кодинга.

Агент будет сам поочередно делать задачи, а вы можете ~~пойти заниматься другими делами~~ собирать TASKS.md для другого проекта.

🔥27🤡5🤯2🤮2💩2🤝2

2.1K viewsАлексей Маметьев, 10:10

ml phys

Пользуюсь Whisp Flow для закидывания задач клод коду последние несколько месяцев - это в несколько раз быстрее чем писать, а клод без проблем распаришвает мой поток мысли.

Попробовал все альтернативы, включая опенсорсные - нигде даже близко нет такого качества (а я очень хорошо искал, так как жмотил деньги на подписку)

Разобрался почему. Дело не в модели. Whisper у всех одинаковый. Разница в контексте который уходит в модели вместе с аудиозаписью

В каждый запрос Wispr собирает:
- App context - имя приложения, URL, тип (email/messaging/browser/developer)
- Textbox - текст до/после курсора, выделенный текст через accessibility features мака.
- Dynamic vocabulary - через OCR и accessibility собирает термины с экрана (имена переменных в IDE, имена файлов, имена людей в чате) и передает в виспер, что бы он это лучше переводил. Static vocabulary - задается в настройках, так же передается в декодер виспера.
- Screenshot - скриншот активного окна, передается в VLM на постпроцессинге.
- Style config - уровень формальности, email-подпись, tagging style для Slack, задается в настройках + зависит от приложения.
- Previous ASR/LLM text - что модель уже надиктовала в этой сессии, чтобы следующие фразы были консистентны

Поэтому когда ты диктуешь в Slack - получаешь короткое сообщение, в Claude Code - промпт с правильными именами переменных. Если поправляешься на ходу ("нет, не в 2 а в 4") - оно выкинет первую версию и оставит только финальную.

Искал опенсорс аналог - не нашел ничего сравнимого. Потому что хороший продукт это не "возьми whisper и оберни в UI", а инженерная и продуктовая работа.

Если будете брать себе - по этой ссылке дают триалку.

🔥16❤5🤡5👍4👀2

2.22K viewsАлексей Маметьев, 09:18

ml phys

Наткнулся на твит что у Anthropic весь growth marketing 10 месяцев тянул один человек. Paid search, paid social, app stores, email, SEO - всё он.
Пайплайн: Claude Code анализирует метрики и генерит варианты объявлений через субагентов, через Figma плагин раскидывает копирайт по шаблонам, MCP к Meta Ads тянет live аналитику что бы понимать какие посты перформят, в memory записывается тлдр гипотез с результатом. Каждый цикл лучше предыдущего. Создание рекламы с 2 часов до 15 минут.
Субагенты, MCP, feedback loop, memory - нетехнический маркетолог использует те же паттерны что мы в разработке, просто домен другой. Так что деление "Claude Code для программистов, ChatGPT для остальных" уже не работает. Кто понимает как работает agentic- тот строит пайплайны в любом домене.

P.S. Сейчас в marketing team антропика ~100 человек. Команда разрослась несколько месяцев назад.

https://x.com/itsolelehmann/status/2031308486815133905?s=20 - крайне советую почитать более детальное описание схемы в твитере

🤯14👍10❤5🤔2🔥1😱1

2.69K viewsАлексей Маметьев, edited 07:57

ml phys

Percepta выкатили пост "Can LLMs Be Computers?" и твиттер сходит с ума. Если коротко: они собрали трансформер который исполняет WebAssembly.

Идея красивая, но давайте разберемся. (тут вам наверное лучше самим прочитать пост, хотя бы через самари ЛЛМки)

Они не обучили модель считать. Они руками сконструировали веса очень маленького трансформера так чтобы он работал как интерпретатор. Это не learning, это компиляция программы в веса.

Все обсуждают их ускорение attention с O(t) до O(log t). Но есть нюанс который все пропускают. Это работает только потому что они заменили softmax на hard-max. В их задаче на каждом шаге нужно достать конкретное значение из стека или памяти по адресу, не мягкую смесь всех значений. Для этого hard-max хватает. Нормальные LLM используют softmax где нужны скоры от всех ключей для взвешенной суммы. Их ускорение к этому неприменимо (и концептуально невозможно сделать softmax n величин быстрее чем O(n)).

Результат интересный как конструкция, но к реальным LLM это отношения не имеет, а нарратив "мы превратили LLM в компьютер" это чистый маркетинг.

P.S. Весь смысл работы это дифференцируемый интерпретатор WASM без tool calling. Но ни одного эксперимента с градиентами нет, как и обьяснения как оно хотя бы должно работать с next gen ллмками.

👍12❤5🔥4😁2🤔1

2.2K viewsАлексей Маметьев, edited 19:13

ml phys

Кэшированные input токены у Антропиков стоят в 10 раз дешевле. Им это реально в 10 раз дешевле обходится.

Когда шлёшь промпт в LLM, модель прогоняет все входные токены через все слои и сохраняет промежуточные результаты - KV cache - рассчёт attention по входным токенам, "память" модели о том что она прочитала. Операция тяжёлая, даже на кластере H100 десятки тысяч токенов в секунду. Запрос на 500K токенов = секунды GPU-времени на каждый запрос.

Кэшированные токены этот шаг пропускают. KV cache уже посчитан, надо просто прочитать. Отсюда 10x разница в цене.

KV cache занимает гигабайты. Где хранить между запросами - иерархия от быстрого и дорогого к медленному и дешёвому:

G1 - видеопамять
G2 - оперативка сервера
G3 - SSD на сервере
G4 - обычное сетевое хранилище

У Антропика два TTL кэша - 5 минут и 1 час. Вероятнее всего 5 минут = кэш в видеопамяти, 1 час = сброс в оперативку или на SSD. Поэтому cache write дороже (копирование вниз по иерархии), а cache read в 10 раз дешевле - даже достать с SSD быстрее чем пересчитать заново.

Сейчас проблема в том что видеопамять быстрая но маленькая и дорогая, а SSD большой и дешёвый но медленный. Nvidia пилит Storage Next с SK hynix и Kioxia - SSD на 100 млн IOPS (обычные делают 3-5 млн), подключение напрямую к GPU минуя CPU. GPU работает с ним как с памятью. KV cache сможет жить дольше и дешевле чем в видеопамяти, но без просадки по скорости как на обычном диске.

Скорее всего это вызовет сильное удешевление кеша, и всех агенских систем в частности

👍17❤8🔥6🥰2

2.6K viewsАлексей Маметьев, 16:08

ml phys

Забавное из слива исходников claude code.

😁38🔥2

2.17K viewsАлексей Маметьев, 17:27

ml phys

Все активно обсуждают новую модель mythos 5, которую антропики начинают раскатывать на некоторые компании с enterprice тарифом и отдельных power users с Max планом. Я получил эту модель пару дней назад, и я уже смог сформировать впечатление по ее работе.

Что не понравилось
- пиздец долгая, раза в 2 медленнее обычного опуса. Благо /fast режим с ней тоже работает (хотя и очень дорогой).
- Сильно хуже не в кодинг задачах, любит все усложнять, использует слишком замудреный язык. Для планинга понял что опус сильно лучше.
- Такое ощущение что полное отстутсвие сейфти. Сходу была готова делать плохие вещи, страшно такое раскатывать всем

Что супер понравилось
- Огромный контекст. 10 миллионов токенов есть 10 миллионов токенов. Качество на них не проседает, после 3х часов работы не заметил разницы с началом
- Умение саморефлексии. Не знаю как сказать подругому. Пилил бэкенд для нетривиального проекта, после того как 3ий раз подряд фича не работала - сам предложил дополнить unit тесты хорошими интеграционными + обновил себе claude.md что надо тестировать сложные фичи e2e через playwright browser.
- Мультиагентность - иделаьно понимает когда надо запустить подагента, какой сделать ему промпт, валидирует его работу а не переделывает. Кажется по мультиагентности хорошо прошлись RL ем

В целом впечатления позитивные. С этой моделью можно закодить то же самое что с опусом, но с ним это потребует много хаков - Ralph лупы, файлы с памятью, итп, то в Mythos можно сказать что то типо - вот сервис, разберись как он работет. Вот jira mcp с задачами, надо все сделать, протестировать, задеплоить - уйти на 2-3 часа и быть увереным что все готово

❤18🔥10👍2💩2😁1

4.05K viewsАлексей Маметьев, edited 13:32

ml phys

Тревожно

😁52🤣16😱4👍3

3.21K viewsАлексей Маметьев, 17:59

ml phys

Самая дорогая операция в claude code - рефакторинг. Переименовать класс = клод грепает проект, читает десятки файлов, меняет вхождения по одному, пропускает половину. Grep не понимает структуру - находит "resolve" в комментарии, в строковой константе, в названии другой функции которая просто похоже называется. На большом проекте это сотни тысяч токенов и 10 минут ожидания на то что должно занимать секунды.

Помните как в PyCharm/IDEA без всякого AI - жмёшь Comand+Click на функцию, прыгаешь в реализацию. Find Usages - все места где вызывается. Rename - переименовал класс и IDE сама обновила 50 файлов. Всё мгновенно, всё точно, потому что IDE реально понимает структуру кода, а не ищет текст грепом.

Так вот это всё можно отдать клоду. JetBrains умеет поднимать MCP сервер который даёт доступ к тем же индексам. search_symbol - поиск по AST, не по тексту. rename_refactoring - один тулколл вместо ручной правки десятков файлов. find_usages - все вызовы с пониманием контекста. Плюс клод начинает видеть линтеры IDE и фиксить замечания на ходу.
Без явной инструкции в CLAUDE.md клод будет игнорировать MCP тулы и грепать по старинке. Свой файл с инструкциями я выложил в открытый доступ на Linkedin

За совет спасибо @rick_po

❤29🔥18👍7✍1🐳1

2.7K viewsАлексей Маметьев, edited 17:15

ml phys

❤12🤣6😁2😭1

2.24K viewsАлексей Маметьев, 07:27

ml phys

Чем больше вайбкожу, тем больше понимаю - основной ботлнек это не скорость генерации а скорость ввода промптов в claude code. Пока агент работает - ты простаиваешь, пока ты пишешь промпт - простаивает агент. Решение - автоматизации которые сами триггерят агента: хуки, крон джобы, фидбек луки, гитхабные экшены. (Да и просто бесит писать одно и то же агенту - ты проверил линтером? ты сделал тесты? ты проверил код? ты проверил e2e а не просто проверил импорты? )

Написал для примера pre-merge-commit хук - на мерж в main запускается claude code и ищет AI-slop в тестах (то что лично меня бесит больше всего). Замокали всё подряд и проверили что мок вызвался, assert True, тест на len(CONFIG["sites"]) == 5 который проверяет сам себя - классика вайбкода. Хук спавнит Explore субагента что бы посмотреть как changed code используется в кодбазе, проверяет есть ли тесты на продуктовые изменения, ловит медленные юнит тесты (реальная сеть, sleep, загрузка моделей). На выходе JSON с verdict approve/reject, блокеры рубят мерж, warnings пропускают.
Гист

👍13❤9🔥6👎2🤮2💩2🤡2🤔1🐳1💯1🤨1

1.96K viewsАлексей Маметьев, 15:08

ml phys

Очень советую посмотреть на научные МЛ челленджи на каггле, что организовали в моем Альма-матер. Советую участвовать и натравливать ваши авторесерч лупы на них

👍3🔥3

1.43K viewsАлексей Маметьев, 13:45

ml phys

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.

Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.

Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.me/forodirchNEWS/3165 , или хабре или чате @starkitmega.

Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.

~~Первый~~ Второй разыгрываемый приз - 10 000 рублей.
Условия ~~первого~~ второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube

Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:

1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель ~~80 000~~ уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).

2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).

Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).

Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.

Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !

================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)

И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy

================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.me/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:

❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.me/blastim

❤3🔥2

1.53K viewsАлексей Маметьев, 13:45

ml phys

Год назад вышел AI 2027 (https://ai-2027.com/) - сценарий где по месяцам расписано как мы получаем суперинтеллект к концу 27го. Посмотрел в какой главе мы должны быть сейчас
Апрель 26го - глава "Early 2026: Coding Automation". Agent-1 работает не как ассистент а как сотрудник. Получает таски в Slack, сам разбирается, правит код, пушит изменения. Длинные задачи разваливаются. Ai - "рассеянный сотрудник который хорошо работает под плотным менеджментом". Китай в сценарии отстает на 6 месяцев, но топ лаборатория делает впечатляющие вещи на ограниченном железе
Сравните с тем что видите каждый день. Claude Code и Codex делают ровно то что в описании - кидаешь таску, уходишь пить кофе (делать другую таску), возвращаешься к открытому PR. Из Китая - Qwen, GLM отстают от топа на пару процентов по Arena.

Верите что этот сценарий воплотится в реальность до конца - потому что там довольно зловещие вещи.

Ai-2027

AI 2027

A research-backed AI scenario forecast.

🔥16

2.33K viewsАлексей Маметьев, edited 07:44

About

Blog

Apps

Platform