ml phys – Telegram

ml phys

2.78K subscribers

188 photos

12 videos

2 files

113 links

Короткие технические разборы AI agents, coding agents, evals и LLM-инфры

Download Telegram

About

Blog

Apps

Platform

2.78K subscribers

Пользуюсь Whisp Flow для закидывания задач клод коду последние несколько месяцев - это в несколько раз быстрее чем писать, а клод без проблем распаришвает мой поток мысли.

Попробовал все альтернативы, включая опенсорсные - нигде даже близко нет такого качества (а я очень хорошо искал, так как жмотил деньги на подписку)

Разобрался почему. Дело не в модели. Whisper у всех одинаковый. Разница в контексте который уходит в модели вместе с аудиозаписью

В каждый запрос Wispr собирает:
- App context - имя приложения, URL, тип (email/messaging/browser/developer)
- Textbox - текст до/после курсора, выделенный текст через accessibility features мака.
- Dynamic vocabulary - через OCR и accessibility собирает термины с экрана (имена переменных в IDE, имена файлов, имена людей в чате) и передает в виспер, что бы он это лучше переводил. Static vocabulary - задается в настройках, так же передается в декодер виспера.
- Screenshot - скриншот активного окна, передается в VLM на постпроцессинге.
- Style config - уровень формальности, email-подпись, tagging style для Slack, задается в настройках + зависит от приложения.
- Previous ASR/LLM text - что модель уже надиктовала в этой сессии, чтобы следующие фразы были консистентны

Поэтому когда ты диктуешь в Slack - получаешь короткое сообщение, в Claude Code - промпт с правильными именами переменных. Если поправляешься на ходу ("нет, не в 2 а в 4") - оно выкинет первую версию и оставит только финальную.

Искал опенсорс аналог - не нашел ничего сравнимого. Потому что хороший продукт это не "возьми whisper и оберни в UI", а инженерная и продуктовая работа.

Если будете брать себе - по этой ссылке дают триалку.

🔥16❤5🤡5👍4👀2

2.22K viewsАлексей Маметьев, 09:18

Наткнулся на твит что у Anthropic весь growth marketing 10 месяцев тянул один человек. Paid search, paid social, app stores, email, SEO - всё он.
Пайплайн: Claude Code анализирует метрики и генерит варианты объявлений через субагентов, через Figma плагин раскидывает копирайт по шаблонам, MCP к Meta Ads тянет live аналитику что бы понимать какие посты перформят, в memory записывается тлдр гипотез с результатом. Каждый цикл лучше предыдущего. Создание рекламы с 2 часов до 15 минут.
Субагенты, MCP, feedback loop, memory - нетехнический маркетолог использует те же паттерны что мы в разработке, просто домен другой. Так что деление "Claude Code для программистов, ChatGPT для остальных" уже не работает. Кто понимает как работает agentic- тот строит пайплайны в любом домене.

P.S. Сейчас в marketing team антропика ~100 человек. Команда разрослась несколько месяцев назад.

https://x.com/itsolelehmann/status/2031308486815133905?s=20 - крайне советую почитать более детальное описание схемы в твитере

🤯14👍10❤5🤔2🔥1😱1

2.69K viewsАлексей Маметьев, edited 07:57

Percepta выкатили пост "Can LLMs Be Computers?" и твиттер сходит с ума. Если коротко: они собрали трансформер который исполняет WebAssembly.

Идея красивая, но давайте разберемся. (тут вам наверное лучше самим прочитать пост, хотя бы через самари ЛЛМки)

Они не обучили модель считать. Они руками сконструировали веса очень маленького трансформера так чтобы он работал как интерпретатор. Это не learning, это компиляция программы в веса.

Все обсуждают их ускорение attention с O(t) до O(log t). Но есть нюанс который все пропускают. Это работает только потому что они заменили softmax на hard-max. В их задаче на каждом шаге нужно достать конкретное значение из стека или памяти по адресу, не мягкую смесь всех значений. Для этого hard-max хватает. Нормальные LLM используют softmax где нужны скоры от всех ключей для взвешенной суммы. Их ускорение к этому неприменимо (и концептуально невозможно сделать softmax n величин быстрее чем O(n)).

Результат интересный как конструкция, но к реальным LLM это отношения не имеет, а нарратив "мы превратили LLM в компьютер" это чистый маркетинг.

P.S. Весь смысл работы это дифференцируемый интерпретатор WASM без tool calling. Но ни одного эксперимента с градиентами нет, как и обьяснения как оно хотя бы должно работать с next gen ллмками.

👍12❤5🔥4😁2🤔1

2.2K viewsАлексей Маметьев, edited 19:13

Кэшированные input токены у Антропиков стоят в 10 раз дешевле. Им это реально в 10 раз дешевле обходится.

Когда шлёшь промпт в LLM, модель прогоняет все входные токены через все слои и сохраняет промежуточные результаты - KV cache - рассчёт attention по входным токенам, "память" модели о том что она прочитала. Операция тяжёлая, даже на кластере H100 десятки тысяч токенов в секунду. Запрос на 500K токенов = секунды GPU-времени на каждый запрос.

Кэшированные токены этот шаг пропускают. KV cache уже посчитан, надо просто прочитать. Отсюда 10x разница в цене.

KV cache занимает гигабайты. Где хранить между запросами - иерархия от быстрого и дорогого к медленному и дешёвому:

G1 - видеопамять
G2 - оперативка сервера
G3 - SSD на сервере
G4 - обычное сетевое хранилище

У Антропика два TTL кэша - 5 минут и 1 час. Вероятнее всего 5 минут = кэш в видеопамяти, 1 час = сброс в оперативку или на SSD. Поэтому cache write дороже (копирование вниз по иерархии), а cache read в 10 раз дешевле - даже достать с SSD быстрее чем пересчитать заново.

Сейчас проблема в том что видеопамять быстрая но маленькая и дорогая, а SSD большой и дешёвый но медленный. Nvidia пилит Storage Next с SK hynix и Kioxia - SSD на 100 млн IOPS (обычные делают 3-5 млн), подключение напрямую к GPU минуя CPU. GPU работает с ним как с памятью. KV cache сможет жить дольше и дешевле чем в видеопамяти, но без просадки по скорости как на обычном диске.

Скорее всего это вызовет сильное удешевление кеша, и всех агенских систем в частности

👍17❤8🔥6🥰2

2.6K viewsАлексей Маметьев, 16:08

Забавное из слива исходников claude code.

😁38🔥2

2.17K viewsАлексей Маметьев, 17:27

Все активно обсуждают новую модель mythos 5, которую антропики начинают раскатывать на некоторые компании с enterprice тарифом и отдельных power users с Max планом. Я получил эту модель пару дней назад, и я уже смог сформировать впечатление по ее работе.

Что не понравилось
- пиздец долгая, раза в 2 медленнее обычного опуса. Благо /fast режим с ней тоже работает (хотя и очень дорогой).
- Сильно хуже не в кодинг задачах, любит все усложнять, использует слишком замудреный язык. Для планинга понял что опус сильно лучше.
- Такое ощущение что полное отстутсвие сейфти. Сходу была готова делать плохие вещи, страшно такое раскатывать всем

Что супер понравилось
- Огромный контекст. 10 миллионов токенов есть 10 миллионов токенов. Качество на них не проседает, после 3х часов работы не заметил разницы с началом
- Умение саморефлексии. Не знаю как сказать подругому. Пилил бэкенд для нетривиального проекта, после того как 3ий раз подряд фича не работала - сам предложил дополнить unit тесты хорошими интеграционными + обновил себе claude.md что надо тестировать сложные фичи e2e через playwright browser.
- Мультиагентность - иделаьно понимает когда надо запустить подагента, какой сделать ему промпт, валидирует его работу а не переделывает. Кажется по мультиагентности хорошо прошлись RL ем

В целом впечатления позитивные. С этой моделью можно закодить то же самое что с опусом, но с ним это потребует много хаков - Ralph лупы, файлы с памятью, итп, то в Mythos можно сказать что то типо - вот сервис, разберись как он работет. Вот jira mcp с задачами, надо все сделать, протестировать, задеплоить - уйти на 2-3 часа и быть увереным что все готово

❤18🔥10👍2💩2😁1

4.05K viewsАлексей Маметьев, edited 13:32

Тревожно

😁52🤣16😱4👍3

3.21K viewsАлексей Маметьев, 17:59

Самая дорогая операция в claude code - рефакторинг. Переименовать класс = клод грепает проект, читает десятки файлов, меняет вхождения по одному, пропускает половину. Grep не понимает структуру - находит "resolve" в комментарии, в строковой константе, в названии другой функции которая просто похоже называется. На большом проекте это сотни тысяч токенов и 10 минут ожидания на то что должно занимать секунды.

Помните как в PyCharm/IDEA без всякого AI - жмёшь Comand+Click на функцию, прыгаешь в реализацию. Find Usages - все места где вызывается. Rename - переименовал класс и IDE сама обновила 50 файлов. Всё мгновенно, всё точно, потому что IDE реально понимает структуру кода, а не ищет текст грепом.

Так вот это всё можно отдать клоду. JetBrains умеет поднимать MCP сервер который даёт доступ к тем же индексам. search_symbol - поиск по AST, не по тексту. rename_refactoring - один тулколл вместо ручной правки десятков файлов. find_usages - все вызовы с пониманием контекста. Плюс клод начинает видеть линтеры IDE и фиксить замечания на ходу.
Без явной инструкции в CLAUDE.md клод будет игнорировать MCP тулы и грепать по старинке. Свой файл с инструкциями я выложил в открытый доступ на Linkedin

За совет спасибо @rick_po

❤29🔥18👍7✍1🐳1

2.7K viewsАлексей Маметьев, edited 17:15

❤12🤣6😁2😭1

2.24K viewsАлексей Маметьев, 07:27

Чем больше вайбкожу, тем больше понимаю - основной ботлнек это не скорость генерации а скорость ввода промптов в claude code. Пока агент работает - ты простаиваешь, пока ты пишешь промпт - простаивает агент. Решение - автоматизации которые сами триггерят агента: хуки, крон джобы, фидбек луки, гитхабные экшены. (Да и просто бесит писать одно и то же агенту - ты проверил линтером? ты сделал тесты? ты проверил код? ты проверил e2e а не просто проверил импорты? )

Написал для примера pre-merge-commit хук - на мерж в main запускается claude code и ищет AI-slop в тестах (то что лично меня бесит больше всего). Замокали всё подряд и проверили что мок вызвался, assert True, тест на len(CONFIG["sites"]) == 5 который проверяет сам себя - классика вайбкода. Хук спавнит Explore субагента что бы посмотреть как changed code используется в кодбазе, проверяет есть ли тесты на продуктовые изменения, ловит медленные юнит тесты (реальная сеть, sleep, загрузка моделей). На выходе JSON с verdict approve/reject, блокеры рубят мерж, warnings пропускают.
Гист

👍13❤9🔥6👎2🤮2💩2🤡2🤔1🐳1💯1🤨1

1.96K viewsАлексей Маметьев, 15:08

Очень советую посмотреть на научные МЛ челленджи на каггле, что организовали в моем Альма-матер. Советую участвовать и натравливать ваши авторесерч лупы на них

👍3🔥3

1.43K viewsАлексей Маметьев, 13:45

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.

Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.

Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.me/forodirchNEWS/3165 , или хабре или чате @starkitmega.

Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.

~~Первый~~ Второй разыгрываемый приз - 10 000 рублей.
Условия ~~первого~~ второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube

Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:

1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель ~~80 000~~ уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).

2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).

Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).

Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.

Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !

================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)

И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy

================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.me/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:

❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.me/blastim

❤3🔥2

1.53K viewsАлексей Маметьев, 13:45

Год назад вышел AI 2027 (https://ai-2027.com/) - сценарий где по месяцам расписано как мы получаем суперинтеллект к концу 27го. Посмотрел в какой главе мы должны быть сейчас
Апрель 26го - глава "Early 2026: Coding Automation". Agent-1 работает не как ассистент а как сотрудник. Получает таски в Slack, сам разбирается, правит код, пушит изменения. Длинные задачи разваливаются. Ai - "рассеянный сотрудник который хорошо работает под плотным менеджментом". Китай в сценарии отстает на 6 месяцев, но топ лаборатория делает впечатляющие вещи на ограниченном железе
Сравните с тем что видите каждый день. Claude Code и Codex делают ровно то что в описании - кидаешь таску, уходишь пить кофе (делать другую таску), возвращаешься к открытому PR. Из Китая - Qwen, GLM отстают от топа на пару процентов по Arena.

Верите что этот сценарий воплотится в реальность до конца - потому что там довольно зловещие вещи.

A research-backed AI scenario forecast.

🔥16

2.33K viewsАлексей Маметьев, edited 07:44

В Claude Code нельзя закинуть следующий промпт пока опус работает - ждешь пока он отработает текущий ход. В Codex для этого есть Tab, в клоде нет.

Написал хук который это чинит. !qnext "текст" пишет файл в /tmp с session_id. Когда клод заканчивает ход, Stop-хук читает файл и отдает содержимое обратно и клод воспринимает это как следующую инструкцию от юзера. Постановка в очередь не тратит LLM вызов.

https://github.com/freQuensy23-coder/hook-next

GitHub - freQuensy23-coder/hook-next: Queue follow-up prompts for Claude Code via UserPromptSubmit + Stop hooks. Zero-LLM queueing.

Queue follow-up prompts for Claude Code via UserPromptSubmit + Stop hooks. Zero-LLM queueing. - freQuensy23-coder/hook-next

👍12❤‍🔥6💩3❤2🌚1

2.35K viewsАлексей Маметьев, edited 13:57

OpenAI в проде гоняет спекулятивный декодинг. Это видно из простого теста - попроси gpt сгенерить JSON (или код на питоне) и художественный текст в одном запросе, JSON будет в 2 (ДВА) раза быстрее - тут пруф

Почему этот трюк вообще работает. Сгенерить N токенов с нуля стоит N последовательных прогонов большой модели - каждый следующий токен зависит от предыдущего, нельзя считать второй пока не готов первый. А проверить готовую цепочку из N токенов стоит один прогон. Трансформер устроен так, что forward pass по последовательности t1..tN параллельно даёт N предсказаний: что модель выдала бы после t1, что после t1 t2, что после t1 t2 t3 и так далее. Это бесплатно из архитектуры.

Поэтому к большой модели прицепляют маленькую черновую, в десятки раз быстрее. Черновая генерит N токенов вперёд, большая одним прогоном их проверяет. Первые k совпали с её собственным предсказанием - берём как есть, это ровно те токены что выдала бы большая модель сама в обычной генерации. На k+1-м расхождение - откат, считаем как обычно. Качество без потерь.

JSON предсказуем: после "name": идёт строка, после строки запятая или скобка. Черновая угадывает почти всегда. Художественный текст так не угадаешь, промахи постоянные, метод вырождается в обычный.

Значит креатив у openai в инференсе реально дороже кода. И spec decoding точно в проде, что бы там ни писали в доках. Жалко что на это нет скидки в API pricing-е

GitHub - freQuensy23-coder/speculative-decoding-fingerprint: Black-box timing experiments for speculative-decoding-family acceleration…

Black-box timing experiments for speculative-decoding-family acceleration in GPT API streaming - freQuensy23-coder/speculative-decoding-fingerprint

🤔17❤8🔥2💩2👎1😢1🙏1🐳1

2.64K viewsАлексей Маметьев, 17:31

Мы уже в экспоненте?

Генерация токенов улетела в космос. За последние месяцы трафик Anthropic вырос в 4 раза, потребление китайских моделей скакнуло в 6 раз, OpenRouter — втрое. Это кратный рост за квартал, а не за год.

Причина в агентах. Мы перестали использовать LLM в режиме чата. Теперь я даю агенту задачу, и он уходит на пару часов: сам пишет код, запускает тесты, ловит ошибки и исправляет их по кругу. Так же есть кроны, рутинные автоматизации итп. Все это время модель беспрерывно жрет токены.

Этот паттерн ломает рынок железа. Исторически аренда видеокарт дешевела за счет оптимизации инференса и выхода новых мощных GPU. Но на графиках Vast.ai видно, что сейчас цены пошли вверх на мощные гпушки.

Если мы реально идем к тому, что у каждого человека будет 24/7 крутиться пара ИИ агентов в фоне (а у повер юзеров их будет десятки), то производители железа и памяти (типа Nvidia) - это не раздутый пузырь. Они жестко недооценены под тот объем дата-центров, который скоро понадобится миру просто для базовой нагрузки, даже при значительном апгрейде небольших моделей.

P.S. Сами данные по ценам выложены вот сюда для вашего анализа storage.googleapis.com/vast-public-gpu-pricing/gpu-price-history.json

👍25❤13😱1😢1

2.03K viewsАлексей Маметьев, 18:58

Я очень жду как AI полноценно войдет в игровую индустрию - мечтаю о RPG с LLM под капотом

❤19🔥5🥰3🤔1🤝1

1.48K viewsАлексей Маметьев, 11:02

Forwarded from Data Secrets

Media is too big

VIEW IN TELEGRAM

1 место на большом хакатоне Claude Code в этом году только что выиграл турецкий врач вот с этим проектом, который он навайбкодил за 3 дня ⬆️

Это MedKit – симулятор пациентов для обучения врачей и студентов‑медиков.

Он задуман как виртуальная клиника, которая помогла бы начинающим медикам закрыть дыру между изучением теории из учебников и выходом к реальным пациентам, чтобы первые ошибки случались в песочнице.

Студент ведет реальный голосовой диалог с «пациентом», собирает анамнез, назначает лабораторные анализы, ставит диагноз и выписывает рецепт. После каждого сеанса система оценивает действия игрока по нескольким критериям и выдает фидбэк.

Автор проекта выиграл на этой идее 50к долларов в API кредитах

Можете поиграть сами тут: https://medkit-app.vercel.app/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21

1.7K viewsАлексей Маметьев, 11:02

У Клода скользящее окно пятичасовых лимитов. Отправил первый запрос в 7 утра - квота отсчитывается до 12. Многие выжигают лимиты быстро
Можно обойти это через костыль. В Claude во вкладке Routines ставишь таску на 6 утра рассчитать сумму 1 + 1

В итоге если сесть работать 9-10, лимиты обнуляются уже через два часа

P.S. а вопрос для самых умных - как реализованы вот такие "динамические окна" и какая стуктура данных для них используется у них на бекенде

❤19😁3👍2

1.68K viewsАлексей Маметьев, 07:04