ml phys
2.78K subscribers
188 photos
12 videos
2 files
113 links
Короткие технические разборы AI agents, coding agents, evals и LLM-инфры
Download Telegram
Все активно обсуждают новую модель mythos 5, которую антропики начинают раскатывать на некоторые компании с enterprice тарифом и отдельных power users с Max планом. Я получил эту модель пару дней назад, и я уже смог сформировать впечатление по ее работе.

Что не понравилось
- пиздец долгая, раза в 2 медленнее обычного опуса. Благо /fast режим с ней тоже работает (хотя и очень дорогой).
- Сильно хуже не в кодинг задачах, любит все усложнять, использует слишком замудреный язык. Для планинга понял что опус сильно лучше.
- Такое ощущение что полное отстутсвие сейфти. Сходу была готова делать плохие вещи, страшно такое раскатывать всем

Что супер понравилось
- Огромный контекст. 10 миллионов токенов есть 10 миллионов токенов. Качество на них не проседает, после 3х часов работы не заметил разницы с началом
- Умение саморефлексии. Не знаю как сказать подругому. Пилил бэкенд для нетривиального проекта, после того как 3ий раз подряд фича не работала - сам предложил дополнить unit тесты хорошими интеграционными + обновил себе claude.md что надо тестировать сложные фичи e2e через playwright browser.
- Мультиагентность - иделаьно понимает когда надо запустить подагента, какой сделать ему промпт, валидирует его работу а не переделывает. Кажется по мультиагентности хорошо прошлись RL ем


В целом впечатления позитивные. С этой моделью можно закодить то же самое что с опусом, но с ним это потребует много хаков - Ralph лупы, файлы с памятью, итп, то в Mythos можно сказать что то типо - вот сервис, разберись как он работет. Вот jira mcp с задачами, надо все сделать, протестировать, задеплоить - уйти на 2-3 часа и быть увереным что все готово
18🔥10👍2💩2😁1
Тревожно
😁52🤣16😱4👍3
Самая дорогая операция в claude code - рефакторинг. Переименовать класс = клод грепает проект, читает десятки файлов, меняет вхождения по одному, пропускает половину. Grep не понимает структуру - находит "resolve" в комментарии, в строковой константе, в названии другой функции которая просто похоже называется. На большом проекте это сотни тысяч токенов и 10 минут ожидания на то что должно занимать секунды.

Помните как в PyCharm/IDEA без всякого AI - жмёшь Comand+Click на функцию, прыгаешь в реализацию. Find Usages - все места где вызывается. Rename - переименовал класс и IDE сама обновила 50 файлов. Всё мгновенно, всё точно, потому что IDE реально понимает структуру кода, а не ищет текст грепом.

Так вот это всё можно отдать клоду. JetBrains умеет поднимать MCP сервер который даёт доступ к тем же индексам. search_symbol - поиск по AST, не по тексту. rename_refactoring - один тулколл вместо ручной правки десятков файлов. find_usages - все вызовы с пониманием контекста. Плюс клод начинает видеть линтеры IDE и фиксить замечания на ходу.
Без явной инструкции в CLAUDE.md клод будет игнорировать MCP тулы и грепать по старинке. Свой файл с инструкциями я выложил в открытый доступ на Linkedin

За совет спасибо @rick_po
29🔥18👍71🐳1
12🤣6😁2😭1
Чем больше вайбкожу, тем больше понимаю - основной ботлнек это не скорость генерации а скорость ввода промптов в claude code. Пока агент работает - ты простаиваешь, пока ты пишешь промпт - простаивает агент. Решение - автоматизации которые сами триггерят агента: хуки, крон джобы, фидбек луки, гитхабные экшены. (Да и просто бесит писать одно и то же агенту - ты проверил линтером? ты сделал тесты? ты проверил код? ты проверил e2e а не просто проверил импорты? )

Написал для примера pre-merge-commit хук - на мерж в main запускается claude code и ищет AI-slop в тестах (то что лично меня бесит больше всего). Замокали всё подряд и проверили что мок вызвался, assert True, тест на len(CONFIG["sites"]) == 5 который проверяет сам себя - классика вайбкода. Хук спавнит Explore субагента что бы посмотреть как changed code используется в кодбазе, проверяет есть ли тесты на продуктовые изменения, ловит медленные юнит тесты (реальная сеть, sleep, загрузка моделей). На выходе JSON с verdict approve/reject, блокеры рубят мерж, warnings пропускают.
Гист
👍139🔥6👎2🤮2💩2🤡2🤔1🐳1💯1🤨1
Очень советую посмотреть на научные МЛ челленджи на каггле, что организовали в моем Альма-матер. Советую участвовать и натравливать ваши авторесерч лупы на них
👍3🔥3
🚀 Серия соревнований по МЛ и научный проект ! Денежный призовой фонд больше 100 000 р и будет расти ! Кому интересен МЛ/RL или математика или пазлы или роботы.

Приглашаем Вас принять участие в серии челленджей и развитии научного опен-соурс проекта.

Соревнование организуется совместно с учеными лаборатории интеллектуальных технологий робототехники МФТИ, (руководит проектом - Илья Осокин), которые поставили себе амбициозную цель создать робота, который побьет мировой рекорд по сборке Мегаминкса ! Узнать больше о робототехнической части проекта Вы можете в сообщении д.ф.-м.н. А. Арутюнова: https://t.me/forodirchNEWS/3165 , или хабре или чате @starkitmega.

Проект CayleyPy предлагает Вам принять участие в решении алгоритмической части задачи - создании алгоритмов - которые смогут получать наиболее короткие (близкие к оптимальным ) решения. Методы решения важны в широком круге проблем от математики до квантовых компьютеров, МЛ/РЛ и теории струн. Для этого мы организовали соревнования на платформе Каггл.

Первый Второй разыгрываемый приз - 10 000 рублей.
Условия первого второго этапа очень простые.
Есть три челленджа на Каггле
Мегаминкс
https://www.kaggle.com/competitions/cayley-py-megaminx/leaderboard
Кубик Рубика 333
https://www.kaggle.com/competitions/cayleypy-ihes-cube
Кубик Рубика 444
https://www.kaggle.com/competitions/cayley-py-444-cube

Приз будет получен первым, кто достигнет ЛЮБУЮ из целей:

1 Или в конкурсе Мегаминкс - кто достигает скор 75 000 (вы получите 5 000 рублей, 70 000 ещё 5 000 рублей) и опубликует публичное решение. (Первая цель 80 000 уже достигнута. Приз уйдёт Владу Кузнецову, МФТИ).

2 Или обогнать Томаса Рокицкого в конкурсах по кубику 333 или 444 (любом из них) и тоже опубликовать публичное решение. (Томас Рокицкий - легендарный специалист по вычислительным аспектам головоломок - именно его команда нашла "число Бога" кубика Рубика в 2010 году - подведя итог более 30 годам усилий большого количества специалистов).

Подробное описание соревнований -- по ссылкам выше. Кратко: даны 1000 состояний пазлов и Вам надо предъявить их решения -- чем короче решение тем лучше (то есть чем меньше шагов/"мувов"). Score на лидерборде = сумма длин решений по всем пазлам. Соревнования полностью аналогичны соревнованию Каггл Санта 2023 -- можно навайбкодить изменения лучших решений оттуда. Также стоит взять наш подход CayleyPy и изменить в нем образующие на мегаминкс. Это сделали те, кто сейчас в топе. Дополнительную информацию, обсуждение и советы - см. чаты - @starkitmega @sberlogacompete @sberlogasci. Вводные лекции: четверг 19.00, пятница 20.00 (время по Москве).

Дополнительным призом будет возможное участие в научных публикациях. Наши цели амбициозны - мы уже добились исключительных результатов, которые имеют приложение в МЛ, математике, теории струн, квантовых вычислениях и т.д. Публикации отмечены NIPS spotlight. Узнать больше Вы можете в наших статьях. Если у Вас есть несколько свободных часов в неделю, знание Питона или математики и Вам интересно принять участие - пишите @alexander_v_c - мы рады всем - начинающим и профи.

Планируется серия челленджей и призов. Первый приз уже разыгран, второй объявлен, скоро будут новые объявления -- оставайтесь с нами !

================
А также мы ищем Cпоносоров.
Вы можете поддержать нас переведя на карту Илье Осокину 2202208362030505
Или напишите @alexander_v_c (Александр Червов)

И кидайте нам, пожалуйста, звезды на гитхаб, Вы нам очень поможите:
https://github.com/cayleypy/cayleypy

================
Выражаем благодарность компании RYBE - толстовки для айтишников: https://rybe.store https://t.me/rybe_store
================
Выражаем благодарность агентству BLASTIM за поддержку:

❤️ Наши курсы: agency.blastim.ru
🥨 Свежие вакансии в биотехе: blastim.ru
🤝 https://t.me/blastim
3🔥2
Год назад вышел AI 2027 (https://ai-2027.com/) - сценарий где по месяцам расписано как мы получаем суперинтеллект к концу 27го. Посмотрел в какой главе мы должны быть сейчас
Апрель 26го - глава "Early 2026: Coding Automation". Agent-1 работает не как ассистент а как сотрудник. Получает таски в Slack, сам разбирается, правит код, пушит изменения. Длинные задачи разваливаются. Ai - "рассеянный сотрудник который хорошо работает под плотным менеджментом". Китай в сценарии отстает на 6 месяцев, но топ лаборатория делает впечатляющие вещи на ограниченном железе
Сравните с тем что видите каждый день. Claude Code и Codex делают ровно то что в описании - кидаешь таску, уходишь пить кофе (делать другую таску), возвращаешься к открытому PR. Из Китая - Qwen, GLM отстают от топа на пару процентов по Arena.

Верите что этот сценарий воплотится в реальность до конца - потому что там довольно зловещие вещи.
🔥16
В Claude Code нельзя закинуть следующий промпт пока опус работает - ждешь пока он отработает текущий ход. В Codex для этого есть Tab, в клоде нет.

Написал хук который это чинит. !qnext "текст" пишет файл в /tmp с session_id. Когда клод заканчивает ход, Stop-хук читает файл и отдает содержимое обратно и клод воспринимает это как следующую инструкцию от юзера. Постановка в очередь не тратит LLM вызов.

https://github.com/freQuensy23-coder/hook-next
👍12❤‍🔥6💩32🌚1
OpenAI в проде гоняет спекулятивный декодинг. Это видно из простого теста - попроси gpt сгенерить JSON (или код на питоне) и художественный текст в одном запросе, JSON будет в 2 (ДВА) раза быстрее - тут пруф

Почему этот трюк вообще работает. Сгенерить N токенов с нуля стоит N последовательных прогонов большой модели - каждый следующий токен зависит от предыдущего, нельзя считать второй пока не готов первый. А проверить готовую цепочку из N токенов стоит один прогон. Трансформер устроен так, что forward pass по последовательности t1..tN параллельно даёт N предсказаний: что модель выдала бы после t1, что после t1 t2, что после t1 t2 t3 и так далее. Это бесплатно из архитектуры.

Поэтому к большой модели прицепляют маленькую черновую, в десятки раз быстрее. Черновая генерит N токенов вперёд, большая одним прогоном их проверяет. Первые k совпали с её собственным предсказанием - берём как есть, это ровно те токены что выдала бы большая модель сама в обычной генерации. На k+1-м расхождение - откат, считаем как обычно. Качество без потерь.

JSON предсказуем: после "name": идёт строка, после строки запятая или скобка. Черновая угадывает почти всегда. Художественный текст так не угадаешь, промахи постоянные, метод вырождается в обычный.

Значит креатив у openai в инференсе реально дороже кода. И spec decoding точно в проде, что бы там ни писали в доках. Жалко что на это нет скидки в API pricing-е
🤔178🔥2💩2👎1😢1🙏1🐳1
Мы уже в экспоненте?

Генерация токенов улетела в космос. За последние месяцы трафик Anthropic вырос в 4 раза, потребление китайских моделей скакнуло в 6 раз, OpenRouter — втрое. Это кратный рост за квартал, а не за год.

Причина в агентах. Мы перестали использовать LLM в режиме чата. Теперь я даю агенту задачу, и он уходит на пару часов: сам пишет код, запускает тесты, ловит ошибки и исправляет их по кругу. Так же есть кроны, рутинные автоматизации итп. Все это время модель беспрерывно жрет токены.

Этот паттерн ломает рынок железа. Исторически аренда видеокарт дешевела за счет оптимизации инференса и выхода новых мощных GPU. Но на графиках Vast.ai видно, что сейчас цены пошли вверх на мощные гпушки.

Если мы реально идем к тому, что у каждого человека будет 24/7 крутиться пара ИИ агентов в фоне (а у повер юзеров их будет десятки), то производители железа и памяти (типа Nvidia) - это не раздутый пузырь. Они жестко недооценены под тот объем дата-центров, который скоро понадобится миру просто для базовой нагрузки, даже при значительном апгрейде небольших моделей.

P.S. Сами данные по ценам выложены вот сюда для вашего анализа storage.googleapis.com/vast-public-gpu-pricing/gpu-price-history.json
👍2513😱1😢1
Я очень жду как AI полноценно войдет в игровую индустрию - мечтаю о RPG с LLM под капотом
19🔥5🥰3🤔1🤝1
Forwarded from Data Secrets
Media is too big
VIEW IN TELEGRAM
1 место на большом хакатоне Claude Code в этом году только что выиграл турецкий врач вот с этим проектом, который он навайбкодил за 3 дня ⬆️

Это MedKit – симулятор пациентов для обучения врачей и студентов‑медиков.

Он задуман как виртуальная клиника, которая помогла бы начинающим медикам закрыть дыру между изучением теории из учебников и выходом к реальным пациентам, чтобы первые ошибки случались в песочнице.

Студент ведет реальный голосовой диалог с «пациентом», собирает анамнез, назначает лабораторные анализы, ставит диагноз и выписывает рецепт. После каждого сеанса система оценивает действия игрока по нескольким критериям и выдает фидбэк.

Автор проекта выиграл на этой идее 50к долларов в API кредитах

Можете поиграть сами тут: https://medkit-app.vercel.app/
Please open Telegram to view this post
VIEW IN TELEGRAM
21
У Клода скользящее окно пятичасовых лимитов. Отправил первый запрос в 7 утра - квота отсчитывается до 12. Многие выжигают лимиты быстро
Можно обойти это через костыль. В Claude во вкладке Routines ставишь таску на 6 утра рассчитать сумму 1 + 1

В итоге если сесть работать 9-10, лимиты обнуляются уже через два часа

P.S. а вопрос для самых умных - как реализованы вот такие "динамические окна" и какая стуктура данных для них используется у них на бекенде
19😁3👍2
Добрался до старой статьи о том, как один парень вытащил точные лимиты подписок Клода из-за ошибки Антропиков.

Они возвращали в ответах отношение usage к лимиту в виде неокругленного float типа 0.16327272727272726. Любой float в памяти — это крошечный интервал. Если прогнать его через алгоритм поиска простейших дробей Штерна-Броко, можно восстановить исходные числитель и знаменатель.

Знаменатель в этой дроби - это и есть захардкоженный лимит. Собираешь несколько дробей с разных запросов, считаешь их наименьшее общее кратное - и получаешь точные значения лимитов.

Оказалось, тариф Max 5x насыпает в 8.3 раза больше недельных лимитов чем базовый Pro, а Max 20x — только в 16 раз. Чтение из кеша в подписках вообще бесплатное. Гонять агентов типа Claude Code на 5x подписке выходит в 36 раз дешевле чем по API. (при это все равно выгодная для антропкиков, подробнее про это - тут)
19👍103
Кажется fast mode в приложение Claude code для opus 4.6 стал бесплатным (у меня выключен extra usage - но оно работает). Проверьте тоже
👍10🤔4🐳21😢1
/plugin marketplace add freQuensy23-coder/notails                                                                                                                   /plugin install notail@notails                                                                                                                                      /reload-plugins



Написал плагин который запрещает модели сокращать вывод через tail и head, заменяя это на
comand > file.log
cat file.log | tail ...


В чем же проблема tail
1) так как выход буферизруется модель не знает какой сейчас статус и eta
2) если случится какой то exception модель может не понять в чем дело а логи не сохранились. Что еще хуже - какие то важные варнинги посередине (которые можно легко проверить грепами по файлу тоже теряются )
11👍9
хот тейк: даже в развитых странах, средний человек тратит 30-40% на жилье, поэтому если ai в 1000 раз увеличит продуктивность во всех остальных секторах кроме стройки жилья, качество жизни вырастет максимум в 3 раза
😢19😁3
Мой Hermes (раньше openclaw) часто ходит в браузер: открыть сайт, заресерчить что то, получить ключ, итп

Но есть тупой крайний случай - капча, 2FA, кривой iframe, сайт где DOM одно, а глазами видно другое. Агент застрял, а я сижу и управляю им через скриншоты в чате.

Увидел в @Mira нормальный UX: бот дает ссылку на браузер, юзер сам докликивает проблемное место, потом агент продолжает. (кстати сейчас это уже вырубили)

У них это сделано через browser-use.com. Мне показалось слишком дорого и тяжело для задачи “дай мне руками пройти капчу”.

Написал промпт-скилл, который поднимает свой вариант на VPS:

Chrome + Xvfb + x11vnc + noVNC + nginx auth + cloudflared tunnel.

Агент сам ставит зависимости, выбирает свободные порты, генерит пароли, закрывает noVNC Basic Auth-ом и отдает ссылку.

Raw VNC наружу не торчит.

дайте этот файл агенту он сам все сделает
🔥265🤮4💩1🤡1
😁21🤯4🥰2