Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.
Meta-Harness: End-to-End Optimization of Model Harnesses
Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Статья: https://arxiv.org/abs/2603.28052
Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Страница проекта: https://yoonholee.com/meta-harness/
Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization
# TL;DR
ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов.
ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO.
Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией.
Эволюционировать свою обвязку здесь: https://t.me/gonzo_ML_podcasts/3061
Meta-Harness: End-to-End Optimization of Model Harnesses
Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Статья: https://arxiv.org/abs/2603.28052
Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact
Страница проекта: https://yoonholee.com/meta-harness/
Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization
# TL;DR
ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов.
ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO.
Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией.
Эволюционировать свою обвязку здесь: https://t.me/gonzo_ML_podcasts/3061
arXiv.org
Meta-Harness: End-to-End Optimization of Model Harnesses
The performance of large language model (LLM) systems depends not only on model weights, but also on their harness: the code that determines what information to store, retrieve, and present to the...
👍13🤯11😁2🔥1🤔1🥱1
Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей работе предложили простой вариант самодистилляции на невалидированных сэмплах, который работает неожиданно хорошо для кода. Есть над чем подумать.
Embarrassingly Simple Self-Distillation Improves Code Generation
Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
Статья: https://arxiv.org/abs/2604.01193v1
Репа: https://github.com/apple/ml-ssd
Ревью: https://arxiviq.substack.com/p/embarrassingly-simple-self-distillation
# TL;DR
ЧТО сделали: Исследователи представили Simple Self-Distillation (SSD) — метод post-training, при котором языковая модель делает файнтюнинг на своих собственных сырых, непровалидированных аутпутах. Генерируя семплы с определёнными настройками температуры и транкации и напрямую оптимизируя cross-entropy лосс на этих таргетах, модель достигает огромного прироста качества безо всякого обучения с подкреплением (RL), верификаторов или более сильной модели-учителя.
ПОЧЕМУ это важно: Работа фундаментально оспаривает идею, что для улучшения языковой модели нужны высококачественные внешние данные или сложные песочницы для исполнения кода. Исследователи показали, что непровалидированные, а порой и вовсе лишённые смысла сгенерированные данные могут реорганизовать внутренние распределения вероятностей модели. Это устраняет структурные конфликты при декодировании и предлагает отлично масштабируемую, вычислительно дешёвую альтернативу текущим парадигмам AI alignment и рассуждающих моделей.
Для практиков: Исторически главным узким местом для команд, создающих ИИ-ассистентов для программирования, была генерация провалидированных синтетических данных или нестабильность RL. Статья доказывает, что скрытые способности генерации кода можно раскрыть, просто эксплуатируя геометрию распределения самой модели. SSD извлекает сигнал не из «правильности» данных, а из того, как сдвиг температуры при семплировании заставляет модель математически подавлять токены-дистракторы в строгих синтаксических конструкциях, сохраняя при этом разнообразие в критических точках ветвления алгоритма.
Самодистиллировать тут: https://t.me/gonzo_ML_podcasts/3075
Embarrassingly Simple Self-Distillation Improves Code Generation
Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang
Статья: https://arxiv.org/abs/2604.01193v1
Репа: https://github.com/apple/ml-ssd
Ревью: https://arxiviq.substack.com/p/embarrassingly-simple-self-distillation
# TL;DR
ЧТО сделали: Исследователи представили Simple Self-Distillation (SSD) — метод post-training, при котором языковая модель делает файнтюнинг на своих собственных сырых, непровалидированных аутпутах. Генерируя семплы с определёнными настройками температуры и транкации и напрямую оптимизируя cross-entropy лосс на этих таргетах, модель достигает огромного прироста качества безо всякого обучения с подкреплением (RL), верификаторов или более сильной модели-учителя.
ПОЧЕМУ это важно: Работа фундаментально оспаривает идею, что для улучшения языковой модели нужны высококачественные внешние данные или сложные песочницы для исполнения кода. Исследователи показали, что непровалидированные, а порой и вовсе лишённые смысла сгенерированные данные могут реорганизовать внутренние распределения вероятностей модели. Это устраняет структурные конфликты при декодировании и предлагает отлично масштабируемую, вычислительно дешёвую альтернативу текущим парадигмам AI alignment и рассуждающих моделей.
Для практиков: Исторически главным узким местом для команд, создающих ИИ-ассистентов для программирования, была генерация провалидированных синтетических данных или нестабильность RL. Статья доказывает, что скрытые способности генерации кода можно раскрыть, просто эксплуатируя геометрию распределения самой модели. SSD извлекает сигнал не из «правильности» данных, а из того, как сдвиг температуры при семплировании заставляет модель математически подавлять токены-дистракторы в строгих синтаксических конструкциях, сохраняя при этом разнообразие в критических точках ветвления алгоритма.
Самодистиллировать тут: https://t.me/gonzo_ML_podcasts/3075
arXiv.org
Embarrassingly Simple Self-Distillation Improves Code Generation
Can a large language model (LLM) improve at code generation using only its own raw outputs, without a verifier, a teacher model, or reinforcement learning? We answer in the affirmative with simple...
1❤8✍5🗿4👍2💩1
Зачем агентам нужна интуитивная физика.
Grounding Social Perception in Intuitive Physics
_Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu_
Статья: https://arxiv.org/abs/2603.27410v1
Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive
Код: https://osf.io/fkp5m/
# TL;DR
ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием.
ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ.
Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов.
Получать интуицию тут: https://t.me/gonzo_ML_podcasts/3088
Grounding Social Perception in Intuitive Physics
_Lance Ying, Aydan Y. Huang, Aviv Netanyahu, Andrei Barbu, Boris Katz, Joshua B. Tenenbaum, Tianmin Shu_
Статья: https://arxiv.org/abs/2603.27410v1
Ревью: https://arxiviq.substack.com/p/grounding-social-perception-in-intuitive
Код: https://osf.io/fkp5m/
# TL;DR
ЧТО сделали: Авторы представили PHASE — датасет из 500 процедурно сгенерированных анимаций взаимодействий 2D-агентов на основе физики. Также они предложили SIMPLE — вычислительный фреймворк, который предсказывает социальные цели и отношения агентов, объединяя прямой физический движок с байесовским обратным планированием.
ПОЧЕМУ это важно: Текущие SOTA vision-language модели (VLM) и графовые нейросети часто ошибаются в интерпретации сложных социальных взаимодействий (например, путают соревнование с сотрудничеством), так как воспринимают социальное восприятие просто как поиск визуальных паттернов. Работа показывает, что подход «анализа через синтез», опирающийся на физические ограничения, позволяет достичь уровня человеческого восприятия, предлагая масштабируемый путь к надёжному физическому и социальному здравому смыслу у ИИ.
Для практиков: Чтобы ИИ-системы безопасно и разумно действовали в общих физических пространствах, они должны понимать человеческие намерения. Вывод намерений требует не просто маппинга визуальных фичей в социальные метки, а симуляции физических ограничений, в которых действуют агенты. Явное объединение интуитивной психологии (theory of mind) с интуитивной физикой (разрешение сил и коллизий) позволяет модели точно восстанавливать скрытые ментальные состояния по наблюдаемым траекториям. Это подсвечивает стратегическое узкое место чисто feedforward архитектур и валидирует генеративную симуляцию как критически важный путь для продвинутого ризонинга агентов.
Получать интуицию тут: https://t.me/gonzo_ML_podcasts/3088
arXiv.org
Grounding Social Perception in Intuitive Physics
People infer rich social information from others' actions. These inferences are often constrained by the physical world: what agents can do, what obstacles permit, and how the physical actions of...
🔥3👌2👍1👏1
Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес инженерной мысли из музея транспорта в Ковентри. Рекордсмены среди самых быстрых машин, которые ещё ездят по земле.
Thrust2 (https://en.wikipedia.org/wiki/Thrust2) -- реактивная машина с турбиной от Роллс-Ройс, в 1983-м установила рекорд скорости в 1,047.49 км/ч. Рекорд продержался до 1997 года.
ThrustSSC (https://en.wikipedia.org/wiki/ThrustSSC) -- сверхзвуковой автомобиль уже с двумя турбореактивными двигателями, сместивший в 1997-м с пьедестала своего предшественника, Thrust2. Теперь уже со скоростью 1.02 Маха (1,228 км/ч). Вроде как единственный наземный автомобиль, преодолевший скорость звука.
Я думал они меньше по размеру.
Thrust2 (https://en.wikipedia.org/wiki/Thrust2) -- реактивная машина с турбиной от Роллс-Ройс, в 1983-м установила рекорд скорости в 1,047.49 км/ч. Рекорд продержался до 1997 года.
ThrustSSC (https://en.wikipedia.org/wiki/ThrustSSC) -- сверхзвуковой автомобиль уже с двумя турбореактивными двигателями, сместивший в 1997-м с пьедестала своего предшественника, Thrust2. Теперь уже со скоростью 1.02 Маха (1,228 км/ч). Вроде как единственный наземный автомобиль, преодолевший скорость звука.
Я думал они меньше по размеру.
🤯7❤3