NVIDIA представила семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Сложный трехступенчатый процесс обучения моделей Llama позволил улучшить их точность на 20% при достижении в 5 раз большей скорости инференса. Llama Nemotron специализированы для задач математики, программирования, рассуждений и принятия сложных решений.
Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.
Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.
На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.
Модели доступны на build.nvidia.com и Hugging Face.
#StateoftheArt
Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.
Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.
На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.
Модели доступны на build.nvidia.com и Hugging Face.
#StateoftheArt
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустил версию Claude for Education, разработанную специально для внедрения в университетах. Learning mode использует сократовский метод диалога, задавая уточняющие и наводящие вопросы и помогая студентам развивать критическое мышление.
Модель обучена на наборах диалогов студентов и преподавателей. Функция вознаграждения стимулирует генерацию наводящих вопросов вместо прямых ответов. Сначала модель выполняет стандартное предсказание ответа, затем включается дополнительный классификатор, определяющий, следует ли трансформировать ответ в сократический формат. Если да, активируется сеть переформулирования, которая превращает прямой ответ в серию наводящих вопросов.
В модели используется расширенный chain-of-thought промптинг с явной токенизацией промежуточных шагов рассуждения. Это позволяет модели в деталях демонстрировать процесс решения.
Northeastern University в Бостоне стал первым партнером Anthropic: внедрение охватывает все 13 кампусов и обеспечивает доступ к Claude для 50 000 студентов, преподавателей и сотрудников. Компания запустила программу Campus Ambassadors для студентов, желающих использовать Claude в своих кампусах, и предлагает API-кредиты для студенческих проектов.
#AIapps
Модель обучена на наборах диалогов студентов и преподавателей. Функция вознаграждения стимулирует генерацию наводящих вопросов вместо прямых ответов. Сначала модель выполняет стандартное предсказание ответа, затем включается дополнительный классификатор, определяющий, следует ли трансформировать ответ в сократический формат. Если да, активируется сеть переформулирования, которая превращает прямой ответ в серию наводящих вопросов.
В модели используется расширенный chain-of-thought промптинг с явной токенизацией промежуточных шагов рассуждения. Это позволяет модели в деталях демонстрировать процесс решения.
Northeastern University в Бостоне стал первым партнером Anthropic: внедрение охватывает все 13 кампусов и обеспечивает доступ к Claude для 50 000 студентов, преподавателей и сотрудников. Компания запустила программу Campus Ambassadors для студентов, желающих использовать Claude в своих кампусах, и предлагает API-кредиты для студенческих проектов.
#AIapps
Стартап Аватар Машина выпустил Fractal TechDocs - ИИ-ассистента для строителей, инженеров, архитекторов и проектировщиков для работы с нормативными документами на русском языке: ГОСТы, СП, СНиПы. Модель работает в закрытом контуре без риска утечки данных.
Fractal TechDocs поддерживает три режима ответов:
- Обычный ответ – типовой graph-RAG c краткими ответами и выдержками из документа;
- Ответ с размышлением – агент для развернутого анализа с учетом нескольких параметров, например, требований к пожарной безопасности для разных групп мобильности;
- Глубокое размышление – агент для больших отчетов по десяткам файлов, сравнение данных и детальным, структурным выводом.
Размер файлов ограничен 30мб или 500к слов, без ограничения на количество файлов. Поддерживаются текстовые форматы: doc, docx. pdf, ppt, txt и другие, анализируются изображения внутри документов.
TechDocs выпущен в статусе публичной беты, доступ полностью бесплатный.
#AIapps
Fractal TechDocs поддерживает три режима ответов:
- Обычный ответ – типовой graph-RAG c краткими ответами и выдержками из документа;
- Ответ с размышлением – агент для развернутого анализа с учетом нескольких параметров, например, требований к пожарной безопасности для разных групп мобильности;
- Глубокое размышление – агент для больших отчетов по десяткам файлов, сравнение данных и детальным, структурным выводом.
Размер файлов ограничен 30мб или 500к слов, без ограничения на количество файлов. Поддерживаются текстовые форматы: doc, docx. pdf, ppt, txt и другие, анализируются изображения внутри документов.
TechDocs выпущен в статусе публичной беты, доступ полностью бесплатный.
#AIapps
🚀 Post-Trade Researcher в Wunder Fund
💰 $4,000–$6,000 на руки
🏠 Удалёнка, релокация по желанию
Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.
Сейчас ищем ресёрчера, который поможет делать наш симулятор биржи максимально реалистичным.
🧠 Что делать
• Искать аномалии в данных и метриках торговых стратегий
• Разбираться в расхождениях между симуляцией и реальностью
• Исследовать инциденты из прода, дебажить, докапываться до корня
🔍 Как узнать себя в этой роли
• Обожаешь данные и любишь пристально в них вглядываться
• Сам берешь задачи под контроль и доводишь до завершения
• Работаешь с Python, pandas, Linux, SQL
• Будет плюсом: C++, Kaggle, ШАД, опыт работы с биржевыми данными
🏝 Условия: Удалёнка, помощь с ВНЖ и отсрочкой. Два раза в год собираемся на корп. вилле (Бали, Тай и т.д.)
Платим $4-6k на руки любым удобным способом.
💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io
💰 $4,000–$6,000 на руки
🏠 Удалёнка, релокация по желанию
Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.
Сейчас ищем ресёрчера, который поможет делать наш симулятор биржи максимально реалистичным.
🧠 Что делать
• Искать аномалии в данных и метриках торговых стратегий
• Разбираться в расхождениях между симуляцией и реальностью
• Исследовать инциденты из прода, дебажить, докапываться до корня
🔍 Как узнать себя в этой роли
• Обожаешь данные и любишь пристально в них вглядываться
• Сам берешь задачи под контроль и доводишь до завершения
• Работаешь с Python, pandas, Linux, SQL
• Будет плюсом: C++, Kaggle, ШАД, опыт работы с биржевыми данными
🏝 Условия: Удалёнка, помощь с ВНЖ и отсрочкой. Два раза в год собираемся на корп. вилле (Бали, Тай и т.д.)
Платим $4-6k на руки любым удобным способом.
💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io
This media is not supported in your browser
VIEW IN TELEGRAM
MedSAM2 - модель сегментации медицинских 3D-изображений и видео, построенная на базе модели SAM2.1-Tiny. MedSAM2 - полностью открытая модель: исследователи выложили код, веса модели и аннотированные датасеты на Github и HF.
Модель использует иерархический трансформер (Hiera) с модулем внимания памяти, потоковый "банк" памяти, который обусловливает признаки текущего кадра на основе предсказаний предыдущих кадров и подход transfer-learning с дифференцированными скоростями обучения.
MedSAM2 превосходит SOTA модели EfficientMedSAM-Top1 на 5-13%, SAM2.1 на 7-18% в задачах сегментации 3D-сканов и на 2-9% для видео.
Возможно, наибольший вклад MedSAM2 – это ее практическое применение в аннотации данных. Исследователи реализовали пайплайн аннотации с человеком в цикле (human-in-the-loop), сократив время аннотации для:
- снимков КТ с 525.9 секунд до 74.3 секунд на поражение (на 86%);
- поражений печении на МРТ - на 87%;
- видео эхокардиографии - на 92%.
#Stateoftheart
Модель использует иерархический трансформер (Hiera) с модулем внимания памяти, потоковый "банк" памяти, который обусловливает признаки текущего кадра на основе предсказаний предыдущих кадров и подход transfer-learning с дифференцированными скоростями обучения.
MedSAM2 превосходит SOTA модели EfficientMedSAM-Top1 на 5-13%, SAM2.1 на 7-18% в задачах сегментации 3D-сканов и на 2-9% для видео.
Возможно, наибольший вклад MedSAM2 – это ее практическое применение в аннотации данных. Исследователи реализовали пайплайн аннотации с человеком в цикле (human-in-the-loop), сократив время аннотации для:
- снимков КТ с 525.9 секунд до 74.3 секунд на поражение (на 86%);
- поражений печении на МРТ - на 87%;
- видео эхокардиографии - на 92%.
#Stateoftheart
Исследователи из Tencent опубликовали DeepMath-103K - крупный математический датасет для обучения с подкреплением продвинутых моделей рассуждения. Проект опубликован на Github.
DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.
Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.
Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.
#Dataset
DeepMath-103K содержит 103 тысячи математических задач, из которых 95к — отборные сложные задачи, и 8к задач средней сложности. Каждая задача имеет проверяемый окончательный ответ и три пути решения, сгенерированных Deepseek R1, что позволяет поддерживать разные методы обучения: supervised fine-tuning, reward modeling и model distillation. Набор данных был очищен от пересечений с популярными тестовыми наборами: MATH, AIME, AMC, Minerva Math и OlympiadBench.
Qwen2.5-7B-Base, обученная на DeepMath-103K, улучшила точность с 54,8% до 85,5% на на MATH500, на AIME24 с 7,7% до 20,4%. Точность ответов в задачах из олимпиад по математике улучшились с 27,8% до 51,0%.
Создание набора данных стоило исследователям $138 000 на API-кредиты GPT-4o и 127 000 часов работы GPU H20.
#Dataset
This media is not supported in your browser
VIEW IN TELEGRAM
Инженер по машинному обучению без сильной теоретической и практической базы — как нейросеть без данных: не обучается
Если вы хотите попасть в категорию high-level инженеров по машинному обучению — рекомендуем свежий подкаст на MLinside с Алексеем Толстиковым, руководителем ШАДа Яндекса.
ШАД — это точка входа в профессию через глубокие знания, отбор и постоянную работу над собой.
Выпускники становятся авторами исследований, работают в международных научных центрах, запускают собственные стартапы, разрабатывают ИИ-продукты, которыми пользуются миллионы.
В выпуске:
– почему ШАД — это не просто школа, а катализатор карьеры;
– как устроен отбор: задачи, интервью, альтернативный трек;
– как не слиться на экзамене и зачем читать Зорича.
🎧 Подкаст
Если вы хотите попасть в категорию high-level инженеров по машинному обучению — рекомендуем свежий подкаст на MLinside с Алексеем Толстиковым, руководителем ШАДа Яндекса.
ШАД — это точка входа в профессию через глубокие знания, отбор и постоянную работу над собой.
Выпускники становятся авторами исследований, работают в международных научных центрах, запускают собственные стартапы, разрабатывают ИИ-продукты, которыми пользуются миллионы.
В выпуске:
– почему ШАД — это не просто школа, а катализатор карьеры;
– как устроен отбор: задачи, интервью, альтернативный трек;
– как не слиться на экзамене и зачем читать Зорича.
🎧 Подкаст
Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая в задачах рассуждения показывает результаты на уровне DeepSeek-R1 (671B параметров), и превосходит o1-mini и DeepSeek-R1-Distill-Llama-70B на большинстве бенчмарков. Модель доступна через репозиторий Microsoft на HF, а в GitHub Models можно протестировать ее в playground или интегрировать через GitHub API.
Phi-4-reasoning сохранила архитектуру базовой модели Phi-4, с двумя ключевыми модификациями. Команда назначила плейсхолдер-токены в виде маркеров <think> и </think> для разграничения секций рассуждения, позволяя модели явно отделять процесс мышления от финального ответа. Длина контекста расширена с 16K до 32K токенов, что предоставило пространство для развёрнутых цепочек рассуждений.
Для обучения модели команда тщательно отобрала более 1,4 миллиона пар "запрос-ответ», сосредоточившись на задачах, требующих многоэтапного рассуждения, а не простого воспроизведения фактов. Улучшения в способностях к рассуждению распространились за пределы специализированных задач и усилили общий интеллект модели.
#Stateoftheart
Phi-4-reasoning сохранила архитектуру базовой модели Phi-4, с двумя ключевыми модификациями. Команда назначила плейсхолдер-токены в виде маркеров <think> и </think> для разграничения секций рассуждения, позволяя модели явно отделять процесс мышления от финального ответа. Длина контекста расширена с 16K до 32K токенов, что предоставило пространство для развёрнутых цепочек рассуждений.
Для обучения модели команда тщательно отобрала более 1,4 миллиона пар "запрос-ответ», сосредоточившись на задачах, требующих многоэтапного рассуждения, а не простого воспроизведения фактов. Улучшения в способностях к рассуждению распространились за пределы специализированных задач и усилили общий интеллект модели.
#Stateoftheart
ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%
ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Cвежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.
Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.
В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.
Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.
#StateoftheArt
ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Cвежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.
Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.
В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.
Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.
#StateoftheArt
NVIDIA представила обновления экосистемы Isaac для разработки роботов: генерацию синтетических сред с продвинутой физикой и усовершенствованное тестирование моделей на всех этапах разработки.
Isaac Sim 5.0 будет доступен на GitHub до конца квартала. Интеграция с сервисом NVIDIA Brev, рынком облачных провайдеров GPU, позволит разработчикам найти наиболее подходящего по соотношению цены и качества. Обучение на облачных GPU Nvidia ускорит циклы итераций благодаря развертыванию в один клик.
Улучшена симуляция датчиков глубины и моделирование шума для стереокамер, чтобы карты глубины с шумовыми характеристики были аналогичны данным с реальных сенсоров.
Обновленное моделирование трения в «суставах» роботов, определенное через OpenUSD, дает более точную симуляцию движений роботов в реальном мире.
Agility Robotics, Boston Dynamics, Fourier уже используют эти технологии Nvidia для обучения роботов.
#Stateoftheart
Isaac Sim 5.0 будет доступен на GitHub до конца квартала. Интеграция с сервисом NVIDIA Brev, рынком облачных провайдеров GPU, позволит разработчикам найти наиболее подходящего по соотношению цены и качества. Обучение на облачных GPU Nvidia ускорит циклы итераций благодаря развертыванию в один клик.
Улучшена симуляция датчиков глубины и моделирование шума для стереокамер, чтобы карты глубины с шумовыми характеристики были аналогичны данным с реальных сенсоров.
Обновленное моделирование трения в «суставах» роботов, определенное через OpenUSD, дает более точную симуляцию движений роботов в реальном мире.
Agility Robotics, Boston Dynamics, Fourier уже используют эти технологии Nvidia для обучения роботов.
#Stateoftheart
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах
Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.
Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.
На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.
Код доступен на Github.
#Stateoftheart
Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.
Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги
<think>
, <search>
, <code>
и <answer>
. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.
На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.
Код доступен на Github.
#Stateoftheart
Работаете с ML?
Наверняка вам знакома ситуация, когда проведение простого эксперимента превращается в неэффективный и дорогой процесс. Неподходящая или “собранная вручную” инфраструктура, отсутствие трекинга и логирования, разрозненные окружения и пайплайны…
Решения Selectel для ваших ML-задач помогут справиться с этими проблемами:
▪️ Серверы с разными типами GPU под конкретные задачи — выделенные и облачные, с видеокартами NVIDIA (Tesla T4, A2, A30, A100, A2000, A5000);
▪️Готовые серверы с набором преднастроенных инструментов для ML и анализа данных;
▪️ ML- и Inference- платформы — быстрое обучение и развертывание моделей в несколько кликов.
Инфраструктура размещена в России: низкие задержки, поддержка на русском языке, соответствие 152-ФЗ.
Если хотите выстроить инфраструктуру для ML на базе публичного облака Selectel, перенесите свой проект в Selectel и получите до 30 000 бонусов на тестирование облачных сервисов в течение месяца.
Регистрируйтесь по ссылке
Реклама, АО «Селектел», ИНН 7810962785, erid:2VtzqvinKoa
Наверняка вам знакома ситуация, когда проведение простого эксперимента превращается в неэффективный и дорогой процесс. Неподходящая или “собранная вручную” инфраструктура, отсутствие трекинга и логирования, разрозненные окружения и пайплайны…
Решения Selectel для ваших ML-задач помогут справиться с этими проблемами:
▪️ Серверы с разными типами GPU под конкретные задачи — выделенные и облачные, с видеокартами NVIDIA (Tesla T4, A2, A30, A100, A2000, A5000);
▪️Готовые серверы с набором преднастроенных инструментов для ML и анализа данных;
▪️ ML- и Inference- платформы — быстрое обучение и развертывание моделей в несколько кликов.
Инфраструктура размещена в России: низкие задержки, поддержка на русском языке, соответствие 152-ФЗ.
Если хотите выстроить инфраструктуру для ML на базе публичного облака Selectel, перенесите свой проект в Selectel и получите до 30 000 бонусов на тестирование облачных сервисов в течение месяца.
Регистрируйтесь по ссылке
Реклама, АО «Селектел», ИНН 7810962785, erid:2VtzqvinKoa
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны для взаимодействия между ними.
Agents API включает пять встроенных коннекторов: для генерации изображений и кода на Python, работы с документами, веб-поиска и интеграции в внешними системами через MCP-протокол.
Примеры реализации агентов: агент-программист с интеграцией GitHub для автоматизированной разработки, агент-аналитик для извлечения метрик и компиляции отчетов, турагент для планирования поездок, агент-нутрициолог для управления диетой.
Передача задач между агентами позволяет решать сложные задачи через координацию нескольких агентов. Например, финансовый агент передает задачу поиска данных веб-агенту, а затем получает результаты обратно для анализа.
Цены: Mistral Medium 3 — $0.4/$2 за миллион input/output токенов, Web Search и Code Execution — $30 за 1,000 вызовов, Image Generation — $100 за 1,000 изображений.
#Development
Agents API включает пять встроенных коннекторов: для генерации изображений и кода на Python, работы с документами, веб-поиска и интеграции в внешними системами через MCP-протокол.
Примеры реализации агентов: агент-программист с интеграцией GitHub для автоматизированной разработки, агент-аналитик для извлечения метрик и компиляции отчетов, турагент для планирования поездок, агент-нутрициолог для управления диетой.
Передача задач между агентами позволяет решать сложные задачи через координацию нескольких агентов. Например, финансовый агент передает задачу поиска данных веб-агенту, а затем получает результаты обратно для анализа.
Цены: Mistral Medium 3 — $0.4/$2 за миллион input/output токенов, Web Search и Code Execution — $30 за 1,000 вызовов, Image Generation — $100 за 1,000 изображений.
#Development
Исследователи Microsoft опубликовали On-Policy RL with Optimal reward baseline (OPO) - метод обучения с подкреплением на основе человеческих предпочтений, который решает проблемы современных RL-моделей: генерация однообразных ответов, непредсказуемые изменения между обновлениями и снижение производительности. Код этого упрощенного агортима выравнивания выложен на Github.
On-policy принцип означает, что градиенты вычисляются на данных, собранных текущей политикой, то есть формулой вероятностного распределения, которую модель назначает ответам y для выхода x. Слабые on-policy ограничения приводят к использованию данных от предыдущих версий политики, что технически делает обучение off-policy. В результате модель генерирует очень похожие, однообразные ответы, слишком резко меняет свое поведение между обновлениями и даже ухудшает свои исходные способности.
Стандартный пайплайн RLHF включает контролируемое дообучение и часто использует алгоритм Proximal Policy Optimization (PPO), управляемый обученной моделью вознаграждения. В отличие от PPO, который собирает батч данных с текущей политикой и затем выполняет множественные обновления градиентов на этом фиксированном батче, строгое on-policy обучение гарантирует, что каждый шаг градиента вычисляется с использованием свежих данных, сэмплированных с текущей политики.
Также команда разработала математически оптимальный бейзлайн, который минимизирует дисперсию градиента.
Строгое on-policy обучение превзошло обучение off-policy (55.42% против 53.50% на AIME 2024), демонстрируя при этом более стабильную, эффективную динамику обучения с меньшими повторениями и большим разнообразием ответов.
#StateoftheArt
On-policy принцип означает, что градиенты вычисляются на данных, собранных текущей политикой, то есть формулой вероятностного распределения, которую модель назначает ответам y для выхода x. Слабые on-policy ограничения приводят к использованию данных от предыдущих версий политики, что технически делает обучение off-policy. В результате модель генерирует очень похожие, однообразные ответы, слишком резко меняет свое поведение между обновлениями и даже ухудшает свои исходные способности.
Стандартный пайплайн RLHF включает контролируемое дообучение и часто использует алгоритм Proximal Policy Optimization (PPO), управляемый обученной моделью вознаграждения. В отличие от PPO, который собирает батч данных с текущей политикой и затем выполняет множественные обновления градиентов на этом фиксированном батче, строгое on-policy обучение гарантирует, что каждый шаг градиента вычисляется с использованием свежих данных, сэмплированных с текущей политики.
Также команда разработала математически оптимальный бейзлайн, который минимизирует дисперсию градиента.
Строгое on-policy обучение превзошло обучение off-policy (55.42% против 53.50% на AIME 2024), демонстрируя при этом более стабильную, эффективную динамику обучения с меньшими повторениями и большим разнообразием ответов.
#StateoftheArt