Forwarded from Machinelearning
В статье исследуется применение обучения с подкреплением (RL) к большим языковым моделям (LLMs) улучшает их способность решать сложные задачи программирования и рассуждений. Авторы сравнивают три модели: общую модель o1, её специализированную версию o1-ioi (адаптированную для соревнований IOI) и более продвинутую модель o3.
Модель o1 значительно превосходит модели без цепочек рассуждений (например, gpt-4o) по показателям на платформе CodeForces.
Специализированная o1-ioi, оптимизированная для соревнований IOI, показывает хорошие результаты с ручными стратегиями, но её успех зависит от дополнительной настройки и тестовых стратегий.
Модель o3, обученная только с RL и без доменно-специфичных стратегий, демонстрирует ещё более высокую производительность, достигая результатов на уровне элитных программистов мира как на CodeForces, так и на IOI.
Применение в реальных задачах:
Масштабирование RL для общего использования, а не применение специализированных ручных стратегий, является эффективным путём достижения передового уровня ИИ в задачах рассуждения и программирования.
Статья
Тред
Релиз состоится 18 февраля в 04:00 (GMT+3). Похоже, что Grok-3 выйдет с режимом рассуждений.
выпустили новую очень сложную оценку рассуждений LLM:
EnigmaEval: 1184 мультимодальные головоломки, настолько сложные, что на их решение группам людей требуется от многих часов до нескольких дней.
Все топ-модели набрали 0% в Hard set и < 10% в Normal set
Scale
От оценки позы до обнаружения объектов в реальном времени - свежие, передовые инструменты компьютерного зрения на Hugging Face, которые очень просты в использовании.
- ViTPose для оценки позы
- RT-DETRv2 для обнаружения объектов в реальном времени
- DAB-DETR улучшает оригинальный DETR, решая проблемы медленного обучения
- DepthPro от Apple для оценки глубины на одном изображении, выдавая расстояния на уровне пикселей в метрах менее чем за секунду.
Свежий инструмент, который представляет собой готовое решение для создания десктопного GUI-агента. С его помощью можно отдавать команды и автоматизировать задачи на ПК (Windows и macOS) через веб-интерфейс, доступный с любого устройства с интернетом.
Github
@ai_machinelearning_big_data
#news #ai #ml #openai #grok #grok3 #Microsoft #ScaleAI #elonmusk #cv #sota #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Вот главное:
- Вышло два варианта модели: Grok‑3 mini и полноразмерный Grok‑3.
- Беспрецедентные достижения: Первая модель, преодолевшая 1400 очков, и лидирует по всем категориям на арене.
- Режим рассуждений: Хотя базовая модель не «ризонинг», можно активировать режим рассуждений с двумя настройками –
«Thinking» и «Thinking Hard»
. Процесс рассуждения почти полностью прозрачен.- Выдающаяся производительность: На тестах Math24 hard Grok‑3 показывает результаты лучше, чем R1, o1 и даже o3‑mini high. AIME 24 — 52% [96% с обоснованием!]
GPQA —75% [85%]
Кодинг (LiveCodeBench) — 57% [80%].
- На бенчмарках версия mini сравнима с DeepSeek 3, GPT‑4o и Gemini Pro.
- Новый агент Deep (Re)search: Встроенный инструмент для быстрого интернет-поиска, кросс-валидации источников и корректировки плана, который на демонстрации справился всего за минуту.
https://x.com/i/grok
@ai_machinelearning_big_data
#grok #elonmusk #ai #ml #llm #reasoning #xAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM