В статье исследуется применение обучения с подкреплением (RL) к большим языковым моделям (LLMs) улучшает их способность решать сложные задачи программирования и рассуждений. Авторы сравнивают три модели: общую модель o1, её специализированную версию o1-ioi (адаптированную для соревнований IOI) и более продвинутую модель o3.
Модель o1 значительно превосходит модели без цепочек рассуждений (например, gpt-4o) по показателям на платформе CodeForces.
Специализированная o1-ioi, оптимизированная для соревнований IOI, показывает хорошие результаты с ручными стратегиями, но её успех зависит от дополнительной настройки и тестовых стратегий.
Модель o3, обученная только с RL и без доменно-специфичных стратегий, демонстрирует ещё более высокую производительность, достигая результатов на уровне элитных программистов мира как на CodeForces, так и на IOI.
Применение в реальных задачах:
Масштабирование RL для общего использования, а не применение специализированных ручных стратегий, является эффективным путём достижения передового уровня ИИ в задачах рассуждения и программирования.
Статья
Тред
Релиз состоится 18 февраля в 04:00 (GMT+3). Похоже, что Grok-3 выйдет с режимом рассуждений.
выпустили новую очень сложную оценку рассуждений LLM:
EnigmaEval: 1184 мультимодальные головоломки, настолько сложные, что на их решение группам людей требуется от многих часов до нескольких дней.
Все топ-модели набрали 0% в Hard set и < 10% в Normal set
Scale
От оценки позы до обнаружения объектов в реальном времени - свежие, передовые инструменты компьютерного зрения на Hugging Face, которые очень просты в использовании.
- ViTPose для оценки позы
- RT-DETRv2 для обнаружения объектов в реальном времени
- DAB-DETR улучшает оригинальный DETR, решая проблемы медленного обучения
- DepthPro от Apple для оценки глубины на одном изображении, выдавая расстояния на уровне пикселей в метрах менее чем за секунду.
Свежий инструмент, который представляет собой готовое решение для создания десктопного GUI-агента. С его помощью можно отдавать команды и автоматизировать задачи на ПК (Windows и macOS) через веб-интерфейс, доступный с любого устройства с интернетом.
Github
@ai_machinelearning_big_data
#news #ai #ml #openai #grok #grok3 #Microsoft #ScaleAI #elonmusk #cv #sota #opensource #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сейчас он доступен всем «пока серверы не рухнут», так что самое время протестировать его в деле
Вот главное:
- Вышло два варианта модели: Grok‑3 mini и полноразмерный Grok‑3.
- Беспрецедентные достижения: Первая модель, преодолевшая 1400 очков, и лидирует по всем категориям на арене.
- Режим рассуждений: Хотя базовая модель не «ризонинг», можно активировать режим рассуждений с двумя настройками –
«Thinking» и «Thinking Hard»
. Процесс рассуждения почти полностью прозрачен.- Выдающаяся производительность: На тестах Math24 hard Grok‑3 показывает результаты лучше, чем R1, o1 и даже o3‑mini high. AIME 24 — 52% [96% с обоснованием!]
GPQA —75% [85%]
Кодинг (LiveCodeBench) — 57% [80%].
- На бенчмарках версия mini сравнима с DeepSeek 3, GPT‑4o и Gemini Pro.
- Новый агент Deep (Re)search: Встроенный инструмент для быстрого интернет-поиска, кросс-валидации источников и корректировки плана, который на демонстрации справился всего за минуту.
https://x.com/i/grok
@ai_machinelearning_big_data
#grok #elonmusk #ai #ml #llm #reasoning #xAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый XChat теперь доступен с шифрованием, самоуничтожением сообщений, возможностью отправки любых типов файлов и поддержкой аудио- и видеозвонков.
Приложение создано на Rust и использует шифрование (как в Биткойн) и новую архитектуру.
А еще можно звонить без номера телефона.
https://x.com/elonmusk/status/1929238157872312773
@ai_machinelearning_big_data
#elonmusk #ai #news #ml #grok
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 xAI привлекает $5 млрд через выпуск облигаций + $300 млн через продажу акций при оценке в $113 млрд
Компания Илона Маска xAI проводит две крупные финансовые операции:
Выпуск долговых обязательств на $5 млрд и продажу акций на $300 млн .
Подробности:
🔹 Облигации ($5 млрд)
Выпуск организует Morgan Stanley.
Средства пойдут на общие корпоративные нужды — например, развитие технологий, инфраструктуры или покрытие издержек.
🔹 Продажа акций ($300 млн)
Это вторичная эмиссия — компания не выпускает новые акции, а позволяет сотрудникам продать свои доли инвесторам , получив ликвидность (то есть выручку за свой "старый" пакет).
🔹 Оценка компании — $113 млрд
Это почти в 3,5 раза выше внутренней стоимости X (бывшего Twitter), который был куплен за $33 млрд.
Маск делает ставку на финансовые рынки, чтобы ускорить развитие xAI — раньше, чем компания представит зрелые решения.
Такой агрессивный подход может быть рискованным, но типичен для амбициозных технологических проектов и самого Маска.
Посмотрим, сыграет ли ставка 🤑
https://www.reuters.com/business/musks-xai-seeks-113-billion-valuation-300-million-share-sale-ft-reports-2025-06-02/
@ai_machinelearning_big_data
#elonmusk #grok #xai
Компания Илона Маска xAI проводит две крупные финансовые операции:
Выпуск долговых обязательств на $5 млрд и продажу акций на $300 млн .
Подробности:
🔹 Облигации ($5 млрд)
Выпуск организует Morgan Stanley.
Средства пойдут на общие корпоративные нужды — например, развитие технологий, инфраструктуры или покрытие издержек.
🔹 Продажа акций ($300 млн)
Это вторичная эмиссия — компания не выпускает новые акции, а позволяет сотрудникам продать свои доли инвесторам , получив ликвидность (то есть выручку за свой "старый" пакет).
🔹 Оценка компании — $113 млрд
Это почти в 3,5 раза выше внутренней стоимости X (бывшего Twitter), который был куплен за $33 млрд.
Маск делает ставку на финансовые рынки, чтобы ускорить развитие xAI — раньше, чем компания представит зрелые решения.
Такой агрессивный подход может быть рискованным, но типичен для амбициозных технологических проектов и самого Маска.
Посмотрим, сыграет ли ставка 🤑
https://www.reuters.com/business/musks-xai-seeks-113-billion-valuation-300-million-share-sale-ft-reports-2025-06-02/
@ai_machinelearning_big_data
#elonmusk #grok #xai