This media is not supported in your browser
VIEW IN TELEGRAM
🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
❤15💩14🔥2🥰1🤡1
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
🗓 Регистрация: https://cnrlink.com/ecup25datamath
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25datamath
Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥
Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.
Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
Регистрация на платформе Codenrock: https://cnrlink.com/ecup25datamath
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
🧠 Джон фон Нейман — математик, инженер, создатель теории игр и один из отцов современного компьютера.
Но его история началась ещё до школы:
— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине
Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
Но его история началась ещё до школы:
— В 6 лет он бегло говорил на 8 языках, включая латинский и древнегреческий
— В уме делил восьмизначные числа
— В 8 лет освоил дифференциальное и интегральное исчисление
— В 15 поступил в Университет Будапешта
— В 19 стал инженером‑химиком
— В 22 — защитил PhD по математике в Берлине
Гений не только теоретический: он стал одним из архитекторов вычислительной эпохи.
❤27👍20🔥6🥰1
Forwarded from Machinelearning
OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):
Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.
Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.
Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.
@ai_machinelearning_big_data
#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2🥰1😁1
⚛️ Краткая история квантовой физики в одном посте✍️
1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.
🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
1900 — Planck вводит квантовую гипотезу: энергия излучается дискретно.
1905 — Эйнштейн объясняет фотоэффект через "кванты света" (фотоны).
1924 — де Бройль: частицы могут вести себя как волны.
1925 — Гейзенберг формулирует матричную механику — первую версию КМ.
1926 — Шрёдингер создаёт уравнение волновой функции.
1927 — Принцип неопределённости: нельзя точно измерить и импульс, и координату.
1928 — Дирак объединяет квантовую механику и релятивизм, предсказывает антиматерию.
1935 — Парадокс ЭПР: квантовая механика вроде бы "неполна".
1947 — Фейнман, Швингер и Томонага создают Квантовую Электродинамику (QED).
1954 — Ян и Миллс вводят неабелевы калибровочные теории → фундамент QCD.
1961 — Глэшоу объединяет электромагнитное и слабое взаимодействие.
1964 — Белл формулирует теорему: запутанность нельзя объяснить скрытыми переменными.
1964 — Гелл-Манн и Цвейг предлагают кварковую модель.
1973 — Гросс, Вильчек и Полицер открывают "асимптотическую свободу" в QCD.
1979 — Нобелевка: Глэшоу, Салам и Вайнберг за объединение взаимодействий.
1982 — Ален Аспе экспериментально подтверждает квантовую запутанность.
🔬 От кванта энергии — к Стандартной модели. За 80 лет квантовая физика изменила всё.
👍15🥰4❤🔥3❤2👎1🔥1
Forwarded from Machinelearning
Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:
Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.
Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:
Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.
Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .
На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.
На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.
@ai_machinelearning_big_data
#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍1🥰1
🎯 ЗАДАЧА: Восстановление распределения из агрегатов
У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:
| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |
Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*
Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.
💡 Разбор:
1️⃣ Генерация синтетических данных:
2️⃣ Проверка гипотезы:
3️⃣ Вывод:
Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.
В противном случае — различие незначимо.
🧠 Подвох:
Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.
Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.
📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.
🔍 Эта задача проверяет:
- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения
У вас есть CSV-файл, содержащий агрегированные данные по группам пользователей в виде:
| Группа | Среднее значение | Стандартное отклонение | Кол-во наблюдений |
|--------|------------------|-------------------------|--------------------|
| A | 50.0 | 10.0 | 100 |
| B | 60.0 | 15.0 | 80 |
| C | 55.0 | 12.0 | 120 |
Ваша задача: восстановить вероятностное распределение внутри каждой группы (на уровне отдельных наблюдений) и проверить гипотезу: *"Среднее значение в группе B статистически выше, чем в группе A, на уровне значимости 0.05."*
Условия:
- У вас нет сырых данных — только агрегаты.
- Вы должны сгенерировать выборки из нормального распределения на основе предоставленных параметров и выполнить статистический тест.
💡 Разбор:
1️⃣ Генерация синтетических данных:
import numpy as np
np.random.seed(42)
a = np.random.normal(loc=50, scale=10, size=100)
b = np.random.normal(loc=60, scale=15, size=80)
2️⃣ Проверка гипотезы:
from scipy.stats import ttest_ind
stat, p_value = ttest_ind(b, a, equal_var=False)
print(f"p-value = {p_value:.4f}")
3️⃣ Вывод:
Если p_value < 0.05, гипотеза подтверждается: группа B значимо выше по среднему.
В противном случае — различие незначимо.
🧠 Подвох:
Вы не знаете, что данные на самом деле НЕ обязательно нормально распределены.
Также важно понимать, что при генерации данных по агрегатам вы делаете допущение, что выборки соответствуют нормальным законам — что может быть неверно.
📌 Дополнительный уровень:
Проведите 1000 симуляций и постройте распределение p-value, чтобы оценить устойчивость вывода при варьирующихся выборках.
🔍 Эта задача проверяет:
- знание статистики и генерации данных
- навыки формулировки гипотез
- понимание ограничений моделирования из агрегатов
- умение мыслить критически и ставить под сомнение исходные допущения
🔥7❤5👍4
⚡️ Почему лучшие разработчики всегда на шаг впереди?
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Devops: t.me/DevOPSitsec
Базы данных: t.me/sqlhub
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🖥 Chatgpt для кода в тг: @Chatgpturbobot -
📕Ит-книги: https://t.me/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Devops: t.me/DevOPSitsec
Базы данных: t.me/sqlhub
Мл собес t.me/machinelearning_interview
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
МЛ: t.me/machinelearning_ru
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/java_library
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Физика: t.me/fizmat
SQL: t.me/databases_tg
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
📕Ит-книги: https://t.me/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии t.me/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👎1
📐 Aryabhata 1.0* — интересный пример open-source подхода и model merging в действии.
Это небольшая языковая модель на 7B параметров, обученная для решения задач по математике. Её разработала индийская edtech-компания PhysicsWallah.
🧩 Как создавали модель:
1️⃣ *Model merging на старте*
Взяли три open-source модели:
— Qwen 2.5‑Math‑7B
— AceMath‑7B
— DeepSeek‑R1‑Distill‑Qwen‑7B
Объединили их веса (weighted average) и получили Aryabhata 0.5 — начальную модель без дополнительного обучения, просто усреднив параметры. Это заняло всего пару минут GPU-времени.
2️⃣ *Собрали датасет из задач по математике*
Взяли 250 000 заданий из своей базы JEE-экзаменов, очистили от лишнего, оставив ~130 000 актуальных заданий (2019–2024).
3️⃣ *Создание обучающих данных через CoT*
Aryabhata 0.5 решала каждую задачу, генерируя 4 цепочки рассуждений. Сохранили только те, что дали правильный ответ. Получилось 100 000 задач и 350 000 корректных reasoning-трейсов.
4️⃣ *Файнтюнинг (SFT)*
На этих парах дообучили модель, чтобы она писала решения в стиле студенческих ответов по стандарту экзаменов JEE.
💻 Обучение провели на связке из двух NVIDIA H100.
🧠 В результате получилась Aryabhata 1.0 — компактная, но точно заточенная под реальные экзаменационные задачи модель.
https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0
Это небольшая языковая модель на 7B параметров, обученная для решения задач по математике. Её разработала индийская edtech-компания PhysicsWallah.
🧩 Как создавали модель:
1️⃣ *Model merging на старте*
Взяли три open-source модели:
— Qwen 2.5‑Math‑7B
— AceMath‑7B
— DeepSeek‑R1‑Distill‑Qwen‑7B
Объединили их веса (weighted average) и получили Aryabhata 0.5 — начальную модель без дополнительного обучения, просто усреднив параметры. Это заняло всего пару минут GPU-времени.
2️⃣ *Собрали датасет из задач по математике*
Взяли 250 000 заданий из своей базы JEE-экзаменов, очистили от лишнего, оставив ~130 000 актуальных заданий (2019–2024).
3️⃣ *Создание обучающих данных через CoT*
Aryabhata 0.5 решала каждую задачу, генерируя 4 цепочки рассуждений. Сохранили только те, что дали правильный ответ. Получилось 100 000 задач и 350 000 корректных reasoning-трейсов.
4️⃣ *Файнтюнинг (SFT)*
На этих парах дообучили модель, чтобы она писала решения в стиле студенческих ответов по стандарту экзаменов JEE.
💻 Обучение провели на связке из двух NVIDIA H100.
🧠 В результате получилась Aryabhata 1.0 — компактная, но точно заточенная под реальные экзаменационные задачи модель.
https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0
👍7❤5🔥3
🏅 Ещё одна золотая медаль для ИИ на Международной математической олимпиаде (IMO)!
Стартап Harmonic запустил чат‑бота Aristotle — ИИ, который получил золото на IMO‑2025, решая задачи в формализованном виде.
📱 Aristotle уже доступен в приложении (iOS и Android). Он не просто решает задачи — он гарантирует отсутствие галлюцинаций в своих ответах, потому что все решения формально проверяются.
🧠 Фокус модели — на задачах количественного мышления (математика, логика и т.д.)
💰 Harmonic недавно привлек $100M инвестиций и уже оценён в $875M. Их цель — создать математический суперинтеллект.
И да, основатель Harmonic — это CEO Robinhood Влад Тенев.
🔥 Прямо сейчас это, возможно, самый надёжный ИИ для точных наук.
Стартап Harmonic запустил чат‑бота Aristotle — ИИ, который получил золото на IMO‑2025, решая задачи в формализованном виде.
📱 Aristotle уже доступен в приложении (iOS и Android). Он не просто решает задачи — он гарантирует отсутствие галлюцинаций в своих ответах, потому что все решения формально проверяются.
🧠 Фокус модели — на задачах количественного мышления (математика, логика и т.д.)
💰 Harmonic недавно привлек $100M инвестиций и уже оценён в $875M. Их цель — создать математический суперинтеллект.
И да, основатель Harmonic — это CEO Robinhood Влад Тенев.
🔥 Прямо сейчас это, возможно, самый надёжный ИИ для точных наук.
👎5❤3🔥3🥰2
Получи грант до 1,65 млн ₽ на высшее образование в ведущем ИТ-университете по специальности «Безопасность информационных систем»
Стань белым хакером и начни зарабатывать 200к+ уже через 2 года обучения!
НЕЙМАРК — ИТ-университет нового поколения:
1) реальные стажировки в технологических гигантах: Яндекс, ВК, Сбер, Альфа-Банк и другие
2) возможность запустить стартап при поддержке наставников во время обучения
3) освоение криптографии, пентестинга, анализа уязвимостей, а также принципа разработки защищённого ПО
4) 2 диплома: НГТУ им. Алексеева и НЕЙМАРК
5) отсрочка от армии
6) суперсовременные общежития в центре города
Узнай, как учиться бесплатно в лучшем ИТ-университете НЕЙМАРК — переходи в бот и забирай инструкцию!
Реклама. НЕЙМАРК, УНИВЕРСИТЕТ НЕЙМАРК. ИНН 5256209106.
Стань белым хакером и начни зарабатывать 200к+ уже через 2 года обучения!
НЕЙМАРК — ИТ-университет нового поколения:
1) реальные стажировки в технологических гигантах: Яндекс, ВК, Сбер, Альфа-Банк и другие
2) возможность запустить стартап при поддержке наставников во время обучения
3) освоение криптографии, пентестинга, анализа уязвимостей, а также принципа разработки защищённого ПО
4) 2 диплома: НГТУ им. Алексеева и НЕЙМАРК
5) отсрочка от армии
6) суперсовременные общежития в центре города
Узнай, как учиться бесплатно в лучшем ИТ-университете НЕЙМАРК — переходи в бот и забирай инструкцию!
Реклама. НЕЙМАРК, УНИВЕРСИТЕТ НЕЙМАРК. ИНН 5256209106.
❤3
📈 Как повысить точность LLM в задачах по математике?
Новая статья показывает: если дать модели примеры на двух уровнях, можно поднять точность на 16% даже для моделей с 8B параметров.
🧠 Что делают авторы:
1. Разбивают задачу на 3 ключевых элемента: тип, ключевые термины и метод решения. Это называют "conceptual unit".
2. По ним находят похожие задачи с решениями — и вставляют в промпт.
3. Во время поиска (MCTS) модель на каждом шаге сравнивает своё решение с мини-базой реальных фрагментов решений.
4. Специальная reward-модель оценивает шаги и направляет дерево в сторону осмысленных решений.
📊 Результаты:
— LLaMA‑3.1‑8B: с 46.6% до 52.5% на OlympiadBench
— Qwen2‑7B: до 60.6%
— Прирост точности сохраняется при увеличении пула примеров, но время почти не растёт (+5%)
⚠️ Если убрать один из уровней (примеры до поиска или во время) — прирост снижается вдвое. Оба уровня работают только вместе.
📄 arxiv.org/abs/2507.05557
Новая статья показывает: если дать модели примеры на двух уровнях, можно поднять точность на 16% даже для моделей с 8B параметров.
🧠 Что делают авторы:
1. Разбивают задачу на 3 ключевых элемента: тип, ключевые термины и метод решения. Это называют "conceptual unit".
2. По ним находят похожие задачи с решениями — и вставляют в промпт.
3. Во время поиска (MCTS) модель на каждом шаге сравнивает своё решение с мини-базой реальных фрагментов решений.
4. Специальная reward-модель оценивает шаги и направляет дерево в сторону осмысленных решений.
📊 Результаты:
— LLaMA‑3.1‑8B: с 46.6% до 52.5% на OlympiadBench
— Qwen2‑7B: до 60.6%
— Прирост точности сохраняется при увеличении пула примеров, но время почти не растёт (+5%)
⚠️ Если убрать один из уровней (примеры до поиска или во время) — прирост снижается вдвое. Оба уровня работают только вместе.
📄 arxiv.org/abs/2507.05557
arXiv.org
Enhancing Test-Time Scaling of Large Language Models with...
Test-time scaling has emerged as a promising paradigm in language modeling, leveraging additional computational resources at inference time to enhance model performance. In this work, we introduce...
❤4👍2🔥2