🧮 Модели решают математику… но не совсем
Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?
📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:
MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).
MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).
🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.
📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.
MATH-Perturb — отличный способ отделить память от мышления.
🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/
@data_math
Исследователи предложили новый бенчмарк — MATH-Perturb, чтобы проверить: языковые модели действительно "умеют" решать задачи по математике или просто запоминают шаблоны?
📌 Что сделали: Они взяли 279 самых сложных задач из датасета MATH (уровень 5) и создали две версии для каждой:
MATH-P-Simple — простая пертурбация (вопрос формулируется иначе, но суть и метод решения не меняется).
MATH-P-Hard — сложная пертурбация (незаметное изменение, которое требует другого метода решения и более глубокого понимания).
🧠 Что показали тесты: Модели легко решают оригинальные и "простые" пертурбированные задачи — даже если используют "шорткат-решения" (по сути, угадывают по шаблону).
Но на сложных пертурбациях они резко проваливаются. Шорткат больше не работает, и модель теряется.
📊 Вывод: Многие языковые модели, включая самые продвинутые, не понимают математику в глубоком смысле. Они подбирают шаблон, а не рассуждают.
MATH-Perturb — отличный способ отделить память от мышления.
🔗 Подробнее: https://arxiv.org/abs/2404.01649
🔗 Бенчмарк: https://math-perturb.github.io/
@data_math
Сейчас информация для тех, кто еще учится в вузе
Мы собрали большое комьюнити умных и образованных людей, среди которых точно есть те, кому нравится обучать точным наукам и программированию. И на своём опыте знаю, чего стоит поиск учеников, особенно если нет ресурсов, какими обладают онлайн-школы. А так как я придерживаюсь стратегии win-win, с радостью готов поделиться ресурсом, который поможет вам найти учеников уже сейчас:
Последний в этом году 3-х дневный концентрат от репетитора и студента факультета компьютерных наук из ВШЭ
За 5 лет репетиторства он разработал систему, которой пользуются все начинающие репетиторы, а действующие с её помощью сокращают время работы и увеличивают доход.
Его советам точно можно доверять. Не упустите эту возможность учиться у лучших в своем деле.
УЧАСТВОВАТЬ
Мы собрали большое комьюнити умных и образованных людей, среди которых точно есть те, кому нравится обучать точным наукам и программированию. И на своём опыте знаю, чего стоит поиск учеников, особенно если нет ресурсов, какими обладают онлайн-школы. А так как я придерживаюсь стратегии win-win, с радостью готов поделиться ресурсом, который поможет вам найти учеников уже сейчас:
Последний в этом году 3-х дневный концентрат от репетитора и студента факультета компьютерных наук из ВШЭ
За 5 лет репетиторства он разработал систему, которой пользуются все начинающие репетиторы, а действующие с её помощью сокращают время работы и увеличивают доход.
Его советам точно можно доверять. Не упустите эту возможность учиться у лучших в своем деле.
УЧАСТВОВАТЬ
Forwarded from Machinelearning
HiDream-I1 - генеративная модель text-to-imаge, разработанная китайской компанией HiDream, которая работает под брендом vivagoAI.
Модель получила 17 млрд. параметров и показывает высочайшее качество генерации изображений в фотореализме, анимационном и художественном стилях. Представлено 3 версии модели: Dev, Full и Fast.
Модель выпущена под лицензией MIT и уже заняла 1 место в GenAI-бенчмарках, обогнав предыдущего лидера, GPT-4o.
@ai_machinelearning_big_data
#news #ai #ml #HiDream #AImodel
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.
Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.
Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.
Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.
Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.
В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.
Модели доступны на Hugging Face в двух вариантах:
@ai_machinelearning_big_data
#AI #ML #VLM #KimiAI #MoonShotAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).
📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).
Каждая задача включает:
📌 Верифицируемый ответ — важно для обучения с подкреплением.
🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.
Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.
📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).
🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.
RLHF (reinforcement learning with human feedback) и self-improvement.
Дистилляция сильных моделей в более компактные.
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
Пределы_Предел_последовательности_Альсевич_2011.pdf
541.3 KB
Альсевич Л.А.
Пособие содержит основные теоретические сведения о последовательностях и их свойствах и предлагает основные приемы нахождения пределов последовательностей.
Изложение материала иллюстрируется подробно разобранными примерами. В пособие включены упражнения, снабженные ответами. Кроме того, приводятся начальные понятия о методе математической индукции и формула бинома Ньютона.
Предназначено для студентов факультета прикладной математики и информатики; оно будет также полезным для всех студентов, изучающих начальный курс высшей математики.
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 How to build a neutron star — from scratch» с блога James' Space Blog представляет собой подробное руководство по численному моделированию нейтронной звезды с нуля на С++.
🧠 Основные идеи статьи
🔬 Что такое нейтронная звезда?
Нейтронная звезда — это сверхплотный объект, образующийся после коллапса массивной звезды. Под действием огромного давления протоны и электроны объединяются в нейтроны. Из-за экстремальных условий внутри нейтронной звезды невозможно точно определить её внутреннюю структуру:
Невозможно создать нейтронную материю в лаборатории.
Объединение общей теории относительности и квантовой механики при таких масштабах остаётся нерешённой задачей.
Существующие модели вращающихся жидкостей в ОТО являются приближёнными.
⭐️ Этапы моделирования
Построение статической нейтронной звезды: Рассматривается как самогравитирующаяся жидкость в гидростатическом равновесии.
Решается уравнение Толмана–Оппенгеймера–Волкова (TOV), описывающее структуру звезды.
Добавление вращения и движения: Переход от статической модели к вращающейся и движущейся звезде с использованием дополнительных уравнений.
Коррекция модели: Внесение поправок для удовлетворения физическим ограничениям, аналогично процессу для чёрных дыр.
Построение переменных: Вычисление таких параметров, как плотность, энергия и скорость, необходимых для дальнейшего моделирования.
⚙️ Уравнение состояния (EOS)
Для моделирования используется уравнение состояния, связывающее давление, плотность и внутреннюю энергию.
🧪 Практическая реализация
Автор предоставляет код для реализации модели, разделённый на две части:
Первая часть: библиотека для моделирования статической нейтронной звезды.
Вторая часть: расширение модели для вращающейся и движущейся звезды.
Цель — подготовка начальных условий для численного моделирования столкновений нейтронных звёзд.
🔜 Полный текст статьи доступен по ссылке
@data_math
Нейтронная звезда — это сверхплотный объект, образующийся после коллапса массивной звезды. Под действием огромного давления протоны и электроны объединяются в нейтроны. Из-за экстремальных условий внутри нейтронной звезды невозможно точно определить её внутреннюю структуру:
Невозможно создать нейтронную материю в лаборатории.
Объединение общей теории относительности и квантовой механики при таких масштабах остаётся нерешённой задачей.
Существующие модели вращающихся жидкостей в ОТО являются приближёнными.
Построение статической нейтронной звезды: Рассматривается как самогравитирующаяся жидкость в гидростатическом равновесии.
Решается уравнение Толмана–Оппенгеймера–Волкова (TOV), описывающее структуру звезды.
Добавление вращения и движения: Переход от статической модели к вращающейся и движущейся звезде с использованием дополнительных уравнений.
Коррекция модели: Внесение поправок для удовлетворения физическим ограничениям, аналогично процессу для чёрных дыр.
Построение переменных: Вычисление таких параметров, как плотность, энергия и скорость, необходимых для дальнейшего моделирования.
⚙️ Уравнение состояния (EOS)
Для моделирования используется уравнение состояния, связывающее давление, плотность и внутреннюю энергию.
🧪 Практическая реализация
Автор предоставляет код для реализации модели, разделённый на две части:
Первая часть: библиотека для моделирования статической нейтронной звезды.
Вторая часть: расширение модели для вращающейся и движущейся звезды.
Цель — подготовка начальных условий для численного моделирования столкновений нейтронных звёзд.
@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM
Если хочется влюбиться в профессию заново, разработайте курс вместе с Яндекс Практикумом!
Яндекс Практикум — сервис онлайн-образования, где реально освоить востребованную цифровую профессию. Сейчас есть возможность присоединиться к команде в качестве автора.
Автор готовит тексты уроков, тесты, памятки и прочие материалы, упаковывает свой опыт в учебные кейсы и в буквальном смысле влияет на развитие индустрии.
Что ожидают от кандидата:
▪︎ Техническое образование (преимущественно в области ML).
▪︎ Опыт работы Data scientist или на смежных позициях от 3-х лет.
▪︎ Непреодолимое желание делиться знаниями и опытом, рассказывать сложное доступно и понятно. Так, чтобы вас поняли люди без опыта в этой сфере.
Почему это интересно:
▪︎ удалёнка и дополнительный доход,
▪︎ благодарная аудитория, возможность самореализации,
▪︎ энергичное комьюнити и коллеги, с которыми не скучно.
Узнать подробности и откликнуться
Яндекс Практикум — сервис онлайн-образования, где реально освоить востребованную цифровую профессию. Сейчас есть возможность присоединиться к команде в качестве автора.
Автор готовит тексты уроков, тесты, памятки и прочие материалы, упаковывает свой опыт в учебные кейсы и в буквальном смысле влияет на развитие индустрии.
Что ожидают от кандидата:
▪︎ Техническое образование (преимущественно в области ML).
▪︎ Опыт работы Data scientist или на смежных позициях от 3-х лет.
▪︎ Непреодолимое желание делиться знаниями и опытом, рассказывать сложное доступно и понятно. Так, чтобы вас поняли люди без опыта в этой сфере.
Почему это интересно:
▪︎ удалёнка и дополнительный доход,
▪︎ благодарная аудитория, возможность самореализации,
▪︎ энергичное комьюнити и коллеги, с которыми не скучно.
Узнать подробности и откликнуться
Forwarded from Machinelearning
OpenAI открыла доступ к GPT-Image-1 через API — ранее она работала только в ChatGPT.
Стоимость генерации тарифицируется по токенам: текст ($5/млн), ввод изображений ($10/млн), вывод ($40/млн). Одно изображение обходится в $0,02–0,19. Например, картинка 1024×1024 в высоком качестве «съест» 4160 токенов. Модель превосходит Midjourney-v7 в точности следования запросам, но имеет ограничения: плохо распознаёт мелкий текст, нелатинские шрифты, медицинские данные.
Изображения можно загружать через URL или Base64 (PNG, JPEG до 20 МБ). Максимальное разрешение — 768×2000 пикселей. API анализирует объекты, цвета, текст, но не подходит для задач с высокой точностью. Для безопасности добавлены фильтры контента и метаданные C2PA. Тестировать модель можно в Playground OpenAI — подробности в гайдах по работе с API.
openai.com
Suna — открытый ИИ-агент, способный выполнять реальные задачи через чат-интерфейс. В отличие от закрытых коммерческих моделей, Suna работает офлайн, бесплатен и доступен для самостоятельного хостинга.
Suna не просто отвечает на вопросы: он автоматизирует рутину — от парсинга сайтов и генерации отчетов до развертывания веб-приложений. В основе лежит изолированная Docker-среда, React/Next.js для интерфейса и интеграция с LiteLLM, Supabase и Redis. Помимо исходного кода, есть подписка на развернутый у Kortix AI сервис: бесплатно 10 минут в месяц, за 29$ - 4 часа, а за 199\мес - 40 часов работы Suna.
suna.so
Пользователи Firefox теперь могут заглянуть в содержимое ссылки, не открывая ее. Экспериментальная функция в Firefox Labs 138 показывает карточку с заголовком, описанием, временем чтения и тремя ключевыми пунктами, сгенерированными локальной языковой моделью. Все работает через HTTPS-запросы без загрузки страницы или выполнения скриптов — данные парсятся из метатегов Open Graph и Reader View.
Приватность в приоритете: модель SmolLM2-360M (369 МБ) запускается на устройстве через WebAssembly (wllama), избегая передачи данных в облако. Функция пока в тесте: разработчики ждут фидбека об опыте использования от пользователей.
blog.mozilla.org
xAI расширила возможности голосового ассистента Grok: Grok Vision, поддержка многоязыкового аудио и поиск в реальном времени в голосовом режиме. Все это уже доступно пользователям iOS, а для Android-устройств две последние опции открыты только с подпиской SuperGrok. Grok Vision, как заявляют разработчики, позволяет ассистенту анализировать экран смартфона и комментировать происходящее «здесь и сейчас» — например, распознавать объекты или текст.
Ebby Amir (xAI) в X (ex-Twitter)
BMW объявил о партнерстве с DeepSeek для интеграции ИИ-технологий в машины, продаваемые в Китае. Сотрудничество, представленное на Шанхайском автосалоне, направлено на улучшение «Умного персонального ассистента» — система получит новые функции и расширенный доступ к данным.
Интеграция ИИ DeepSeek ускорит переход BMW к «программно-определяемым» автомобилям. Ожидается, что обновления затронут не только ассистента, но и улучшат интерфейсы, а также поддержат более сложные сценарии автономного управления.
bmwblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
Нерйросети t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Собеседования DS: t.me/machinelearning_interview
Нерйросети t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Docker: t.me/DevopsDocker
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
📌 Условие:
Вы работаете над системой, где каждый эксперимент (тест, запуск модели, продукт) может быть успешным или неуспешным.
Результат одного запуска — 1 (успех) или 0 (провал).
Известно:
- Вероятность успеха одного эксперимента — неизвестна, обозначим её как
p
.- У вас есть
N
исторических наблюдений: x1, x2, ..., xN
, где каждое xi
равно 0 или 1.Вопросы:
1. Построить оценку вероятности успеха
p
и доверительный интервал на уровне 95%.2. Рассчитать, сколько экспериментов нужно запустить, чтобы вероятность выхода в прибыль была выше 95%, учитывая:
- стоимость одного запуска
C
;- прибыль от одного успешного эксперимента
R
.---
▪️ Подсказки:
- Для оценки
p
используйте биномиальную модель.- Для доверительного интервала:
- Можно использовать нормальное приближение (если выборка большая),
- Или Wilson-интервал для аккуратности.
---
▪️ Что оценивается:
- Правильная работа с вероятностями и доверием.
- Способность адекватно аппроксимировать биномиальные распределения.
- Чистота и практичность вычислений.
---
▪️ Разбор возможного решения:
▪️ 1. Оценка вероятности успеха:
# p_hat - оценка вероятности успеха
p_hat = sum(xi_list) / N
где
xi_list
— список из 0 и 1 (результаты экспериментов).▪️ 2. Доверительный интервал через нормальное приближение:
import math
z = 1.96 # для 95% доверия
std_error = math.sqrt(p_hat * (1 - p_hat) / N)
lower_bound = p_hat - z * std_error
upper_bound = p_hat + z * std_error
▪️ 3. Wilson-интервал (более аккуратный):
z = 1.96 # для 95% доверия
center = (p_hat + z**2 / (2 * N)) / (1 + z**2 / N)
margin = (z * math.sqrt((p_hat * (1 - p_hat) / N) + (z**2 / (4 * N**2)))) / (1 + z**2 / N)
lower_bound = center - margin
upper_bound = center + margin
---
▪️ 4. Прибыльность эксперимента:
Формула прибыли при
n
экспериментах:
profit = successes * R - n * C
Требуется:
P(profit > 0) >= 0.95
Число успехов должно быть больше определённой границы:
min_successes = (n * C) / R
Если
n
велико, количество успехов приближается к нормальному распределению:
mean_successes = n * p_hat
std_successes = math.sqrt(n * p_hat * (1 - p_hat))
Для нормального приближения можно написать:
# Вероятность успешности через нормальное распределение
from scipy.stats import norm
# Вероятность, что количество успехов больше нужного
prob = 1 - norm.cdf(min_successes, loc=mean_successes, scale=std_successes)
Тогда перебором или через уравнение ищем минимальное
n
, чтобы prob >= 0.95
.---
▪️ Возможные подводные камни:
- Нельзя использовать нормальное приближение при малом
N
— нужна биномиальная модель.- Неверное задание границ доверительного интервала может привести к неправильной стратегии запуска.
- Плохое понимание соотношения
C
и R
приводит к ошибочным выводам об окупаемости.---
📌Дополнительные вопросы:
- Как бы вы учли, что прибыль от успеха — случайная величина?
- Как пересчитать стратегии, если вероятность успеха зависит от времени (`p = f(t)`)?
- Как применить байесовский апдейт для оценки вероятности успеха?
---
Please open Telegram to view this post
VIEW IN TELEGRAM