World and Human Action Models towards gameplay ideation
Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann
Статья: https://www.nature.com/articles/s41586-025-08600-3
Модели: https://huggingface.co/microsoft/wham
Пост: https://news.xbox.com/en-us/2025/02/19/muse-ai-xbox-empowering-creators-and-players/
Более подробный пост: https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/
Не так давно на новый год я писал свой топ результатов (https://t.me/gonzo_ML/3175) и одним из них были World Models (https://t.me/gonzo_ML/3176), а также изменения, назревающие в игровой индустрии.
На прошлой неделе Microsoft (точнее Xbox) сделал сильный ход здесь, выпустив Muse.
Muse -- это World and Human Action Model (WHAM), обученная на игре Bleeding Edge (https://www.bleedingedge.com/en). Это модель, которая моделирует динамику игры, по сути позволяет играть.
Muse обучена на записях игры человека, она предсказывает кадры и действия игрока. Это декодер трансформера, работающий с дискретными токенами, в которых чередуются последовательности кадров и действий на игровом контроллере. За кодирование изображения в токены и декодирование обратно отвечает VQGAN.
Датасет -- это 500,000 анонимизированных игровых сессий, более 7 лет непрерывной игры по семи разным картам игры. Он и называется соответственно, 7 Maps. Есть фильтрованный вариант, где оставили карту Skygarden и 1 год игры.
Трансформеры (вариация nanoGPT) обучены размером от 15M до 894M с VQGAN на 60M параметров, и отдельный самый большой трансформер на 1.6B плюс ViT-VQGAN на 300M. Размер контекста -- 1 секунда игры, для малых трансформеров это 2,720 токенов, для большого 5,560. Размер картинки для малых 128×128 и 256 токенов, для большого 300×180 и 540 токенов.
Ну то есть по архитектуре всё довольно традиционно.
Бюджет на обучение большой модели 10^22 FLOPS. Скромно на фоне фронтира (https://epoch.ai/blog/tracking-large-scale-ai-models). Обучали на 98xH100 GPUs в течение 5 дней. PyTorch Lightning, FSDP, Flash Attention.
На HF опубликованы две модели, на 200M и 1.6B параметров.
Оценивали модель по Consistency (в геймплее не должно быть резких изменений и всё должно быть когерентно), Diversity (для поддержки ‘Divergent thinking’ нужно разнообразие!), Persistency (должна позволять модификации пользователем и давать интерактивность).
Позиционируют как для gameplay ideation. Но мы ждём нейроигр!
Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann
Статья: https://www.nature.com/articles/s41586-025-08600-3
Модели: https://huggingface.co/microsoft/wham
Пост: https://news.xbox.com/en-us/2025/02/19/muse-ai-xbox-empowering-creators-and-players/
Более подробный пост: https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/
Не так давно на новый год я писал свой топ результатов (https://t.me/gonzo_ML/3175) и одним из них были World Models (https://t.me/gonzo_ML/3176), а также изменения, назревающие в игровой индустрии.
На прошлой неделе Microsoft (точнее Xbox) сделал сильный ход здесь, выпустив Muse.
Muse -- это World and Human Action Model (WHAM), обученная на игре Bleeding Edge (https://www.bleedingedge.com/en). Это модель, которая моделирует динамику игры, по сути позволяет играть.
Muse обучена на записях игры человека, она предсказывает кадры и действия игрока. Это декодер трансформера, работающий с дискретными токенами, в которых чередуются последовательности кадров и действий на игровом контроллере. За кодирование изображения в токены и декодирование обратно отвечает VQGAN.
Датасет -- это 500,000 анонимизированных игровых сессий, более 7 лет непрерывной игры по семи разным картам игры. Он и называется соответственно, 7 Maps. Есть фильтрованный вариант, где оставили карту Skygarden и 1 год игры.
Трансформеры (вариация nanoGPT) обучены размером от 15M до 894M с VQGAN на 60M параметров, и отдельный самый большой трансформер на 1.6B плюс ViT-VQGAN на 300M. Размер контекста -- 1 секунда игры, для малых трансформеров это 2,720 токенов, для большого 5,560. Размер картинки для малых 128×128 и 256 токенов, для большого 300×180 и 540 токенов.
Ну то есть по архитектуре всё довольно традиционно.
Бюджет на обучение большой модели 10^22 FLOPS. Скромно на фоне фронтира (https://epoch.ai/blog/tracking-large-scale-ai-models). Обучали на 98xH100 GPUs в течение 5 дней. PyTorch Lightning, FSDP, Flash Attention.
На HF опубликованы две модели, на 200M и 1.6B параметров.
Оценивали модель по Consistency (в геймплее не должно быть резких изменений и всё должно быть когерентно), Diversity (для поддержки ‘Divergent thinking’ нужно разнообразие!), Persistency (должна позволять модификации пользователем и давать интерактивность).
Позиционируют как для gameplay ideation. Но мы ждём нейроигр!
Nature
World and Human Action Models towards gameplay ideation
Nature - A state-of-the-art generative artificial intelligence model of a video game is introduced to allow the support of human creative ideation, with the analysis of user study data highlighting...
❤14🔥10👍7🤯1
Media is too big
VIEW IN TELEGRAM
6.5 минут рассказа про работу с демонстрациями
О, Sonnet 3.7 подоспел!
У модели теперь можно включать Extended thinking режим:
https://www.anthropic.com/research/visible-extended-thinking
И вроде как они приняли решения не скрывать "мысленный процесс" модели. Это почётно. Гугл вот убрал :(
Цены прежние: $3/$15 за входные/выходные токены, последние включают thinking tokens.
https://anthropic.com/news/claude-3-7-sonnet
У модели теперь можно включать Extended thinking режим:
https://www.anthropic.com/research/visible-extended-thinking
И вроде как они приняли решения не скрывать "мысленный процесс" модели. Это почётно. Гугл вот убрал :(
Цены прежние: $3/$15 за входные/выходные токены, последние включают thinking tokens.
https://anthropic.com/news/claude-3-7-sonnet
Anthropic
Claude 3.7 Sonnet and Claude Code
Today, we’re announcing Claude 3.7 Sonnet, our most intelligent model to date and the first hybrid reasoning model generally available on the market.
👍17❤4
DeepSeek пошёл всё опенсорсить на этой неделе.
Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами
https://github.com/deepseek-ai/DeepEP
Вчера выложили кернелы для MLA
https://github.com/deepseek-ai/FlashMLA
Завтра ещё что-нибудь выложат.
Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами
https://github.com/deepseek-ai/DeepEP
Вчера выложили кернелы для MLA
https://github.com/deepseek-ai/FlashMLA
Завтра ещё что-нибудь выложат.
GitHub
GitHub - deepseek-ai/DeepEP: DeepEP: an efficient expert-parallel communication library
DeepEP: an efficient expert-parallel communication library - deepseek-ai/DeepEP
🔥64👍3
gonzo-обзоры ML статей
DeepSeek пошёл всё опенсорсить на этой неделе. Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами https://github.com/deepseek-ai/DeepEP Вчера выложили кернелы для MLA https://github.com/deepseek-ai/FlashMLA Завтра ещё что-нибудь…
Сегодня выложили кернелы для матричных операций в FP8
https://github.com/deepseek-ai/DeepGEMM
DeepGEMM is a library designed for clean and efficient FP8 General Matrix Multiplications (GEMMs) with fine-grained scaling, as proposed in DeepSeek-V3. It supports both normal and Mix-of-Experts (MoE) grouped GEMMs. Written in CUDA, the library has no compilation need during installation, by compiling all kernels at runtime using a lightweight Just-In-Time (JIT) module.
Currently, DeepGEMM exclusively supports NVIDIA Hopper tensor cores. To address the imprecise FP8 tensor core accumulation, it employs CUDA-core two-level accumulation (promotion). While it leverages some concepts from CUTLASS and CuTe, it avoids heavy reliance on their templates or algebras. Instead, the library is designed for simplicity, with only one core kernel function comprising around ~300 lines of code. This makes it a clean and accessible resource for learning Hopper FP8 matrix multiplication and optimization techniques.
Despite its lightweight design, DeepGEMM's performance matches or exceeds expert-tuned libraries across various matrix shapes.
Неделя опенсорса продолжается!
https://github.com/deepseek-ai/DeepGEMM
DeepGEMM is a library designed for clean and efficient FP8 General Matrix Multiplications (GEMMs) with fine-grained scaling, as proposed in DeepSeek-V3. It supports both normal and Mix-of-Experts (MoE) grouped GEMMs. Written in CUDA, the library has no compilation need during installation, by compiling all kernels at runtime using a lightweight Just-In-Time (JIT) module.
Currently, DeepGEMM exclusively supports NVIDIA Hopper tensor cores. To address the imprecise FP8 tensor core accumulation, it employs CUDA-core two-level accumulation (promotion). While it leverages some concepts from CUTLASS and CuTe, it avoids heavy reliance on their templates or algebras. Instead, the library is designed for simplicity, with only one core kernel function comprising around ~300 lines of code. This makes it a clean and accessible resource for learning Hopper FP8 matrix multiplication and optimization techniques.
Despite its lightweight design, DeepGEMM's performance matches or exceeds expert-tuned libraries across various matrix shapes.
Неделя опенсорса продолжается!
GitHub
GitHub - deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling
DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling - deepseek-ai/DeepGEMM
🔥30❤6🤔2👍1
Forwarded from Сиолошная
Пост с выжимкой трансляции:
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
👍26😁4❤2
Давно Шмидхубера не видели?
https://www.ted.com/talks/juergen_schmidhuber_why_2042_will_be_a_big_year_for_ai
https://www.ted.com/talks/juergen_schmidhuber_why_2042_will_be_a_big_year_for_ai
Ted
Why 2042 will be a big year for AI
From the Big Bang to the rise of artificial intelligence, AI pioneer Juergen Schmidhuber unpacks history's rapid-fire advancement — and why 2042 might just be the year AI reaches superhuman levels. Blending insights from biology, technology and the cosmos…
😁41🔥8🗿4
Turing Award у Barto & Sutton за RL! И bitter lesson
https://www.acm.org/media-center/2025/march/turing-award-2024
https://www.acm.org/media-center/2025/march/turing-award-2024
www.acm.org
Andrew Barto and Richard Sutton are the recipients of the 2024 ACM A.M. Turing Award for developing the conceptual and algorithmic…
In a series of papers beginning in the 1980s, Barto and Sutton introduced the main ideas, constructed the mathematical foundations, and developed important algorithms for reinforcement learning—one of the most important approaches for creating intelligent…
❤44🔥19⚡10👌1