gonzo-обзоры ML статей
24.1K subscribers
2.83K photos
2 videos
3 files
1.4K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Короткий комментарий про длинные контексты.

Сейчас уже многие модели поддерживают контекст размером 128k+, некоторые типа Gemini даже 1-2M. Но есть много подтверждений тому, что эффективный контекст (когда модель держит ещё нормальное качество) сильно ниже. AI21 показывали это для своей Jamba (https://t.me/gonzo_ML/2914). Много разных бенчмарков с вариациями needle-in-a-haystack демонстрируют что-то такое, например, BABILong (https://github.com/booydar/babilong).

Что интересно в этих бенчмарках, это не только то, насколько хороша (или плоха) модель на пределе своего контекста, а как быстро ухудшается качество даже на казалось бы маленьких длинах типа 4-32k, где предел был несколько лет назад.

Это видно и в таблице BABILong, это было видно в работе “Eureka: Evaluating and Understanding Large Foundation Models“ (https://arxiv.org/abs/2409.10566), это же видно и в свежей работе “NoLiMa: Long-Context Evaluation Beyond Literal Matching“ (https://arxiv.org/abs/2502.05167).

В общем, по-прежнему не работает тема "запихну всё в один большой промпт". Ну как не работает, технически работает, но продуктово... Так что продолжаем пилить на более короткие куски и вообще переходить к специализированным агентам, которые в стиле Unix way делают одну вещь, но хорошо.

In the meantime, я вчера попробовал применить Gemini 2.0 Flash для анализа статей с arxiv, попробовал на статье про DeepSeek-R1, которую уже разбирал. Ну в целом неплохо, и саммари генерит лучше, чем абстракт статьи, и на вопросы вполне неплохо отвечает, действительно суть выделяет.

Что больше всего мне понравилось, это что работа идёт сразу на уровне PDF, не надо ничего парсить. И особенно порадовала скорость — один запрос к 22-страничному PDF отрабатывает за 6-7 секунд, без всякого кеширования. Когда кеширование включат для Gemini 2.0 должно быть ещё быстрее (и дешевле).

Плохо, что у Гугла пока нет единообразия в поддерживаемых фичах. PDF поддерживает Gemini 2.0 Flash, ризонинг поддерживает Gemini 2.0 Flash Thinking, а кеширование работает только для Gemini 1.5. Хотелось бы одновременно всё это заюзать и сразу для набора статей. Ну ладно, переходный момент, вопрос времени.

Пост со ссылками на код тут:
https://gonzoml.substack.com/p/analyze-research-papers-with-gemini
🔥23👍95
😱7🤷‍♂1
World and Human Action Models towards gameplay ideation
Anssi Kanervisto, Dave Bignell, Linda Yilin Wen, Martin Grayson, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Tabish Rashid, Tim Pearce, Yuhan Cao, Abdelhak Lemkhenter, Chentian Jiang, Gavin Costello, Gunshi Gupta, Marko Tot, Shu Ishida, Tarun Gupta, Udit Arora, Ryen W. White, Sam Devlin, Cecily Morrison & Katja Hofmann
Статья: https://www.nature.com/articles/s41586-025-08600-3
Модели: https://huggingface.co/microsoft/wham
Пост: https://news.xbox.com/en-us/2025/02/19/muse-ai-xbox-empowering-creators-and-players/
Более подробный пост: https://www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/

Не так давно на новый год я писал свой топ результатов (https://t.me/gonzo_ML/3175) и одним из них были World Models (https://t.me/gonzo_ML/3176), а также изменения, назревающие в игровой индустрии.

На прошлой неделе Microsoft (точнее Xbox) сделал сильный ход здесь, выпустив Muse.

Muse -- это World and Human Action Model (WHAM), обученная на игре Bleeding Edge (https://www.bleedingedge.com/en). Это модель, которая моделирует динамику игры, по сути позволяет играть.

Muse обучена на записях игры человека, она предсказывает кадры и действия игрока. Это декодер трансформера, работающий с дискретными токенами, в которых чередуются последовательности кадров и действий на игровом контроллере. За кодирование изображения в токены и декодирование обратно отвечает VQGAN.

Датасет -- это 500,000 анонимизированных игровых сессий, более 7 лет непрерывной игры по семи разным картам игры. Он и называется соответственно, 7 Maps. Есть фильтрованный вариант, где оставили карту Skygarden и 1 год игры.

Трансформеры (вариация nanoGPT) обучены размером от 15M до 894M с VQGAN на 60M параметров, и отдельный самый большой трансформер на 1.6B плюс ViT-VQGAN на 300M. Размер контекста -- 1 секунда игры, для малых трансформеров это 2,720 токенов, для большого 5,560. Размер картинки для малых 128×128 и 256 токенов, для большого 300×180 и 540 токенов.

Ну то есть по архитектуре всё довольно традиционно.

Бюджет на обучение большой модели 10^22 FLOPS. Скромно на фоне фронтира (https://epoch.ai/blog/tracking-large-scale-ai-models). Обучали на 98xH100 GPUs в течение 5 дней. PyTorch Lightning, FSDP, Flash Attention.

На HF опубликованы две модели, на 200M и 1.6B параметров.

Оценивали модель по Consistency (в геймплее не должно быть резких изменений и всё должно быть когерентно), Diversity (для поддержки ‘Divergent thinking’ нужно разнообразие!), Persistency (должна позволять модификации пользователем и давать интерактивность).

Позиционируют как для gameplay ideation. Но мы ждём нейроигр!
14🔥10👍7🤯1
Media is too big
VIEW IN TELEGRAM
6.5 минут рассказа про работу с демонстрациями
Работа на самом деле год отлёживалась
О, Sonnet 3.7 подоспел!

У модели теперь можно включать Extended thinking режим:
https://www.anthropic.com/research/visible-extended-thinking

И вроде как они приняли решения не скрывать "мысленный процесс" модели. Это почётно. Гугл вот убрал :(

Цены прежние: $3/$15 за входные/выходные токены, последние включают thinking tokens.

https://anthropic.com/news/claude-3-7-sonnet
👍174
Обещают лучше на SWE
😱10
DeepSeek пошёл всё опенсорсить на этой неделе.

Сегодня опубликовали DeepEP, коммуникационную библиотеку для MoE с GPU кернелами
https://github.com/deepseek-ai/DeepEP

Вчера выложили кернелы для MLA
https://github.com/deepseek-ai/FlashMLA

Завтра ещё что-нибудь выложат.
🔥64👍3