rizzearch

World and Human Action Models towards gameplay ideation

вот и майкрософт, как оказывается, год назад уже смогли зафигачить модель мира на основе мультиплеер пвп bleeding edge от ninja theory (оказывается помимо devil may cry & hellblade они еще вот такое делали). но почему-то решили это отправить nature а не на архив по классике

собрали 28 террабайт датасета траекторий игроков (полмиллиона игровых сессий, 1.4B фреймов при 10Гц, 7+ лет реального времени, еще отфильтровали под конкретную карту примерно год по объему)

обсервейшны (картинки) 300х180х3 и действия маппят в одно и то же пространство токенов, при том для первых обучают сначала ViT-VQGAN в 300м параметров на реконструкцию и perpectual лоссы, а потом и добавляют ган обжектив непосредственно. в качестве ворлд модели выступает отдельный каузальный трансформер который моделирует последовательность токенов обсервейшнов и действий (в качестве них кстати выступают сигналы с контроллеров хбокс геймпада)

назвали это WHAM - World and Human Action Model

самый большой трансформер смогли натренить размером в 1.6B что не оч много но при этом довольно классные на глаз результаты получились (с учетом маленького разрешения фреймов). и присутствует то, что авторы называют persistency, diversity, consistency: генерации соответствуют игровой механике и более-менее геймер интерфейсу, они получаются разнообразными и способны адаптироваться под нововведенные объекты посреди инференса (например если добавить врага или какой-то игровой объект то очень естественно произойдет с ними взаимодействие)

насчет последнего так же они еще релизнули WHAM Demonstrator - как я понял это своеобразная гуишка, которая позволяет удобнее производить такие интервенции в момент генерации + смотреть на каких фреймах может происходить расхождения по разным сценариям с одинакового начального картиночного промпта (то что относится к диверсити)

paper

weights

dataset 75гб

P.S. у нас еще есть другие посты про модели мира -

[1]

[2]

[3]

🔥4❤3

1.27K views16:34

rizzearch

Forwarded from gonzo-обзоры ML статей

6:26

Media is too big

VIEW IN TELEGRAM

6.5 минут рассказа про работу с демонстрациями

👍3

433 views20:01

rizzearch

Self-Supervised Diffusion Processes for Electron-Aware Molecular Representation Learning

Нейронки для молекул обычно имеют доступ только к геометрической структуре молекулы. Ничего больше, только атомные числа и позиции. Авторы метода DELID считают, что мы может относительно легко получить информацию на электронном уровне, которая может нам получить хорошие репрезентации. Давайте посмотрим как это сделать с помощью диффузий!

Идея DELID заключается в том, чтобы получить неизвестную информацию о электронах исходя из формулировки вариационной диффузии. Изначальную молекулу бьют на части с помощью фрагментации. Это есть неполная информация о молекуле, некое информативное априорное распределение. Из него с помощью диффузионного процесса мы пытаемся получить исходную молекулу. Вторая диффузия пытается сделать тоже самое только на неизвестной электронной информации. Скажете, а как мы будем это учить все, когда у нас вообще нет таргета? Тут конечно, не прямо нет таргета, а дело в том, что для отдельных фрагментов авторы берут информацию из открытых химических баз, что позволяет не использовать тяжелые квантовохимические вычисления для всей молекулы. Таргет свойство предсказывается как сумма выхода отдельного энкодера и электронной информации с диффузионного процесса

Итого, имея две диффузии, авторы выражают оптимизационную задачу через информацию связности (атомарные признаки остаются прежними) и нижнюю границу для log-правдоподобия электронной информации без четкого таргета. Эксперименты включают в себя популярные датасеты для 2D молекул: Lipop, ESOL, ADMET и другие

Метод прикольный. Но, конечно метод не прям self-supervised, просто мы понимажаем сложность вычисления информации через фрагментацию. Приняли на ICLR 2025

👀

LINK

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

471 views11:56

rizzearch

Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

широко известные в особо узких кругах авторы из беркли, карнеги меллона и дипмаинд забубенили Q-value функцию для роботик политик, которая работает в black-box манере и не требует файнтюна

в принципе они это сделали, потому что на их опытах с клешней опенсурс модели (OpenVLA, octo, RT-X) - где в том числе есть и диффузионное окто, а не только классические трансформер-based политики - выдают не очень качество: либо не могут поднять предмет, либо не так уж и точно его кладут, либо не могут отпустить (в принципе с клешней вроде как других проблем не может быть, если не считать совсем неадекватные)

вполне разумное и наиболее вероятное предположение - проблема в датасете, ведь там присутствуют mixed quality данные → в рльке такая проблема решается выставлением реварда и обучением функции значимости для адаптации к такому

ну вот авторы поэтому такое и сделали: под капотом скрывается резнет с muse (хз как и зачем откопали, еще и на тензорфлоу) как картиночные и текстовые энкодеры соответственно. объединяются они же через FiLM (который иногда выручает)

обучали на bridge & fractals датасетах → поскольку хочется использовать одного критика (функции значимости, Q функции) сразу на любую робо политику, то желательно чтобы она хорошо генерализовалась на ООД действия и все такое → обучать надо в оффлайн манере при помощи Cal-QL (потому что метод правда прикольный, ну и первый автор этой работы так же основной автор этого оффлайн рл метода. в аппендиксе так же добавили инфу, что и на iql все тоже хорошо заводится). ревард же получали через метки -1/0, где нуль был у нескольких последних степов в траектории

а в пайплайн же этот критик встраивается через категориальное распределение по семплированным из политики действиям + так же в этом распределении интересную интуицию несет параметр температуры: трейдофф между тем, как сильно мы доверяем политике и тем, как сильно мы полагаемся на критика

в аблациях так же есть измерение по прибавке ко времени инференса. авторы утверждают, что оверхед некритичный

👀 link, code, demo

🔥3❤2

471 views15:07

rizzearch

Vision-Language Models Provide Promptable Representations for Reinforcement Learning

беркли и дипмаинд решили использовать VLM в довольно нетривиальном виде для рл - вместо того, чтобы подавать эмбеддинги влмки в ответ на текстовый запрос о действии напрямую в политику, авторы привносят то, что они называют promptable representations через текст и CoT, которые пытаются раскрыть world knowledge из модели.

то есть их метод не является instruction-following, а задает контекстуальный бекграунд (что бы это ни значило) в рамках рл формулировки

например - в майнкрафте они тестировали таску “грохнуть паука”. для этого они выдают в влм не текст “убей паука”, а что-то типа “пауки в майне черные, сейчас на кадре есть паук?”, что позволяет получить (интуитивно) более обобщенные репрезентации, которые полезны для мульти-таск сетапа и (возможно) более эффективного обучения

почему так? да потому что в принципе VLM (в данном случае InstructBLIP и PrismaticVLM) не обучены на то, чтобы принимать действия в среде (иначе это было бы VLA), а следовать инструкциям и отвечать на вопросы о картинках → так давайте и спрашивать про визуальную составляющую и семантику наблюдаемых действий, нежели сходу просить предпринять действие (это пусть решает политика)

модно-молодежно: показывают и оч жесткий sample-efficiency по сравнению с сотой на майнкрафте, мол в 10 раз меньше данных надо. верим, но имеем в виду что довольно сильно рaзнятся методы обучения

большой пункт для future work может заключаться в том, что эти промптабл промпты очень сильно подогнаны под евал среды (есть ли на картинке из майнкрафта паук)

👀 link, code (в виде юпитер ноутбука мда)

если что VLM используют активно и в роботике - например

здесь

❤3

6.06K views16:28

rizzearch

Спасибо, что вы с нами😌

😋

Вторая пикча

позаимствована

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post