Machinelearning

📌

Фэй-Фэй Ли предлагает разделить модели мира на 3 функции

Крёстная мать ИИ и сооснователь World Labs вместе с командой опубликовала эссе, продолжающее её более ранний текст о пространственном интеллекте.

На этот раз авторы пытаются навести порядок в одном из самых перегруженных терминов индустрии - "модели мира".

LLM прекрасно овладели понятиями, лексикой и рассуждением, но они изучают статистическую структуру текста.

Модель мира должна изучать совокупность пространства и времени - как свет падает на поверхность, как предметы реагируют на силу, как всё это подчиняется законам физики.

Проблема в том, что термином "модель мира" пользуются CV, робототехника, RL и генеративный ИИ, каждый вкладывая в него своё.

Чтобы развести значения, Ли предлагает опираться на классическую схему из учебников по RL: цикл "агент-действие-состояние-наблюдение".

Формально - частично наблюдаемый марковский процесс принятия решений.

Разные системы, которые сегодня называют моделями мира, авторы предлагают рассматривать как разные проекции этого одного цикла.

🟡

Разделение на функции

Рендерер выдаёт наблюдения в виде пикселей, и главное для него - визуальная достоверность (3D структуры он по-настоящему не понимает).

Симулятор выдаёт состояние (геометрически и физически корректное описание мира, на котором могут работать и люди, и алгоритмы).

Планировщик по наблюдению и цели выдаёт действие, замыкая петлю "восприятие -действие".

🟡Доводы

Из 3-х категорий именно симулятор привлекает меньше всего внимания публики, но он самый значимый.

Рендереры коммерчески наиболее развиты (Google Nano Banana и другие генераторы), но оптимизированы под правдоподобную картинку, а не под физику - красивый кадр нельзя использовать, чтобы спроектировать здание или обучить робота.

Планировщики, наоборот, самые перспективные и самые сырые. Робототехнические демо последних лет почти всегда ограничены лабораторными условиями и далеки от реалий в реальном мире.

Симулятор описан как мост между ними и структурный каркас, из которого выводятся и внешний вид (для рендерера), и последствия действий (для планировщика).

Логическим итогом Ли называет одну базовую модель, которая в зависимости от запроса переключается между режимами: рендерит, симулирует или планирует.

В качестве первого шага в эту сторону Ли считает платформу Marble (разработка World Labs), которая генерирует 3D-сцены и выдает в рамках одной модели и гауссовы сплаты для визуального осмотра, и коллизионные сетки, с которыми может работать физический движок.

#AI #ML #WorldModels #WorldLabs

Please open Telegram to view this post