🤖 WorldVLA - объединение VLA и World Model в единое автогенеративное ядро
Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.
🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.
⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.
📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.
💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.
📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA
#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.
🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.
⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.
📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.
💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.
📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA
#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
❤4🔥2