Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🤖 WorldVLA - объединение VLA и World Model в единое автогенеративное ядро

Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.

🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.

⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.

📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.

💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.

📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA

#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
4🔥2