🚀مدل MolmoAct: نسل تازه مدلهای بینایی-زبان-اکشن برای رباتیک
🧩 پژوهشگران در مقالهای جدید MolmoAct را معرفی کردهاند؛ یک مدل متنباز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحلهای کار میکند.
🔹 ایده کلیدی
برخلاف روشهای مرسوم end-to-end که از تصویر مستقیم به اکشن میروند، MolmoAct یک لایه میانی استدلال فضایی اضافه میکند تا:
♻️تعمیمپذیری بهتر
♻️شفافیت در تصمیمگیری
♻️امکان تعامل و اصلاح توسط کاربر
🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید میکند:
1. توکنهای عمق → نمایش هندسه سهبعدی صحنه
2. توکنهای استدلال تصویری → مسیر دوبعدی (Polyline) برنامهریزیشده برای ابزار انتهایی
3. توکنهای اکشن سطح پایین
🔹 نتایج برجسته
📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدلهای پایه)
🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی
🔹 اهمیت برای صنعت
ساختار شفاف و قابلویرایش MolmoAct این امکان را میدهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای رباتهای صنعتی و همکاری انسان-ماشین بسیار ارزشمند میکند.
📚 منبع: arXiv و HuggingFace
🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial
🧩 پژوهشگران در مقالهای جدید MolmoAct را معرفی کردهاند؛ یک مدل متنباز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحلهای کار میکند.
🔹 ایده کلیدی
برخلاف روشهای مرسوم end-to-end که از تصویر مستقیم به اکشن میروند، MolmoAct یک لایه میانی استدلال فضایی اضافه میکند تا:
♻️تعمیمپذیری بهتر
♻️شفافیت در تصمیمگیری
♻️امکان تعامل و اصلاح توسط کاربر
🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید میکند:
1. توکنهای عمق → نمایش هندسه سهبعدی صحنه
2. توکنهای استدلال تصویری → مسیر دوبعدی (Polyline) برنامهریزیشده برای ابزار انتهایی
3. توکنهای اکشن سطح پایین
🔹 نتایج برجسته
📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدلهای پایه)
🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی
🔹 اهمیت برای صنعت
ساختار شفاف و قابلویرایش MolmoAct این امکان را میدهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای رباتهای صنعتی و همکاری انسان-ماشین بسیار ارزشمند میکند.
📚 منبع: arXiv و HuggingFace
🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial
😁9🔥8❤6🎉6👍5