🚀 چطور AutoGLM-OS توانست از OpenAI و Anthropic جلو بزند؟
ایجاد یک عامل RL که بتواند بهطور مستقل محیط دسکتاپ را کنترل کند، بهنوعی جام مقدس در HCI به حساب میآید. اما GUIها برای انسانها طراحی شدهاند، نه ماشینها، و مقیاسپذیری RL هم همیشه با مشکلاتی مثل ناکارایی و ناپایداری مواجه بوده است.
🔹 تیم Z.ai با معرفی فریمورک COMPUTERRL توانست عامل AutoGLM-OS را بسازد که روی بِنچمارک OSWorld رکورد زد:
📊 ۴۸/۱٪ موفقیت – بالاتر از OpenAI CUA 03 (۴۲/۹٪)، UI-TARS-1.5 (۴۲/۵٪) و Claude 4.0 Sonnet (۳۰/۷٪).
📌 بنچمارک OSWorld چیست؟
یک بِنچمارک بزرگ با ۳۶۹ تسک روی Ubuntu، ویندوز و macOS.
اینجا هوش مصنوعی باید کارهای واقعی انجام دهد:
* کار با اپلیکیشنهای دسکتاپ و وب 🌐
* مدیریت فایلها 📂
* اجرای پروسسها ⚙️
هر تسک شرایط اولیه و اسکریپتهای ارزیابی استاندارد دارد تا نتایج قابل بازتولید باشند.
---
💡 سه نوآوری کلیدی که AutoGLM-OS را به SOTA رساند:
1️⃣ پارادایم جدید API-GUI
عامل میتواند بین تعامل GUI و فراخوانیهای API سوییچ کند. جایی که API سریعتر است از آن استفاده میشود، و در کارهای عمومی GUI فعال میشود.
📈 نتیجه ابلیشن: افزایش نرخ موفقیت از ۱۱/۲٪ (GUI-only) به ۲۶/۲٪ (API-GUI).
2️⃣ زیرساخت RL توزیعشده و مقیاسپذیر
* استفاده از qemu-in-docker برای VMهای سبک ☁️
* ارتباط بینگرهی با gRPC 🔗
* فریمورک کاملاً async به نام AgentRL ⚡️
این یعنی هزاران محیط موازی برای یادگیری آنلاین RL.
3️⃣ استراتژی آموزشی Entropulse
* رفع مشکل *entropy collapse*
* تناوب بین فازهای RL و SFT
* ایجاد دیتاست جدید از *trajectory*های موفق برای بهبود یادگیری اکتشافی
📈 پس از اولین فاز RL: ۴۲٪
📈 بعد از Entropulse: ۴۸/۱٪
---
📑 جزییات بیشتر: [Arxiv: 2508.14040](https://arxiv.org/pdf/2508.14040)
🌐 بِنچمارک: [OSWorld](https://os-world.github.io/)
@rss_ai_ir
#هوش_مصنوعی 🤖 #یادگیری_تقویتی #Agents #AutoGLM #OSWorld #Zai
ایجاد یک عامل RL که بتواند بهطور مستقل محیط دسکتاپ را کنترل کند، بهنوعی جام مقدس در HCI به حساب میآید. اما GUIها برای انسانها طراحی شدهاند، نه ماشینها، و مقیاسپذیری RL هم همیشه با مشکلاتی مثل ناکارایی و ناپایداری مواجه بوده است.
🔹 تیم Z.ai با معرفی فریمورک COMPUTERRL توانست عامل AutoGLM-OS را بسازد که روی بِنچمارک OSWorld رکورد زد:
📊 ۴۸/۱٪ موفقیت – بالاتر از OpenAI CUA 03 (۴۲/۹٪)، UI-TARS-1.5 (۴۲/۵٪) و Claude 4.0 Sonnet (۳۰/۷٪).
📌 بنچمارک OSWorld چیست؟
یک بِنچمارک بزرگ با ۳۶۹ تسک روی Ubuntu، ویندوز و macOS.
اینجا هوش مصنوعی باید کارهای واقعی انجام دهد:
* کار با اپلیکیشنهای دسکتاپ و وب 🌐
* مدیریت فایلها 📂
* اجرای پروسسها ⚙️
هر تسک شرایط اولیه و اسکریپتهای ارزیابی استاندارد دارد تا نتایج قابل بازتولید باشند.
---
💡 سه نوآوری کلیدی که AutoGLM-OS را به SOTA رساند:
1️⃣ پارادایم جدید API-GUI
عامل میتواند بین تعامل GUI و فراخوانیهای API سوییچ کند. جایی که API سریعتر است از آن استفاده میشود، و در کارهای عمومی GUI فعال میشود.
📈 نتیجه ابلیشن: افزایش نرخ موفقیت از ۱۱/۲٪ (GUI-only) به ۲۶/۲٪ (API-GUI).
2️⃣ زیرساخت RL توزیعشده و مقیاسپذیر
* استفاده از qemu-in-docker برای VMهای سبک ☁️
* ارتباط بینگرهی با gRPC 🔗
* فریمورک کاملاً async به نام AgentRL ⚡️
این یعنی هزاران محیط موازی برای یادگیری آنلاین RL.
3️⃣ استراتژی آموزشی Entropulse
* رفع مشکل *entropy collapse*
* تناوب بین فازهای RL و SFT
* ایجاد دیتاست جدید از *trajectory*های موفق برای بهبود یادگیری اکتشافی
📈 پس از اولین فاز RL: ۴۲٪
📈 بعد از Entropulse: ۴۸/۱٪
---
📑 جزییات بیشتر: [Arxiv: 2508.14040](https://arxiv.org/pdf/2508.14040)
🌐 بِنچمارک: [OSWorld](https://os-world.github.io/)
@rss_ai_ir
#هوش_مصنوعی 🤖 #یادگیری_تقویتی #Agents #AutoGLM #OSWorld #Zai
❤19👏19🥰18😁17🎉14🔥13👍12