VIRSUN
15.4K subscribers
416 photos
238 videos
2 files
246 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
Download Telegram
📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.



---

🔎 جزئیات بر اساس حوزه‌ها:

تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).



---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.



---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
15😁11🔥9👍8🎉8