VIRSUN
15.4K subscribers
418 photos
241 videos
2 files
250 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
Download Telegram
🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP

🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدل‌های زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) می‌سنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویس‌ها و منابع داده‌ی بیرونی (مثل ابزارها و APIها).


---

🔎 ساختار بِنچمارک

♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند


📌 نمونه حوزه‌ها و زیرتسک‌ها:

🗺 ناوبری روی نقشه: مسیریابی، ایستگاه‌های بهینه، جستجوی مکان و جستجو بر اساس ID

💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد

💰 تحلیل مالی: پورتفولیو، گزارش‌دهی، استراتژی معاملاتی، دارایی‌های نهادی، تحلیل سود سهام

🎨 طراحی سه‌بعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازمان‌دهی صحنه

🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه

🔎 وب‌سرچ: شناسایی افراد، استخراج موجودیت‌ها، متریک مَچینگ، استدلال پیچیده، فکت چک



---

⚙️ روش ارزیابی

♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسش‌هایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)


❗️ بخش بزرگی از تسک‌ها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکست‌های طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسک‌های بیش‌ازحد ساده یا مستقل از MCP فیلتر شدند.


---

اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو می‌سنجه، نه فقط پرسش و پاسخ متنی.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔥1312👍12🎉8😁6
📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.



---

🔎 جزئیات بر اساس حوزه‌ها:

تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).



---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.



---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
15😁11🔥9👍8🎉8