🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP
🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدلهای زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) میسنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویسها و منابع دادهی بیرونی (مثل ابزارها و APIها).
---
🔎 ساختار بِنچمارک
♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند
📌 نمونه حوزهها و زیرتسکها:
🗺 ناوبری روی نقشه: مسیریابی، ایستگاههای بهینه، جستجوی مکان و جستجو بر اساس ID
💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد
💰 تحلیل مالی: پورتفولیو، گزارشدهی، استراتژی معاملاتی، داراییهای نهادی، تحلیل سود سهام
🎨 طراحی سهبعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازماندهی صحنه
🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه
🔎 وبسرچ: شناسایی افراد، استخراج موجودیتها، متریک مَچینگ، استدلال پیچیده، فکت چک
---
⚙️ روش ارزیابی
♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسشهایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)
❗️ بخش بزرگی از تسکها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکستهای طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسکهای بیشازحد ساده یا مستقل از MCP فیلتر شدند.
---
✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو میسنجه، نه فقط پرسش و پاسخ متنی.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدلهای زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) میسنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویسها و منابع دادهی بیرونی (مثل ابزارها و APIها).
---
🔎 ساختار بِنچمارک
♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند
📌 نمونه حوزهها و زیرتسکها:
🗺 ناوبری روی نقشه: مسیریابی، ایستگاههای بهینه، جستجوی مکان و جستجو بر اساس ID
💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد
💰 تحلیل مالی: پورتفولیو، گزارشدهی، استراتژی معاملاتی، داراییهای نهادی، تحلیل سود سهام
🎨 طراحی سهبعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازماندهی صحنه
🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه
🔎 وبسرچ: شناسایی افراد، استخراج موجودیتها، متریک مَچینگ، استدلال پیچیده، فکت چک
---
⚙️ روش ارزیابی
♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسشهایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)
❗️ بخش بزرگی از تسکها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکستهای طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسکهای بیشازحد ساده یا مستقل از MCP فیلتر شدند.
---
✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو میسنجه، نه فقط پرسش و پاسخ متنی.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔥13❤12👍12🎉8😁6
📊 نتایج بنچمارک MCP-Universe
تستهای تازهی MCP-Universe یک برندهی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:
🏆 نرخ موفقیت (SR) → ۴۳.۷٪
🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪
📈 در تمام حوزهها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.
---
🔎 جزئیات بر اساس حوزهها:
✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصلهی چشمگیر از بقیه.
✅طراحی سهبعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.
✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ بهوضوح بالاتر از رقباست.
✅اتوماسیون مرورگر (Browser Automation) → اینجا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).
---
🟢 در میان مدلهای متنباز (Open-Source):
♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.
♻️مدل Kimi-K2 با وجود تبلیغات زیاد دربارهی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.
---
⚠️ نکتهی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان میدهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
تستهای تازهی MCP-Universe یک برندهی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:
🏆 نرخ موفقیت (SR) → ۴۳.۷٪
🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪
📈 در تمام حوزهها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.
---
🔎 جزئیات بر اساس حوزهها:
✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصلهی چشمگیر از بقیه.
✅طراحی سهبعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.
✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ بهوضوح بالاتر از رقباست.
✅اتوماسیون مرورگر (Browser Automation) → اینجا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).
---
🟢 در میان مدلهای متنباز (Open-Source):
♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.
♻️مدل Kimi-K2 با وجود تبلیغات زیاد دربارهی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.
---
⚠️ نکتهی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان میدهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
❤15😁11🔥9👍8🎉8