📌 دیپسیک نسخه V3.1
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir