VIRSUN

⚡️ مدل‌های زبانی GPT-OSS با فرمت GGUF توسط تیم Unsloth بهینه‌سازی و منتشر شدند
@rss_ai_ir

تیم توسعه‌دهنده Unsloth دو نسخه از مدل‌های GPT-OSS با ۲۰ و ۱۲۰ میلیارد پارامتر را به فرمت GGUF تبدیل کرده و با رفع برخی ایرادات، کیفیت استنتاج (Inference) آن‌ها را به‌طور قابل توجهی افزایش داده‌اند.

---

📌 پیکربندی پیشنهادی برای اجرا:

🔹 مدل با ۲۰ میلیارد پارامتر در حالت دقت کامل، تنها به ۱۴ گیگابایت حافظه رم نیاز دارد و با سرعتی بیش از ۱۰ توکن بر ثانیه اجرا می‌شود.

🔹 مدل ۱۲۰ میلیاردی نیز با حدود ۶۴ گیگ رم، خروجی بالای ۴۰ توکن بر ثانیه ارائه می‌دهد.

🔸 حتی در سیستم‌هایی با ۶ گیگ رم و بدون GPU هم امکان اجرا وجود دارد، اما سرعت استنتاج پایین‌تر خواهد بود.

---

📈 در صورت استفاده از کارت گرافیک، عملکرد مدل‌ها به‌مراتب بهتر خواهد بود.
برخی تست‌ها با GPU قدرتمند H100 نشان داده‌اند که سرعت خروجی به بیش از ۱۴۰ توکن بر ثانیه می‌رسد که حتی از ChatGPT نیز سریع‌تر است.

---

🧠 روش‌های قابل استفاده برای اجرا:

اجرای مستقیم با ابزار llama.cpp

نرم‌افزارهای رابط مانند LM Studio

محیط‌های تعاملی مانند Open WebUI

📌 مدل ۲۰B در عین سبک بودن، عملکردی نزدیک به مدل‌هایی مانند o3-mini دارد و برای سیستم‌های ضعیف‌تر بسیار مناسب است.

---

🔧 نسخه‌هایی با دقت ۴ بیت و ۱۶ بیت نیز آماده شده‌اند.
نسخه ۴ بیتی حتی قابلیت فاین‌تیون روی کارت‌های گرافیک با ۲۴ گیگابایت VRAM را دارد.

📄 مستندات کامل برای نصب و آموزش، توسط تیم Unsloth منتشر شده و گام‌به‌گام مراحل راه‌اندازی را توضیح داده است.

منابع:
لینک 1

لینک 2

#مدل_زبانی #هوش_مصنوعی #GPT_OSS #Unsloth #GGUF #LLM

@rss_ai_ir

👍16🎉13👏11🥰9😁9❤7🔥6

803 views11:45

VIRSUN

مدل‌های اپن‌سورس جدید GPT-OSS از OpenAI منتشر شدند 🧠⚙️

برای نخستین‌بار بعد از GPT-2، اوپن‌ای‌آی وزن‌های دو مدل بزرگ را در دسترس عموم قرار داده:
مدل های gpt-oss-20B و gpt-oss-120B. این مدل‌ها بر پایه‌ی Mixture-of-Experts (MoE) ساخته شده‌اند، با طول کانتکست تا ۱۲۸k و قابلیت تنظیم سطح استدلال (low / medium / high). همچنین فرمت جدیدی به نام harmony برای پیام‌ها معرفی شده است.

---

🔹 معماری و مشخصات فنی

❇️ مدل ۱۲۰B شامل ۱۲۸ کارشناس است که تنها ۴ کارشناس روی هر توکن فعال می‌شوند.
❇️ مدل ۲۰B شامل ۳۲ کارشناس است.
❇️ حجم چک‌پوینت‌ها: حدود ۶۰.۸ GiB (۱۲۰B) و ۱۲.۸ GiB (۲۰B).
❇️ با فشرده‌سازی MXFP4، مدل ۱۲۰B روی GPU با ۸۰ گیگابایت حافظه جا می‌شود و مدل ۲۰B روی کارت‌های ۱۶ گیگابایتی قابل اجراست.
❇️ طول کانتکست: تا \~۱۲۸k توکن.

---

🔹 ویژگی‌های کلیدی

❇️ فرمت harmony با سه کانال خروجی:

❇️قابلیت analysis (تفکر و بخشی از tool calls)
❇️ commentary (فراخوانی ابزارها)
❇️final (نتیجه نهایی)
❇️ حالت‌های استدلال (Reasoning modes): low / medium / high در پرامپت سیستم مشخص می‌شوند و بین سرعت، دقت و هزینه تعادل ایجاد می‌کنند.
❇️ توکنایزر جدید o200k\_harmony با دقت بهتر روی کاراکترهای غیرانگلیسی و اموجی‌ها.

---

🔹 مثال برای تنظیم سطح استدلال

<|start|>system<|message|>
You are a helpful AI. 
Reasoning: medium 
Tools: web_search, python 
<|end|>

---

🔹 اهمیت در عمل

✅ ساخت دستیارهای محلی و آفلاین با داده‌های حساس روی سخت‌افزار در دسترس.
✅استانداردسازی پرامپت با harmony و سازگاری راحت‌تر با vLLM، Ollama و سایر ران‌تایم‌ها.
✅ امکان انتخاب سطح استدلال برای کنترل بهتر روی سرعت ↔️ دقت ↔️ هزینه.

---

🔹 نکات تکمیلی
❌ زنجیره‌های استدلال (CoT) بدون فیلتر نباید مستقیم به کاربر نمایش داده شوند.
❌ دیتاست آموزشی بیشتر انگلیسی است، برای کاربردهای فارسی یا روسی نیاز به فاین‌تیون یا تطبیق وجود دارد.

---

✅ جمع‌بندی: GPT-OSS جهش انقلابی نیست، بلکه نتیجه‌ی مهندسی دقیق و استانداردسازی است که آستانه‌ی ورود به دنیای مدل‌های اپن‌سورس و قابل‌کنترل را پایین‌تر می‌آورد.

📌 مطالعه بیشتر: [Jay Alammar – Visual GPT-OSS](https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss)

#هوش_مصنوعی #مدل_زبان #اپن_سورس #GPT_OSS
@rss_ai_ir

👍1🔥1🙏1

743 views04:23

About

Blog

Apps

Platform