VIRSUN

🚀 پیشرفت گوگل: کاهش ۱۰هزار برابری نیاز به داده برای فاین‌تیون LLM
@rss_ai_ir

🔍 گوگل روشی مقیاس‌پذیر در Active Learning توسعه داده که حجم داده برچسب‌خورده موردنیاز برای آموزش مدل‌های زبانی بزرگ (LLM) را در وظایف پیچیده – مثل مـدراتـیـون محتوای تبلیغاتی – تا ده‌ها هزار برابر کاهش می‌دهد.

---

🛠 مراحل کار

1. مدل اولیه (LLM-0) روی کل داده پیش‌بینی و برچسب‌گذاری خودکار انجام می‌دهد.
2. داده‌ها خوشه‌بندی می‌شوند تا سخت‌ترین و مبهم‌ترین نمونه‌ها شناسایی شود.
3. تنها نمونه‌های متنوع و با بیشترین ارزش یادگیری انتخاب می‌شوند.
4. این نمونه‌ها توسط کارشناسان انسانی برچسب‌گذاری می‌شوند.
5. فرآیند آموزش → انتخاب نمونه‌های دشوار → برچسب‌گذاری → آموزش مجدد چند بار تکرار می‌شود.

---

📊 نتایج کلیدی

* کاهش از ۱۰۰هزار نمونه برچسب‌خورده به کمتر از ۵۰۰ نمونه با حفظ یا بهبود کیفیت.
* بهبود معیار Cohen’s Kappa بین ۵۵ تا ۶۵ درصد.
* در مدل‌های بزرگ عملیاتی: صرفه‌جویی ۳ تا ۴ مرتبه‌ای در داده با کیفیت برابر یا بهتر.

---

📌معیار Cohen’s Kappa چیست؟
معیاری برای سنجش میزان توافق بین دو ارزیاب (مثلاً کارشناس و مدل) با حذف اثر توافق تصادفی:

* ۰.۰ → بدون توافق
* ۰.۴۱–۰.۶۰ → توافق متوسط
* ۰.۶۱–۰.۸۰ → توافق قابل توجه
* ۰.۸۱–۱.۰۰ → توافق تقریباً کامل

مزیت نسبت به Accuracy: مناسب‌تر برای داده‌های با توزیع نامتوازن کلاس‌ها.

---

💡 مزیت‌های روش گوگل

* برچسب‌گذاری فقط روی نمونه‌های مهم
* مقیاس‌پذیر برای دیتاست‌های حجیم (صدها میلیارد نمونه)
* کاهش شدید هزینه و زمان برچسب‌گذاری
* انطباق سریع برای حوزه‌هایی با تغییرات مداوم قوانین (مانند تبلیغات، امنیت، محتوای کاربری)

---

📥 مطالعه کامل در بلاگ گوگل:
[https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/]

#هوش_مصنوعی #ActiveLearning #گوگل #LLM #یادگیری_ماشین #DataEfficiency
@rss_ai_ir

🔥23❤21🥰21😁20🎉20👏17👍12🙏1

796 views10:33

About

Blog

Apps

Platform