🚀 پیشرفت گوگل: کاهش ۱۰هزار برابری نیاز به داده برای فاینتیون LLM
@rss_ai_ir
🔍 گوگل روشی مقیاسپذیر در Active Learning توسعه داده که حجم داده برچسبخورده موردنیاز برای آموزش مدلهای زبانی بزرگ (LLM) را در وظایف پیچیده – مثل مـدراتـیـون محتوای تبلیغاتی – تا دهها هزار برابر کاهش میدهد.
---
🛠 مراحل کار
1. مدل اولیه (LLM-0) روی کل داده پیشبینی و برچسبگذاری خودکار انجام میدهد.
2. دادهها خوشهبندی میشوند تا سختترین و مبهمترین نمونهها شناسایی شود.
3. تنها نمونههای متنوع و با بیشترین ارزش یادگیری انتخاب میشوند.
4. این نمونهها توسط کارشناسان انسانی برچسبگذاری میشوند.
5. فرآیند آموزش → انتخاب نمونههای دشوار → برچسبگذاری → آموزش مجدد چند بار تکرار میشود.
---
📊 نتایج کلیدی
* کاهش از ۱۰۰هزار نمونه برچسبخورده به کمتر از ۵۰۰ نمونه با حفظ یا بهبود کیفیت.
* بهبود معیار Cohen’s Kappa بین ۵۵ تا ۶۵ درصد.
* در مدلهای بزرگ عملیاتی: صرفهجویی ۳ تا ۴ مرتبهای در داده با کیفیت برابر یا بهتر.
---
📌معیار Cohen’s Kappa چیست؟
معیاری برای سنجش میزان توافق بین دو ارزیاب (مثلاً کارشناس و مدل) با حذف اثر توافق تصادفی:
* ۰.۰ → بدون توافق
* ۰.۴۱–۰.۶۰ → توافق متوسط
* ۰.۶۱–۰.۸۰ → توافق قابل توجه
* ۰.۸۱–۱.۰۰ → توافق تقریباً کامل
مزیت نسبت به Accuracy: مناسبتر برای دادههای با توزیع نامتوازن کلاسها.
---
💡 مزیتهای روش گوگل
* برچسبگذاری فقط روی نمونههای مهم
* مقیاسپذیر برای دیتاستهای حجیم (صدها میلیارد نمونه)
* کاهش شدید هزینه و زمان برچسبگذاری
* انطباق سریع برای حوزههایی با تغییرات مداوم قوانین (مانند تبلیغات، امنیت، محتوای کاربری)
---
📥 مطالعه کامل در بلاگ گوگل:
[https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/]
#هوش_مصنوعی #ActiveLearning #گوگل #LLM #یادگیری_ماشین #DataEfficiency
@rss_ai_ir
@rss_ai_ir
🔍 گوگل روشی مقیاسپذیر در Active Learning توسعه داده که حجم داده برچسبخورده موردنیاز برای آموزش مدلهای زبانی بزرگ (LLM) را در وظایف پیچیده – مثل مـدراتـیـون محتوای تبلیغاتی – تا دهها هزار برابر کاهش میدهد.
---
🛠 مراحل کار
1. مدل اولیه (LLM-0) روی کل داده پیشبینی و برچسبگذاری خودکار انجام میدهد.
2. دادهها خوشهبندی میشوند تا سختترین و مبهمترین نمونهها شناسایی شود.
3. تنها نمونههای متنوع و با بیشترین ارزش یادگیری انتخاب میشوند.
4. این نمونهها توسط کارشناسان انسانی برچسبگذاری میشوند.
5. فرآیند آموزش → انتخاب نمونههای دشوار → برچسبگذاری → آموزش مجدد چند بار تکرار میشود.
---
📊 نتایج کلیدی
* کاهش از ۱۰۰هزار نمونه برچسبخورده به کمتر از ۵۰۰ نمونه با حفظ یا بهبود کیفیت.
* بهبود معیار Cohen’s Kappa بین ۵۵ تا ۶۵ درصد.
* در مدلهای بزرگ عملیاتی: صرفهجویی ۳ تا ۴ مرتبهای در داده با کیفیت برابر یا بهتر.
---
📌معیار Cohen’s Kappa چیست؟
معیاری برای سنجش میزان توافق بین دو ارزیاب (مثلاً کارشناس و مدل) با حذف اثر توافق تصادفی:
* ۰.۰ → بدون توافق
* ۰.۴۱–۰.۶۰ → توافق متوسط
* ۰.۶۱–۰.۸۰ → توافق قابل توجه
* ۰.۸۱–۱.۰۰ → توافق تقریباً کامل
مزیت نسبت به Accuracy: مناسبتر برای دادههای با توزیع نامتوازن کلاسها.
---
💡 مزیتهای روش گوگل
* برچسبگذاری فقط روی نمونههای مهم
* مقیاسپذیر برای دیتاستهای حجیم (صدها میلیارد نمونه)
* کاهش شدید هزینه و زمان برچسبگذاری
* انطباق سریع برای حوزههایی با تغییرات مداوم قوانین (مانند تبلیغات، امنیت، محتوای کاربری)
---
📥 مطالعه کامل در بلاگ گوگل:
[https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/]
#هوش_مصنوعی #ActiveLearning #گوگل #LLM #یادگیری_ماشین #DataEfficiency
@rss_ai_ir
🔥23❤21🥰21😁20🎉20👏17👍12🙏1