اینجا دوستان چیینی از خوبی های یادگیری تقویتی میگن 😀
مدلهای زبانی بزرگ (LLMs) در استدلال پیچیده پیشرفت چشمگیری داشتهاند، اما اغلب برای پاسخگویی به سوالات متکی بر دانش داخلی خود هستند. این مسئله باعث خطاهای اطلاعاتی و توهمات (Hallucination) میشود، بهویژه در پرسشهای وابسته به اطلاعات بهروز یا خاص.
🔹 این مقاله R1-Searcher را معرفی میکند؛ یک روش جدید یادگیری تقویتی (RL) دو مرحلهای که LLMها را قادر میسازد بهطور خودکار سیستمهای جستجو را فراخوانی کنند تا در حین پردازش استدلال، به اطلاعات بیرونی دسترسی داشته باشند.
روش RL بهتر از SFT در جستجوی اطلاعات خارجی عمل میکند، زیرا SFT اغلب بر دانش داخلی متکی است که ممکن است نادرست یا قدیمی باشد.
▪️ R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
#مقاله #ایده_جذاب #یادگیری_تقویتی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
مدلهای زبانی بزرگ (LLMs) در استدلال پیچیده پیشرفت چشمگیری داشتهاند، اما اغلب برای پاسخگویی به سوالات متکی بر دانش داخلی خود هستند. این مسئله باعث خطاهای اطلاعاتی و توهمات (Hallucination) میشود، بهویژه در پرسشهای وابسته به اطلاعات بهروز یا خاص.
🔹 این مقاله R1-Searcher را معرفی میکند؛ یک روش جدید یادگیری تقویتی (RL) دو مرحلهای که LLMها را قادر میسازد بهطور خودکار سیستمهای جستجو را فراخوانی کنند تا در حین پردازش استدلال، به اطلاعات بیرونی دسترسی داشته باشند.
روش RL بهتر از SFT در جستجوی اطلاعات خارجی عمل میکند، زیرا SFT اغلب بر دانش داخلی متکی است که ممکن است نادرست یا قدیمی باشد.
▪️ R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
#مقاله #ایده_جذاب #یادگیری_تقویتی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍11
ا trae یه IDE رایگان و جایگزین Cursor هست.
بهصورت کاملاً رایگان و بدون محدودیت به Cloud 3.7 دسترسی دارین!
https://www.trae.ai/
بهصورت کاملاً رایگان و بدون محدودیت به Cloud 3.7 دسترسی دارین!
https://www.trae.ai/
www.trae.ai
TRAE - Collaborate with Intelligence
TRAE IDE integrates seamlessly into your workflow, collaborating with you to maximize performance and efficiency.
❤17👎2🕊1
Fine-tuning Guide
There are 3 other settings which you can toggle:
max_seq_length = 2048 – Controls context length. While Llama-3 supports 8192, we recommend 2048 for testing. Unsloth enables 4× longer context fine-tuning.
dtype = None – Defaults to None; use torch.float16 or torch.bfloat16 for newer GPUs.
load_in_4bit = True – Enables 4-bit quantization, reducing memory use 4× for fine-tuning on 16GB GPUs. Disabling it on larger GPUs (e.g., H100) slightly improves accuracy (1–2%)
https://docs.unsloth.ai/get-started/fine-tuning-guide
There are 3 other settings which you can toggle:
max_seq_length = 2048 – Controls context length. While Llama-3 supports 8192, we recommend 2048 for testing. Unsloth enables 4× longer context fine-tuning.
dtype = None – Defaults to None; use torch.float16 or torch.bfloat16 for newer GPUs.
load_in_4bit = True – Enables 4-bit quantization, reducing memory use 4× for fine-tuning on 16GB GPUs. Disabling it on larger GPUs (e.g., H100) slightly improves accuracy (1–2%)
https://docs.unsloth.ai/get-started/fine-tuning-guide
unsloth.ai
Fine-tuning LLMs Guide | Unsloth Documentation
Learn all the basics and best practices of fine-tuning. Beginner-friendly.
👍5❤1
Forwarded from DeepMind AI Expert (Farzad)
این یک تبلیغ نیست
سلام دوستان لینک فیلترشکن برای برنامهنویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها رو معرفی میکنم برای استفادع از لینک دعوت من استفاده کنین هم شما ی فیلترشکن مطمین استفاده کنین بدونین قطعی نداره هم من ی حجمی بدست بیارم😁، هم شما به فیلترشکنی قابل پشتیبان دسترسی داشته باشید
✅ خرید فیلترشکن
پ.ن: خدماتشون من به شدت راضیم دوستانتون رو دعوت کنید و حجم هدیه بگیرید
سلام دوستان لینک فیلترشکن برای برنامهنویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها رو معرفی میکنم برای استفادع از لینک دعوت من استفاده کنین هم شما ی فیلترشکن مطمین استفاده کنین بدونین قطعی نداره هم من ی حجمی بدست بیارم😁، هم شما به فیلترشکنی قابل پشتیبان دسترسی داشته باشید
✅ خرید فیلترشکن
پ.ن: خدماتشون من به شدت راضیم دوستانتون رو دعوت کنید و حجم هدیه بگیرید
Telegram
F14 Panel
🕸 خدمات گذر از تحریم برای برنامهنویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها.
👩💻 پشتیبانی:
@F14sup
👩💻 پشتیبانی:
@F14sup
👍8👎8❤4
This media is not supported in your browser
VIEW IN TELEGRAM
میخواین برپایه هوش مصنوعی چیزی تولید کنین نگاهی به این دوتا لینک بندازید
https://github.com/STS-3D
https://github.com/MAVProxyUser/Gelblaster_Wingman
#رباتیک
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://github.com/STS-3D
https://github.com/MAVProxyUser/Gelblaster_Wingman
#رباتیک
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍6
مدلهای مولد مانند Diffusion Models و Flow Matching کیفیت بالایی دارند اما سرعت استنتاج پایینی دارند. روشهای کاهش مراحل استنتاج مانند Distillation و Consistency Models معمولاً به مشکلاتی مانند ناپایداری و نیاز به تنظیمات دقیق دچار میشوند.
به همین دلیل، مقاله Inductive Moment Matching (IMM) را معرفی میکند؛ روشی که بدون نیاز به مرحله پیشآموزش و دو شبکه جداگانه، یک مدل پایدار و سریع برای تولید دادههای با کیفیت بالا ارائه میدهد.
✅ سرعت استنتاج بالا (در مقایسه با Diffusion Models که نیاز به صدها مرحله دارند).
✅ پایداری بالا در آموزش (برخلاف Consistency Models که ناپایدار هستند).
✅ بدون نیاز به مرحله Distillation (درحالیکه روشهای دیگر نیاز به دو مرحله آموزشی دارند).
▪️ Inductive Moment Matching
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
به همین دلیل، مقاله Inductive Moment Matching (IMM) را معرفی میکند؛ روشی که بدون نیاز به مرحله پیشآموزش و دو شبکه جداگانه، یک مدل پایدار و سریع برای تولید دادههای با کیفیت بالا ارائه میدهد.
✅ سرعت استنتاج بالا (در مقایسه با Diffusion Models که نیاز به صدها مرحله دارند).
✅ پایداری بالا در آموزش (برخلاف Consistency Models که ناپایدار هستند).
✅ بدون نیاز به مرحله Distillation (درحالیکه روشهای دیگر نیاز به دو مرحله آموزشی دارند).
▪️ Inductive Moment Matching
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍11❤2
This media is not supported in your browser
VIEW IN TELEGRAM
مدلهای بینایی-زبانی (VLMs) اخیراً در زمینههایی مانند #برنامه_نویسی و علوم عملکردی در حد یا حتی فراتر از انسان داشتهاند. در حوزه رانندگی #خودران، مدلهای (End-to-End) تواناییهای برنامهریزی را بهبود بخشیدهاند، اما هنوز در موقعیتهای پیچیده و غیرمعمول عملکرد ضعیفی دارند. این مقاله روش AlphaDrive را معرفی میکند، که یک چارچوب ترکیبی از #یادگیری_تقویتی (RL) و #استدلال برای بهبود برنامهریزی در رانندگی خودران است. AlphaDrive یک مدل VLM مبتنی بر یادگیری تقویتی و استدلال است که هدف آن افزایش دقت برنامهریزی در سیستمهای خودران است. این روش از بهینهسازی سیاست نسبی گروهی (GRPO) برای بهبود عملکرد یادگیری تقویتی استفاده میکند. همچنین از یک استراتژی دو مرحلهای برای ترکیب #یادگیری_تحت_نظارت (SFT) و یادگیری تقویتی بهره میبرد.
▪️ AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
#ایده_جذاب #ماشین_خودران
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
#ایده_جذاب #ماشین_خودران
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍10❤1🆒1
در #مقاله "Visual-RFT یک روش جدید به نام تنظیم تقویتی بصری (Visual Reinforcement Fine-Tuning - Visual-RFT) معرفی میکند که هدف آن بهبود عملکرد مدلهای بزرگ بینایی-زبانی (LVLMs) در وظایف خاص دامنه با استفاده از #یادگیری_تقویتی است. این روش با استفاده از پاداشهای قابل تأیید بصری و الگوریتمهای بهینهسازی سیاست مانند بهینهسازی سیاست نسبی گروهی (GRPO)، مدل را تنظیم میکند.
▪️ Visual-RFT: Visual Reinforcement Fine-Tuning
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Visual-RFT: Visual Reinforcement Fine-Tuning
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍7
مدل Reka با قابلیت استدلال بصورت #متن_باز منتشر شد. مدل Reka یک مدل زبانی چندوجهی می باشد
این مدل عملکردی رقابتی با مدلهای openai مثل OpenAI o1-mini را دارد هم اکنون میتونین باهاش به گفتگو بپردازید
▪️ Reka
▪️ Opensource
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
این مدل عملکردی رقابتی با مدلهای openai مثل OpenAI o1-mini را دارد هم اکنون میتونین باهاش به گفتگو بپردازید
▪️ Reka
▪️ Opensource
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍9❤2
روز جهانی لباس کُردی رو به کُرد زبان های ایران تبریک میگم
❤61👎15👍13🔥1
از بیکار شدن برنامه نویسان میگن ولی کماکان به توسعه دهندگانش نیاز دارن
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍17👎2
DeepMind AI Expert
https://huggingface.co/blog/gemma3 .... https://youtube.com/watch?v=UU13FN2Xpyw
داستان این مدل جدید گوگل از ده سال پیش شروع شد زمانی که جفری هینتون مقاله
Knowledge Distillation
منتشر کرد
روشی به نام «استخراج دانش» (Distillation) را معرفی میکند که هدف آن انتقال دانش از یک مدل بزرگ یا مجموعهای از مدلها به یک مدل کوچکتر و کارآمدتر است. این روش بهویژه برای بهبود عملکرد مدلهای #یادگیری_ماشین در محیطهای با محدودیت منابع مفید است.
▪️ Distilling the Knowledge in a Neural Network
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
Knowledge Distillation
منتشر کرد
روشی به نام «استخراج دانش» (Distillation) را معرفی میکند که هدف آن انتقال دانش از یک مدل بزرگ یا مجموعهای از مدلها به یک مدل کوچکتر و کارآمدتر است. این روش بهویژه برای بهبود عملکرد مدلهای #یادگیری_ماشین در محیطهای با محدودیت منابع مفید است.
▪️ Distilling the Knowledge in a Neural Network
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍14❤4