📌 انواع روشهای گرادیان و آپدیت وزنها در شبکههای عصبی
@rss_ai_ir 🤖
🔹 Gradient Descent (GD) — #GradientDescent
رویکرد پایهای و دقیق برای بهینهسازی، اما بسیار کند روی دیتاستهای بزرگ.
🔹 Stochastic Gradient Descent (SGD) — #SGD
هر بار با یک نمونه وزنها را بهروزرسانی میکند؛ سریع ولی پر از نویز.
🔹 Mini-Batch GD — #MiniBatchGD
ترکیب دقت GD و سرعت SGD؛ نیازمند انتخاب درست اندازه بچ.
🔹 Momentum — #Momentum
به کمک اینرسی، نوسان را کم و سرعت همگرایی را بالا میبرد، ولی به نرخ یادگیری حساس است.
🔹 Nesterov Accelerated Gradient (NAG) — #NAG
جهت بهینه را پیشبینی کرده و سریعتر همگرا میشود، اما محاسباتش پیچیدهتر است.
🔹 Adagrad — #Adagrad
برای هر پارامتر نرخ یادگیری جداگانه تنظیم میکند؛ مناسب دادههای پراکنده ولی نرخ یادگیری در طول زمان افت میکند.
🔹 RMSProp — #RMSProp
نرخ یادگیری پایدار نگه داشته و برای RNN و CNN عالی است؛ نیاز به تنظیم بتا دارد.
🔹 Adam — #AdamOptimizer
ترکیب مزایای Momentum و RMSProp، پرکاربرد و سریع، ولی ممکن است در مینیمم محلی گیر کند.
🔹 AdamW — #AdamW
نسخه بهبود یافته Adam برای جلوگیری از overfitting در مدلهای بزرگ.
🔹 Nadam — #Nadam
ترکیب Adam و NAG برای پایداری بیشتر ولی با پیچیدگی محاسباتی بالاتر.
💡 انتخاب درست این روشها میتواند آموزش مدل را هم سریعتر و هم دقیقتر کند.
@rss_ai_ir
@rss_ai_ir 🤖
🔹 Gradient Descent (GD) — #GradientDescent
رویکرد پایهای و دقیق برای بهینهسازی، اما بسیار کند روی دیتاستهای بزرگ.
🔹 Stochastic Gradient Descent (SGD) — #SGD
هر بار با یک نمونه وزنها را بهروزرسانی میکند؛ سریع ولی پر از نویز.
🔹 Mini-Batch GD — #MiniBatchGD
ترکیب دقت GD و سرعت SGD؛ نیازمند انتخاب درست اندازه بچ.
🔹 Momentum — #Momentum
به کمک اینرسی، نوسان را کم و سرعت همگرایی را بالا میبرد، ولی به نرخ یادگیری حساس است.
🔹 Nesterov Accelerated Gradient (NAG) — #NAG
جهت بهینه را پیشبینی کرده و سریعتر همگرا میشود، اما محاسباتش پیچیدهتر است.
🔹 Adagrad — #Adagrad
برای هر پارامتر نرخ یادگیری جداگانه تنظیم میکند؛ مناسب دادههای پراکنده ولی نرخ یادگیری در طول زمان افت میکند.
🔹 RMSProp — #RMSProp
نرخ یادگیری پایدار نگه داشته و برای RNN و CNN عالی است؛ نیاز به تنظیم بتا دارد.
🔹 Adam — #AdamOptimizer
ترکیب مزایای Momentum و RMSProp، پرکاربرد و سریع، ولی ممکن است در مینیمم محلی گیر کند.
🔹 AdamW — #AdamW
نسخه بهبود یافته Adam برای جلوگیری از overfitting در مدلهای بزرگ.
🔹 Nadam — #Nadam
ترکیب Adam و NAG برای پایداری بیشتر ولی با پیچیدگی محاسباتی بالاتر.
💡 انتخاب درست این روشها میتواند آموزش مدل را هم سریعتر و هم دقیقتر کند.
@rss_ai_ir
👍1🔥1👏1