Machine Learning NLP + CV

حتما این رشته توییت در مورد تعمیم‌پذیری و Flat Minima رو ببینید. بهینه‌ساز SGD ذاتا به دنبال flat minima می‌گرده و از این نظر generalization بهتری نسبت به بهینه‌ساز Adam داره. ولی دقیقا هم به flat minima نمی‌رسه. که خُب رویکردهای دیگری هم ارائه شد:
Two popular flat-minima optimization approaches are: 1. Stochastic Weight Averaging (SWA), and 2. Sharpness-Aware Minimization (SAM)

بهینه‌ساز SWA خیلی قدرتمند عمل کرده و به صورت رسمی در Pytorch نسخه 1.6 هم گنجونده شده...

#Generalization #Optimizer #Deep_Learning

@ml_nlp_cv

Twitter

Tanishq Mathew Abraham

What matters most when training a neural network is how well it generalizes to unseen data. For neural networks, it turns out there's a simple principle that can allow you to understand model generalization. (1/18) A thread ↓

148 viewsedited 10:18

About

Blog

Apps

Platform