حتما این رشته توییت در مورد تعمیمپذیری و Flat Minima رو ببینید. بهینهساز SGD ذاتا به دنبال flat minima میگرده و از این نظر generalization بهتری نسبت به بهینهساز Adam داره. ولی دقیقا هم به flat minima نمیرسه. که خُب رویکردهای دیگری هم ارائه شد:
Two popular flat-minima optimization approaches are: 1. Stochastic Weight Averaging (SWA), and 2. Sharpness-Aware Minimization (SAM)
بهینهساز SWA خیلی قدرتمند عمل کرده و به صورت رسمی در Pytorch نسخه 1.6 هم گنجونده شده...
#Generalization #Optimizer #Deep_Learning
@ml_nlp_cv
Two popular flat-minima optimization approaches are: 1. Stochastic Weight Averaging (SWA), and 2. Sharpness-Aware Minimization (SAM)
بهینهساز SWA خیلی قدرتمند عمل کرده و به صورت رسمی در Pytorch نسخه 1.6 هم گنجونده شده...
#Generalization #Optimizer #Deep_Learning
@ml_nlp_cv
Twitter
Tanishq Mathew Abraham
What matters most when training a neural network is how well it generalizes to unseen data. For neural networks, it turns out there's a simple principle that can allow you to understand model generalization. (1/18) A thread ↓