Почему добавление слишком большого momentum-параметра β в стохастическом градиенте может ухудшить обучение при очень шумных данных?
Anonymous Quiz
66%
Потому что накопленные скорости усиливают шум в направлении обновлений
12%
Потому что momentum уменьшает размер шага
19%
Потому что β влияет на регуляризацию
3%
Потому что градиенты перестают зависеть от потерь