Интересное что-то

Forwarded from whargarbl

Инсайды по претрейну

0. Начните с первоисточника, я попробую подсветить только неочевидные места и грабли на кот наступил

https://karpathy.github.io/2019/04/25/recipe/

1. Самое главное. Можно биться головой об клавиатуру - запустить и будет работать. Потому что всем насрать. Здесь нет нерабочего кода. Это просто матрицы, они просто перемножаются. Можно написать вообще всё неправильно - и будет работать. И даже будет трениться, но очень хреново. Но вы даже не узнаете насколько хреново - тк сравнить не с чем

2. Следствие первого. Пишем трейн на мнист и гоняем гоняем гоняем. Добавляем строчку - прогоняем трейн - добавляем строчку - прогоняем трейн - сравниваем результат. Я начинал с МНИСТ зиферки различимы через 30 эпох - и пришел к мнист тренится за 4 эпохи (ну, уже видно что это цифра три).

3. Неочевидная хрень - велости предикшен дал нехилое ускорение, сложно сказать в штуках это надо смотреть глазами, я реально прифигел

4. Легенда про импортнуть веса думаю хрень. Вначале модель тренится очень быстро и при этом она очень нестабильна. Стабилизировать модель можно:
- стартовав с каких то весов написав конверТор
- включив клипинг по градиентам
- тупо пробить нестабильность протренив буквально минут 10 - пройти яму где модель колбасит как не в себя

Эффект примерно одинаковый. Те можно не танцевать с бубном а тупо пробить нестабильный старт и продолжить уже с претрейна или посмотреть где и как градинты взрываются и подобрать обрезку. Дальше все идет как по маслу в случае юнета. На Сана Взрыв/Кишки/Расчлененка были непрерывно на всех этапах - видимо от кривизны архитектуры сильно зависит насколько стабильно модель учится

5. Лернинг рейт. Я остановился на стратегии трейна на диапазоне, например
- начинаем трейн на 1e-4 и плавно снижаем его до 1e-5 в течение 20 эпох
- продолжаем трейн с 5e-5 и плавно снижаем его до 5e-6 в течение 20 эпох
- финальный файнтюн по обстоятельствам - но еще ниже и видимо плавнее. Это для Адам - для например Адафактора надо подбирать. Для другой модели - подбирать. Все через эксперименты. Например сперва я на втором этапе долбил с 1e-5 до 1e-6 - очень крутой спуск - модели очень тяжело

6. Есть две точки. Первая трейн уже не работает и где еще не работает. В моей модели верхняя точка примерно 1.5-e4 - выше сразу взрыв/кишки/расчлененка. Нижнюю я пока не нащупал. Мнист тренится где угодно сколько угодно и не видно переобучения. Но думаю низ будет в районе 7e-7 (по опыту сдхл)

Нет публикаций с каким ЛР тренили sd1.5 - но есть упоминание что начинали с 1e-4 и что снижали (вроде гдето в коде мелькало 5e-5) - видимо также игрались.

7. Градиент аккумулейшен степ дает огромный буст к размеру батчсайза (следовательно ускорению трейна) засчет снижения памяти - особенно при трейне на 1 ГПУ - я пока пробовал 4 и 2 - остановился на 2 - страшно

8. Переобучение не страшно. Всегда сможете поднять ЛР и "стереть" часть обучения. Страшно недообучение.

ТЛДР: это минное поле - обосраться можно запросто местах в пяти одновременно. Там вае не шифтнул, тут градин аккум в акселератор не прокинул, здесь град норм дважды применил или не в той последовательности. Самое удивительное - все работает. Но хреново. Очень странно.

47 views14:21