🕔RIZZEARCH THROWBACK 🕔
Теперь иногда в риззерче мы будет писать про статьи до 2021 года включительно. Это некая классика - то, что было проверено временем и повлияло на создание новых методов. Такие посты будут отмечены соответствующей надписью
Теперь иногда в риззерче мы будет писать про статьи до 2021 года включительно. Это некая классика - то, что было проверено временем и повлияло на создание новых методов. Такие посты будут отмечены соответствующей надписью
👍14
Generalization in Diffusion Models Arises from Geometry-Adaptive Harmonic Representations (OUTSTANDING PAPER AWARD 🥇)
Вы когда-нибудь задумывались каким образом обобщаются диффузионные модели? Или почему мы можем наблюдать меморизацию тренировочных данных у таких моделей как Stable Diffusion? Статья? Получившая outstanding paper award на ICLR 2024🔥 статья, отвечает на эти вопросы
В диффузионных моделях есть проблема меморизации - это когда при семплировании модель буквально воспроизводит тренировочные семплы или же комбинирует детали из нескольких. Меморизация тесно пересекается с обобщением. Чем больше датасет, тем больше ошибка на тренировке и меньше на тесте. Модель постепенно переходит от меморизации к обобщению и выучивает истинную score функцию. Однако, так ли это?🤔
Авторы делят тренировочные картинки на два непересекающихся набора и показывают, что при достаточно большом количестве картинок сетки на разных наборах выучивают примерно одинаковые score функцию - признак обобщения
Далее логичный вопрос - какие inductive biases позволяют диффузиям избегать проклятия размерности и обобщаться? Авторы исследуют декомпозицию Якобиана денойзера через собственные значения и приходят к выводу, что денойзер постепенно уменьшает влияние вариаций в датасете. Собственные значения обычно маленькие, что говорит, о инвариантности генераций относительно преобразований в зашумленной картинке и низкоранговой структуре Якобиана. Также, исследуя базисы на собственных векторах, мы можем судить о важности разреженных репрезентаций картинок, которые связаны с качеством генераций
Если посмотреть на собственные значения и ветктора относительно зашумленных картинок, мы получим четкую картинку - денойзер быстро достигает спарсификации и показывает колебательные собственные вектора 🔀. Базисы этих векторов адаптируются под конкретные контуры и участки картинок. Такие базисы назвали geometry-adaptive harmonic bases (GAHBs) и они от части отвечают за обобщение диффузионных моделей
👀 LINK
Вы когда-нибудь задумывались каким образом обобщаются диффузионные модели? Или почему мы можем наблюдать меморизацию тренировочных данных у таких моделей как Stable Diffusion? Статья? Получившая outstanding paper award на ICLR 2024
В диффузионных моделях есть проблема меморизации - это когда при семплировании модель буквально воспроизводит тренировочные семплы или же комбинирует детали из нескольких. Меморизация тесно пересекается с обобщением. Чем больше датасет, тем больше ошибка на тренировке и меньше на тесте. Модель постепенно переходит от меморизации к обобщению и выучивает истинную score функцию. Однако, так ли это?
Авторы делят тренировочные картинки на два непересекающихся набора и показывают, что при достаточно большом количестве картинок сетки на разных наборах выучивают примерно одинаковые score функцию - признак обобщения
Далее логичный вопрос - какие inductive biases позволяют диффузиям избегать проклятия размерности и обобщаться? Авторы исследуют декомпозицию Якобиана денойзера через собственные значения и приходят к выводу, что денойзер постепенно уменьшает влияние вариаций в датасете. Собственные значения обычно маленькие, что говорит, о инвариантности генераций относительно преобразований в зашумленной картинке и низкоранговой структуре Якобиана. Также, исследуя базисы на собственных векторах, мы можем судить о важности разреженных репрезентаций картинок, которые связаны с качеством генераций
Если посмотреть на собственные значения и ветктора относительно зашумленных картинок, мы получим четкую картинку - денойзер быстро достигает спарсификации и показывает колебательные собственные вектора 🔀. Базисы этих векторов адаптируются под конкретные контуры и участки картинок. Такие базисы назвали geometry-adaptive harmonic bases (GAHBs) и они от части отвечают за обобщение диффузионных моделей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4🔥3👎1
Neural Redshift: Random Networks are not Random Functions
оказывается, если рандомно инитить нейронки, то аутпуты будут вовсе не рандомными. а рассматривали степень нерандомности через уровень сложности аутпута
эту сложность определяли через
- частотность (по фурье)
- полиномиальную декомпозицию
- сжимаемость (LZW compressibility, не знаю как лучше по-русски)
и что же было обнаружено? - самый главный вывод состоит в том, что simplicity bias не совсем заслуга обучения модели. оно не убирает этот биас, но и не является его причиной, а появляется это смещение из-за часто используемых деталей в моделях, как релу, леернорм или резидуал коннекшны.
эффективность нейронных сетей — это не свойство обученных параметров, а скорее результат адекватного выбора между деталями архитектуры (например, ReLU) и свойствами реальных данных (например, эвиденс о преобладании паттернов низкой частотности).
в частности еще можно сказать, что релу и леернорма во многом влияют на симплисити биас, что в принципе в литературе не упоминалось. а отмечались только численно стабильное превосходство методов, отсутствие затухающих градиентов и всякое такое + трансформеры по своей архитектуре имеют тенденцию к последовательностям, которые компрессятся лучше всего (пища для размышлений)
есть много красивых графиков, от которых у меня аж вдохновление появляется заниматься ресерчем (как например Figure 4)
👀LINK
оказывается, если рандомно инитить нейронки, то аутпуты будут вовсе не рандомными. а рассматривали степень нерандомности через уровень сложности аутпута
эту сложность определяли через
- частотность (по фурье)
- полиномиальную декомпозицию
- сжимаемость (LZW compressibility, не знаю как лучше по-русски)
и что же было обнаружено? - самый главный вывод состоит в том, что simplicity bias не совсем заслуга обучения модели. оно не убирает этот биас, но и не является его причиной, а появляется это смещение из-за часто используемых деталей в моделях, как релу, леернорм или резидуал коннекшны.
эффективность нейронных сетей — это не свойство обученных параметров, а скорее результат адекватного выбора между деталями архитектуры (например, ReLU) и свойствами реальных данных (например, эвиденс о преобладании паттернов низкой частотности).
в частности еще можно сказать, что релу и леернорма во многом влияют на симплисити биас, что в принципе в литературе не упоминалось. а отмечались только численно стабильное превосходство методов, отсутствие затухающих градиентов и всякое такое + трансформеры по своей архитектуре имеют тенденцию к последовательностям, которые компрессятся лучше всего (пища для размышлений)
есть много красивых графиков, от которых у меня аж вдохновление появляется заниматься ресерчем (как например Figure 4)
👀LINK
🔥7👏3👍1
rizzearch
Neural Redshift: Random Networks are not Random Functions оказывается, если рандомно инитить нейронки, то аутпуты будут вовсе не рандомными. а рассматривали степень нерандомности через уровень сложности аутпута эту сложность определяли через - частотность…
Please open Telegram to view this post
VIEW IN TELEGRAM
Full Parameter Fine-tuning for Large Language Models with Limited Resources
не лорой единой можно пробовать файнтюнить ллмки
относительно давняя идея, но все равно интересная. обучают все параметры модели при том не улетает все в стратосферу относительно памяти - low memory optimization
как этого достигли? как я понял, вычисляют градиенты послойно по параметрам, начиная с последнего слоя (потому что бекворд очевидно), после чего их сразу очищают ⇒ получаем независимую от количества слоев комплексити по памяти в плане градиентов, а даже O(1)
есть приросты по метрикам в том числе и на действительно больших ллмках что круто
стоит подметить, что основную часть по памяти занимают параметры - и по идее это основной фронтир в улучшении таких методов
👀LINK
кстати не стоит забывать и про GaLore, может он даже перспективнее будет
не лорой единой можно пробовать файнтюнить ллмки
относительно давняя идея, но все равно интересная. обучают все параметры модели при том не улетает все в стратосферу относительно памяти - low memory optimization
как этого достигли? как я понял, вычисляют градиенты послойно по параметрам, начиная с последнего слоя (потому что бекворд очевидно), после чего их сразу очищают ⇒ получаем независимую от количества слоев комплексити по памяти в плане градиентов, а даже O(1)
есть приросты по метрикам в том числе и на действительно больших ллмках что круто
стоит подметить, что основную часть по памяти занимают параметры - и по идее это основной фронтир в улучшении таких методов
👀LINK
кстати не стоит забывать и про GaLore, может он даже перспективнее будет
❤3 3👍1
AdaLomo: Low-memory Optimization with Adaptive Learning Rate
писали о LOMO, а эти авторы улучшают метод, снижая чувствительность к гиперам и поболе улучшая результаты как следствие
что они сделали? добавили адаптивность лр в стиле адама и нормализацию градиентов (при том нетривиальную, она подвязана как на норме градиентов, так и на норме параметров) → улучшается перформанс, да и даже снижается чуть-чуть по памяти потребление
только оверхед получаем но не думаю что это сильно страшно
👀LINK
писали о LOMO, а эти авторы улучшают метод, снижая чувствительность к гиперам и поболе улучшая результаты как следствие
что они сделали? добавили адаптивность лр в стиле адама и нормализацию градиентов (при том нетривиальную, она подвязана как на норме градиентов, так и на норме параметров) → улучшается перформанс, да и даже снижается чуть-чуть по памяти потребление
только оверхед получаем но не думаю что это сильно страшно
👀LINK
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
по ощущениям, самый часто используемый шедулинг - косинусный. но он, как демонстрируют авторы, неоптимален.
он достигает оптимального лосса, когда длина кос цикла нацело делит количество апдейт степов обучения, но во время трейна перформанс хуже.
значит, чтобы черри пикнуть лучшие результаты модели, надо потренить с разным гипером цикла (я забыл как он называется но вы поняли, Т в псевдокодах), не считая перебор других гиперов ⇒ не айс, вот и многие забивают и не перебирают это
авторы предлагают альтернативу, которую уже прозвали трапецеидальным лр - переменная смена на линейный и константный шедулинг
и это суперски работает! достигает такого же перформанса, который может достигнуть косинусный шедулинг (не факт что не изобрести еще лучше шедулинг), при этом легче изучать результаты моделей при масштабировании кол-ва параметров, что супер круто и для ресерча и для продакшна
много графиков, которые показывают зависимость результата от новых гиперов в этом шедулинге, так что статья очень классная. есть даже подсекция про важность scaling laws
👀LINK
по ощущениям, самый часто используемый шедулинг - косинусный. но он, как демонстрируют авторы, неоптимален.
он достигает оптимального лосса, когда длина кос цикла нацело делит количество апдейт степов обучения, но во время трейна перформанс хуже.
значит, чтобы черри пикнуть лучшие результаты модели, надо потренить с разным гипером цикла (я забыл как он называется но вы поняли, Т в псевдокодах), не считая перебор других гиперов ⇒ не айс, вот и многие забивают и не перебирают это
авторы предлагают альтернативу, которую уже прозвали трапецеидальным лр - переменная смена на линейный и константный шедулинг
и это суперски работает! достигает такого же перформанса, который может достигнуть косинусный шедулинг (не факт что не изобрести еще лучше шедулинг), при этом легче изучать результаты моделей при масштабировании кол-ва параметров, что супер круто и для ресерча и для продакшна
много графиков, которые показывают зависимость результата от новых гиперов в этом шедулинге, так что статья очень классная. есть даже подсекция про важность scaling laws
👀LINK
👍3 3 1 1
The Road Less Scheduled
мое видение статьи - авторам надоело настраивать warmup_steps параметр для шедулинга при обучении моделек и они углубились в теорию и сделали вообще такую надстройку над оптимизаторами, которым не нужен шедулинг (но иронично все равно нужен warmup_steps)
однако, механика шедулинга все же косвенно осталась, ее развили авторы на основе теории итеративного усреднения ⇒ новый метод, которому не нужен шедулинг, подразумевает из себя трейдофф между Polyak-Ruppert averaging & Primal Averaging. в общем авторы реально лютые
к тому же это все можно накинуть на уже существующие оптимизаторы, например на адамв + надо подбирать лернинг рейт вейт дикей снова - деталь, но важная
протестили много датасетов и много моделей в св и нлп (и не только, в общей сложности 28 тасок), правда меньше миллиарда параметров составляют
ну посмотрим, как теория на скейле больших моделей скажется
код есть, гиперы репортят, все круто
👀LINK
мое видение статьи - авторам надоело настраивать warmup_steps параметр для шедулинга при обучении моделек и они углубились в теорию и сделали вообще такую надстройку над оптимизаторами, которым не нужен шедулинг (но иронично все равно нужен warmup_steps)
однако, механика шедулинга все же косвенно осталась, ее развили авторы на основе теории итеративного усреднения ⇒ новый метод, которому не нужен шедулинг, подразумевает из себя трейдофф между Polyak-Ruppert averaging & Primal Averaging. в общем авторы реально лютые
к тому же это все можно накинуть на уже существующие оптимизаторы, например на адамв + надо подбирать лернинг рейт вейт дикей снова - деталь, но важная
протестили много датасетов и много моделей в св и нлп (и не только, в общей сложности 28 тасок), правда меньше миллиарда параметров составляют
ну посмотрим, как теория на скейле больших моделей скажется
код есть, гиперы репортят, все круто
👀LINK