Forwarded from я обучала одну модель
This media is not supported in your browser
VIEW IN TELEGRAM
У Майкрософт какое-то время назад вышла статья про µTransfer – эффективную технику подбора гиперпараметров для гигантских нейросетей
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
☀️ Хорошая статья про текущие тренды в NLP. На хабре тоже был перевод, но в оригинале точнее.
https://ruder.io/ml-highlights-2021/
https://ruder.io/ml-highlights-2021/
ruder.io
ML and NLP Research Highlights of 2021
This post summarizes progress across multiple impactful areas in ML and NLP in 2021.
Forwarded from AI для Всех
Обновился блокнот DiscoDiffusion по генерации чумовых картинок и видео.
- Turbo Mode from @zippy731
- Smoother video init
- 3D rotation params are now in degrees rather than radians
- diffusion_sampling_mode allows selection of DDIM vs PLMS
Играть тут
#text2image
- Turbo Mode from @zippy731
- Smoother video init
- 3D rotation params are now in degrees rather than radians
- diffusion_sampling_mode allows selection of DDIM vs PLMS
Играть тут
#text2image
Forwarded from AI для Всех
Мы выложили 5ую лекцию из курса «Нейронные сети и их применение в научных исследованиях».
В лекции поговорили про Рекуррентные сети (RNN). Разобрали, что такое последовательности; как с ними работать; и почему для работы с ними применяются именно RNN. В третей части лекции, как обычно, крутые научные примеры!
🎥 Лекция 5. Рекуррентные сети
В лекции поговорили про Рекуррентные сети (RNN). Разобрали, что такое последовательности; как с ними работать; и почему для работы с ними применяются именно RNN. В третей части лекции, как обычно, крутые научные примеры!
🎥 Лекция 5. Рекуррентные сети
YouTube
«Нейронные сети и их применение в научных исследованиях». Лекция 5: Рекуррентные сети
Архив лекций межфакультетского курса «Нейронные сети и их применение в научных исследованиях» для студентов МГУ.
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Пятое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Пятое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Forwarded from DL in NLP (Vlad Lialin)
Интересно видеть много новых работ в которых пытаются предсказать гиперпараметры и перфоманс больших моделей. Постфактум абсолютно очевидно, что сейчас многие беспокоятся об этом, тк хотелось бы скейлить моедли эффективно.
Статья про µTransfer даёт нам очень интересный и теоретически подкреплённый взгляд на то как выбирать lr, beta1, beta2 и параметры инициализации (к сожалению только эти гиперпараметры) для моделей. С учётом того что метод очень легко имплементировать (см картинку), ожидаю что через пару лет он будет дефолтом во всех фреймворках.
В пару дней назад DeepMind опубликовал статью, где они исследовали tradeoff между размером модели, датасета и FLOPS. Главное их заключение в том, что вообще говоря при фиксированном компьюте мы должны делать модели чуть-чуть поменьше и давать им больше данных, чем мы делаем сейчас. Для того чтобы это продемонстировать они тренируют модель Chinchilla 70B, которая показывает себя лучше чем Gopher 280B. Однако тут все не так чисто, тк сетап заметно отличается от Gopher: используют AdamW, другую токенизацию и float32 для параметров оптимизатора.
Вангую что в этом году будет 2-3 статьи-ревью исследований по скейлингу моделей.
Статья про µTransfer даёт нам очень интересный и теоретически подкреплённый взгляд на то как выбирать lr, beta1, beta2 и параметры инициализации (к сожалению только эти гиперпараметры) для моделей. С учётом того что метод очень легко имплементировать (см картинку), ожидаю что через пару лет он будет дефолтом во всех фреймворках.
В пару дней назад DeepMind опубликовал статью, где они исследовали tradeoff между размером модели, датасета и FLOPS. Главное их заключение в том, что вообще говоря при фиксированном компьюте мы должны делать модели чуть-чуть поменьше и давать им больше данных, чем мы делаем сейчас. Для того чтобы это продемонстировать они тренируют модель Chinchilla 70B, которая показывает себя лучше чем Gopher 280B. Однако тут все не так чисто, тк сетап заметно отличается от Gopher: используют AdamW, другую токенизацию и float32 для параметров оптимизатора.
Вангую что в этом году будет 2-3 статьи-ревью исследований по скейлингу моделей.
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, увидел прикольную вариацию нерфа "Neural RGB-D Surface Reconstruction". Нерф обучили на RGBD сканах и таким образом могут достойно восстанавливать поверхности,а не только рендерить сцену с новых углов. Обычно neural radiance fields очень плохо восстанавливают именно форму предметов, но это не мешает им получать качественный рендеринг.
Forwarded from я обучала одну модель
На stackoverflow тем временем появились темы в честь первого апреля, некоторые даже ничего 😳
Forwarded from Denis Sexy IT 🤖
Полезный пост для инженеров ML – про важность фильтрации данных перед обучением нейронок:
Вы точно слышали, что для определения covid (помните, был такой?) было создано множество разных инструментов на основе нейронок и всяких там ИИ. К сожалению, ни один из них не заработал нормально – а какие-то оказались даже вредны, из 232 протестированных алгоритмов только 2 посчитали хоть как-то эффективными.
Вот, например, одно из исследований Кембриджа — команда сосредоточилась на моделях обучения диагностирования covid и прогнозирования рисков на основе рентгеновских снимков грудной клетки и компьютерной томографии. Как итог, из 415 опубликованных инструментов ни один не подошел для клинического использования ¯\_(ツ)_/¯
Многие проблемы были связаны с откровенно низким качеством датесета, на котором обучали ИИ, снимки и прочая информация распространялись в разгар пандемии хаотично, зачастую их просто распространяли обычные врачи, которые пытались лечить пациентов. Все хотели быстро помочь, но это были единственные общедоступные данные, местами даже из неизвестных источников. То есть те, кто создавал алгоритмы обучения, использовали неверно интерпретированный датасет, а модели были не просто нерабочие, а могли и откровенно вредить.
Еще часто встречались «датасеты Франкенштейна» — это когда датасет собирается из нескольких источников и может содержать дубликаты, это означает, что разные алгоритмы тестируются на одних и тех же данных, так что о точности работы тут речь не идет.
Многие датасеты включали в себя снимки грудных клеток детей, которые даже не болели covid в качестве примера того, как выглядят случаи, не связанные с ковидным заболеванием.
В итоге алгоритм научился определять детей, а не ковид. Или ещё — датасет со снимками пациента лёжа и стоя. Поскольку у пациентов, которых сканировали лёжа, была большая вероятность серьезной болезни, ИИ решил, что вероятность covid выше у лежачих.
Доходит до смешного: некоторые алгоритмы научились узнавать похожие шрифты госпиталей где делали скан грудной клетки и таким образом те снимки из госпиталей где случаев было исторически много, помечались как положительные.
В общем, в ML все еще без чудес – чтобы алгоритмы работали как нужно, нужны идеальные данные. И чтобы из собрать нужно быть или богатым, или хитрым.
Я кстати писал про один такой алгоритм в разгар пандемии, там все еще примитивнее было – прошел туториал, уже ML-инженер 🌚
Вы точно слышали, что для определения covid (помните, был такой?) было создано множество разных инструментов на основе нейронок и всяких там ИИ. К сожалению, ни один из них не заработал нормально – а какие-то оказались даже вредны, из 232 протестированных алгоритмов только 2 посчитали хоть как-то эффективными.
Вот, например, одно из исследований Кембриджа — команда сосредоточилась на моделях обучения диагностирования covid и прогнозирования рисков на основе рентгеновских снимков грудной клетки и компьютерной томографии. Как итог, из 415 опубликованных инструментов ни один не подошел для клинического использования ¯\_(ツ)_/¯
Многие проблемы были связаны с откровенно низким качеством датесета, на котором обучали ИИ, снимки и прочая информация распространялись в разгар пандемии хаотично, зачастую их просто распространяли обычные врачи, которые пытались лечить пациентов. Все хотели быстро помочь, но это были единственные общедоступные данные, местами даже из неизвестных источников. То есть те, кто создавал алгоритмы обучения, использовали неверно интерпретированный датасет, а модели были не просто нерабочие, а могли и откровенно вредить.
Еще часто встречались «датасеты Франкенштейна» — это когда датасет собирается из нескольких источников и может содержать дубликаты, это означает, что разные алгоритмы тестируются на одних и тех же данных, так что о точности работы тут речь не идет.
Многие датасеты включали в себя снимки грудных клеток детей, которые даже не болели covid в качестве примера того, как выглядят случаи, не связанные с ковидным заболеванием.
В итоге алгоритм научился определять детей, а не ковид. Или ещё — датасет со снимками пациента лёжа и стоя. Поскольку у пациентов, которых сканировали лёжа, была большая вероятность серьезной болезни, ИИ решил, что вероятность covid выше у лежачих.
Доходит до смешного: некоторые алгоритмы научились узнавать похожие шрифты госпиталей где делали скан грудной клетки и таким образом те снимки из госпиталей где случаев было исторически много, помечались как положительные.
В общем, в ML все еще без чудес – чтобы алгоритмы работали как нужно, нужны идеальные данные. И чтобы из собрать нужно быть или богатым, или хитрым.
Я кстати писал про один такой алгоритм в разгар пандемии, там все еще примитивнее было – прошел туториал, уже ML-инженер 🌚
