Forwarded from я обучала одну модель
This media is not supported in your browser
VIEW IN TELEGRAM
У Майкрософт какое-то время назад вышла статья про µTransfer – эффективную технику подбора гиперпараметров для гигантских нейросетей
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже
Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах
☀️ Хорошая статья про текущие тренды в NLP. На хабре тоже был перевод, но в оригинале точнее.
https://ruder.io/ml-highlights-2021/
https://ruder.io/ml-highlights-2021/
ruder.io
ML and NLP Research Highlights of 2021
This post summarizes progress across multiple impactful areas in ML and NLP in 2021.
Forwarded from AI для Всех
Обновился блокнот DiscoDiffusion по генерации чумовых картинок и видео.
- Turbo Mode from @zippy731
- Smoother video init
- 3D rotation params are now in degrees rather than radians
- diffusion_sampling_mode allows selection of DDIM vs PLMS
Играть тут
#text2image
- Turbo Mode from @zippy731
- Smoother video init
- 3D rotation params are now in degrees rather than radians
- diffusion_sampling_mode allows selection of DDIM vs PLMS
Играть тут
#text2image
Forwarded from AI для Всех
Мы выложили 5ую лекцию из курса «Нейронные сети и их применение в научных исследованиях».
В лекции поговорили про Рекуррентные сети (RNN). Разобрали, что такое последовательности; как с ними работать; и почему для работы с ними применяются именно RNN. В третей части лекции, как обычно, крутые научные примеры!
🎥 Лекция 5. Рекуррентные сети
В лекции поговорили про Рекуррентные сети (RNN). Разобрали, что такое последовательности; как с ними работать; и почему для работы с ними применяются именно RNN. В третей части лекции, как обычно, крутые научные примеры!
🎥 Лекция 5. Рекуррентные сети
YouTube
«Нейронные сети и их применение в научных исследованиях». Лекция 5: Рекуррентные сети
Архив лекций межфакультетского курса «Нейронные сети и их применение в научных исследованиях» для студентов МГУ.
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Пятое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Актуальные материалы смотрите на сайте https://msu.ai/mfk
Пятое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…
Forwarded from DL in NLP (Vlad Lialin)
Интересно видеть много новых работ в которых пытаются предсказать гиперпараметры и перфоманс больших моделей. Постфактум абсолютно очевидно, что сейчас многие беспокоятся об этом, тк хотелось бы скейлить моедли эффективно.
Статья про µTransfer даёт нам очень интересный и теоретически подкреплённый взгляд на то как выбирать lr, beta1, beta2 и параметры инициализации (к сожалению только эти гиперпараметры) для моделей. С учётом того что метод очень легко имплементировать (см картинку), ожидаю что через пару лет он будет дефолтом во всех фреймворках.
В пару дней назад DeepMind опубликовал статью, где они исследовали tradeoff между размером модели, датасета и FLOPS. Главное их заключение в том, что вообще говоря при фиксированном компьюте мы должны делать модели чуть-чуть поменьше и давать им больше данных, чем мы делаем сейчас. Для того чтобы это продемонстировать они тренируют модель Chinchilla 70B, которая показывает себя лучше чем Gopher 280B. Однако тут все не так чисто, тк сетап заметно отличается от Gopher: используют AdamW, другую токенизацию и float32 для параметров оптимизатора.
Вангую что в этом году будет 2-3 статьи-ревью исследований по скейлингу моделей.
Статья про µTransfer даёт нам очень интересный и теоретически подкреплённый взгляд на то как выбирать lr, beta1, beta2 и параметры инициализации (к сожалению только эти гиперпараметры) для моделей. С учётом того что метод очень легко имплементировать (см картинку), ожидаю что через пару лет он будет дефолтом во всех фреймворках.
В пару дней назад DeepMind опубликовал статью, где они исследовали tradeoff между размером модели, датасета и FLOPS. Главное их заключение в том, что вообще говоря при фиксированном компьюте мы должны делать модели чуть-чуть поменьше и давать им больше данных, чем мы делаем сейчас. Для того чтобы это продемонстировать они тренируют модель Chinchilla 70B, которая показывает себя лучше чем Gopher 280B. Однако тут все не так чисто, тк сетап заметно отличается от Gopher: используют AdamW, другую токенизацию и float32 для параметров оптимизатора.
Вангую что в этом году будет 2-3 статьи-ревью исследований по скейлингу моделей.
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, увидел прикольную вариацию нерфа "Neural RGB-D Surface Reconstruction". Нерф обучили на RGBD сканах и таким образом могут достойно восстанавливать поверхности,а не только рендерить сцену с новых углов. Обычно neural radiance fields очень плохо восстанавливают именно форму предметов, но это не мешает им получать качественный рендеринг.
Forwarded from я обучала одну модель
На stackoverflow тем временем появились темы в честь первого апреля, некоторые даже ничего 😳
Forwarded from Denis Sexy IT 🤖
Полезный пост для инженеров ML – про важность фильтрации данных перед обучением нейронок:
Вы точно слышали, что для определения covid (помните, был такой?) было создано множество разных инструментов на основе нейронок и всяких там ИИ. К сожалению, ни один из них не заработал нормально – а какие-то оказались даже вредны, из 232 протестированных алгоритмов только 2 посчитали хоть как-то эффективными.
Вот, например, одно из исследований Кембриджа — команда сосредоточилась на моделях обучения диагностирования covid и прогнозирования рисков на основе рентгеновских снимков грудной клетки и компьютерной томографии. Как итог, из 415 опубликованных инструментов ни один не подошел для клинического использования ¯\_(ツ)_/¯
Многие проблемы были связаны с откровенно низким качеством датесета, на котором обучали ИИ, снимки и прочая информация распространялись в разгар пандемии хаотично, зачастую их просто распространяли обычные врачи, которые пытались лечить пациентов. Все хотели быстро помочь, но это были единственные общедоступные данные, местами даже из неизвестных источников. То есть те, кто создавал алгоритмы обучения, использовали неверно интерпретированный датасет, а модели были не просто нерабочие, а могли и откровенно вредить.
Еще часто встречались «датасеты Франкенштейна» — это когда датасет собирается из нескольких источников и может содержать дубликаты, это означает, что разные алгоритмы тестируются на одних и тех же данных, так что о точности работы тут речь не идет.
Многие датасеты включали в себя снимки грудных клеток детей, которые даже не болели covid в качестве примера того, как выглядят случаи, не связанные с ковидным заболеванием.
В итоге алгоритм научился определять детей, а не ковид. Или ещё — датасет со снимками пациента лёжа и стоя. Поскольку у пациентов, которых сканировали лёжа, была большая вероятность серьезной болезни, ИИ решил, что вероятность covid выше у лежачих.
Доходит до смешного: некоторые алгоритмы научились узнавать похожие шрифты госпиталей где делали скан грудной клетки и таким образом те снимки из госпиталей где случаев было исторически много, помечались как положительные.
В общем, в ML все еще без чудес – чтобы алгоритмы работали как нужно, нужны идеальные данные. И чтобы из собрать нужно быть или богатым, или хитрым.
Я кстати писал про один такой алгоритм в разгар пандемии, там все еще примитивнее было – прошел туториал, уже ML-инженер 🌚
Вы точно слышали, что для определения covid (помните, был такой?) было создано множество разных инструментов на основе нейронок и всяких там ИИ. К сожалению, ни один из них не заработал нормально – а какие-то оказались даже вредны, из 232 протестированных алгоритмов только 2 посчитали хоть как-то эффективными.
Вот, например, одно из исследований Кембриджа — команда сосредоточилась на моделях обучения диагностирования covid и прогнозирования рисков на основе рентгеновских снимков грудной клетки и компьютерной томографии. Как итог, из 415 опубликованных инструментов ни один не подошел для клинического использования ¯\_(ツ)_/¯
Многие проблемы были связаны с откровенно низким качеством датесета, на котором обучали ИИ, снимки и прочая информация распространялись в разгар пандемии хаотично, зачастую их просто распространяли обычные врачи, которые пытались лечить пациентов. Все хотели быстро помочь, но это были единственные общедоступные данные, местами даже из неизвестных источников. То есть те, кто создавал алгоритмы обучения, использовали неверно интерпретированный датасет, а модели были не просто нерабочие, а могли и откровенно вредить.
Еще часто встречались «датасеты Франкенштейна» — это когда датасет собирается из нескольких источников и может содержать дубликаты, это означает, что разные алгоритмы тестируются на одних и тех же данных, так что о точности работы тут речь не идет.
Многие датасеты включали в себя снимки грудных клеток детей, которые даже не болели covid в качестве примера того, как выглядят случаи, не связанные с ковидным заболеванием.
В итоге алгоритм научился определять детей, а не ковид. Или ещё — датасет со снимками пациента лёжа и стоя. Поскольку у пациентов, которых сканировали лёжа, была большая вероятность серьезной болезни, ИИ решил, что вероятность covid выше у лежачих.
Доходит до смешного: некоторые алгоритмы научились узнавать похожие шрифты госпиталей где делали скан грудной клетки и таким образом те снимки из госпиталей где случаев было исторически много, помечались как положительные.
В общем, в ML все еще без чудес – чтобы алгоритмы работали как нужно, нужны идеальные данные. И чтобы из собрать нужно быть или богатым, или хитрым.
Я кстати писал про один такой алгоритм в разгар пандемии, там все еще примитивнее было – прошел туториал, уже ML-инженер 🌚
Forwarded from эйай ньюз
Задача сортировки маленьких массивов данных примитивных типов является частой операцией во многих алгоритмах. Для скорости важно уметь компилировать алгоритм сортировки в наименьшее количество ассемблерных инструкций и без ветвлений. Так вот, парни из DeepMind натравили сетку MuZero на эту задачу, чтобы она с помощью Reinforcement Learning поискала, как улучшить существующие алгоритмы сортировки.
До этого:
Sort3 компилировалася в 18 инструкций (3 элемента за 3 сравнения)
Sort4 - в 28 (4 элемента за 5 сравнений)
Sort5 - в 46 (5 элементов за 9 сравнений).
MuZero:
Нашла как сделать sort3 за 17 инструкций, sort5 за 43!!! Это прям круто и очень неожиданно! Тут пожно посмотерть патч в llvm.
Подробнее в посте у experimentalchill.
До этого:
Sort3 компилировалася в 18 инструкций (3 элемента за 3 сравнения)
Sort4 - в 28 (4 элемента за 5 сравнений)
Sort5 - в 46 (5 элементов за 9 сравнений).
MuZero:
Нашла как сделать sort3 за 17 инструкций, sort5 за 43!!! Это прям круто и очень неожиданно! Тут пожно посмотерть патч в llvm.
Подробнее в посте у experimentalchill.
Forwarded from Derp Learning
Коду Make-a-scene - быть!
Коллективное сознательное начало пилить pytorch-имплементацию нашумевшей make-a-scene - архитектуры для генерации изображений по сегментационной маске и текстовому запросу.
Пока все на очень ранней стадии, но такими темпами мы либо увидим полноценный опенсорсный работающий код в апреле, либо это сподвигнет оригинальных разработчиков выложить свой код первыми :D
Код
Коллективное сознательное начало пилить pytorch-имплементацию нашумевшей make-a-scene - архитектуры для генерации изображений по сегментационной маске и текстовому запросу.
Пока все на очень ранней стадии, но такими темпами мы либо увидим полноценный опенсорсный работающий код в апреле, либо это сподвигнет оригинальных разработчиков выложить свой код первыми :D
Код
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Вышло обновление Disco Diffusion 5.1 для генерации картинок и видео.
Телега шакалит качество 😢
-> Ссылка на колаб
Телега шакалит качество 😢
-> Ссылка на колаб
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️Latent Diffusion
Парни из моей научной группы (Heidelberg Uni + LMU) запилили соту в text-to-image генерации!
Новая моедель - Latent Diffusion умеет генерить картинки из воздуха, так же как и по классовому лейблу, семантической сегментации или по текстовому описанию. Более того она может и в super-resolution, и зарисовывать дыры в картинках.
Классические диффузионные модели довольно громоздкие и медленные. Главный трюк нового метода - это запуск дифуззионного процесса на скрытых векторах в ботленеке автоэнкодера, вместо сырых пикселей, как это делалось раньше. За счет этого стало возможным найти сладкий баланс между экспрессивностью модели и ее громоздкостью. То есть такую диффузию можно обучить (и тестировать) за адекватное время на умеренных вычислительных ресурсах. Парни тренили на одной NVIDIA A100.
Потыкать можно в код или в колаб. А подробнее про метод - в статье
Парни из моей научной группы (Heidelberg Uni + LMU) запилили соту в text-to-image генерации!
Новая моедель - Latent Diffusion умеет генерить картинки из воздуха, так же как и по классовому лейблу, семантической сегментации или по текстовому описанию. Более того она может и в super-resolution, и зарисовывать дыры в картинках.
Классические диффузионные модели довольно громоздкие и медленные. Главный трюк нового метода - это запуск дифуззионного процесса на скрытых векторах в ботленеке автоэнкодера, вместо сырых пикселей, как это делалось раньше. За счет этого стало возможным найти сладкий баланс между экспрессивностью модели и ее громоздкостью. То есть такую диффузию можно обучить (и тестировать) за адекватное время на умеренных вычислительных ресурсах. Парни тренили на одной NVIDIA A100.
Потыкать можно в код или в колаб. А подробнее про метод - в статье
Forwarded from Мишин Лернинг
Media is too big
VIEW IN TELEGRAM
🥑😈 DALL•E 2 от OpenAI: Hierarchical Text-Conditional Image Generation with CLIP Latents
2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.
Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!
🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!
p.s.: да, OpenAI все еще ClosedAI, так что надежда или на крутой клон от Stability.AI, ну или на waitlist 🙃
📰 Paper 🎓 Blog 🎥 Янык
2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.
Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!
🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!
p.s.: да, OpenAI все еще ClosedAI, так что надежда или на крутой клон от Stability.AI, ну или на waitlist 🙃
📰 Paper 🎓 Blog 🎥 Янык
👁 Пока все восхищаются невероятным качеством сгенерированных картинок из статьи про DALL-E можно поиграться с сетью Latent Diffusion и самому посоздавать такой прекрасный арт.
👉 https://huggingface.co/spaces/multimodalart/latentdiffusion
👉 https://huggingface.co/spaces/multimodalart/latentdiffusion
Forwarded from Neurohive
Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков.
#StateoftheArt
#StateoftheArt
👍2
Написал небольшую статью про восстановление пунктуации и заглавных букв. Полезная вещь в задачах ASR, где транскрипция изначально в нижнем регистре, без точек и запятых.
https://habr.com/ru/company/ods/blog/660041/
https://habr.com/ru/company/ods/blog/660041/
Хабр
Нюансы распознавания речи. Восстанавливаем пунктуацию, числа и заглавные буквы
⭐ градиент обреченный В задачах распознаваниях речи при переводе аудио в текст есть дополнительные этапы, делающие этот текст более человекочитаемым. Например, предложение " привет хабр сегодня...
🔥4👍1
Forwarded from DL in NLP (Vlad Lialin)
В Optimum добавили очень простой способ квантизовывать модели из Transformers.
Вообще интересно как квантизация будет жить вместе с большими моделями. Вокруг себя вижу сильный рост интереса попробовать модели в 1B параметров и больше на различных задачах, но эти модели даже при переводе в fp16 зачастую перестают работать.
huggingface.co/docs/optimum/main/en/quickstart
Вообще интересно как квантизация будет жить вместе с большими моделями. Вокруг себя вижу сильный рост интереса попробовать модели в 1B параметров и больше на различных задачах, но эти модели даже при переводе в fp16 зачастую перестают работать.
huggingface.co/docs/optimum/main/en/quickstart
🤔1
Forwarded from эйай ньюз
Китайцы стыбзили у NVIDIA сделали свою видеокарту!
Поделка поддерживает OpenCL, OpenGL, Vulkan и даже Nvidia CUDA! По сути работает со всеми основными библиотеками, значит, наверное, можно и сетки на ней гонять.
Объявлены две видеокарты: MTT S60 для крестьян и MTT S2000 для серверов.
S60 это 6 TFLOPSб 2048 ядер и 8ГБ памяти, для S2000 — 12 TFLOPS, 4096 ядер, и 32 ГБ.
Техпроцесс 12 нм.
Из приколов. Фирма, которая выпустила сие чудо, называется Moore Threads и была основана в 2020. А ее основатель и CEO, Чжан Цзяньчжун, — это бывший глобальный вице-президент NVIDIA и ген. менеджер в Китае.
I’m not sure if... Но тут невольно вспомнился недавний слив технических документов NVIDIA некими хакерами.
Купить китайские видеокарты пока нигде нельзя, но новость очень занимательная (спасибо @cgevent). Ведь это первая заявка на прямую конкуренцию с монополистом NVIDIA на рынке GPU, AMD не в счёт.
Поделка поддерживает OpenCL, OpenGL, Vulkan и даже Nvidia CUDA! По сути работает со всеми основными библиотеками, значит, наверное, можно и сетки на ней гонять.
Объявлены две видеокарты: MTT S60 для крестьян и MTT S2000 для серверов.
S60 это 6 TFLOPSб 2048 ядер и 8ГБ памяти, для S2000 — 12 TFLOPS, 4096 ядер, и 32 ГБ.
Техпроцесс 12 нм.
Из приколов. Фирма, которая выпустила сие чудо, называется Moore Threads и была основана в 2020. А ее основатель и CEO, Чжан Цзяньчжун, — это бывший глобальный вице-президент NVIDIA и ген. менеджер в Китае.
I’m not sure if... Но тут невольно вспомнился недавний слив технических документов NVIDIA некими хакерами.
Купить китайские видеокарты пока нигде нельзя, но новость очень занимательная (спасибо @cgevent). Ведь это первая заявка на прямую конкуренцию с монополистом NVIDIA на рынке GPU, AMD не в счёт.
👍1🔥1
