Градиент обреченный – Telegram

Градиент обреченный

7.98K subscribers

839 photos

20 videos

8 files

458 links

- hfday.ru
- https://habr.com/ru/users/averkij/
- lingtra.in
- prince.lingtrain.ru

Download Telegram

About

Blog

Apps

Platform

Градиент обреченный

7.98K subscribers

Градиент обреченный

→ Приобщаемся к ML, DS и другим аббревиатурам

🍾1

329 views07:20

Градиент обреченный

Forwarded from я обучала одну модель

This media is not supported in your browser

VIEW IN TELEGRAM

У Майкрософт какое-то время назад вышла статья про µTransfer – эффективную технику подбора гиперпараметров для гигантских нейросетей

In a nutshell, сначала они придумали, как более эффективно скейлить веса моделей при инициализации и апдейте, так, чтобы не взрывались и не затухали градиенты. Потом оказалось, что при такой параметризации можно ‘переносить’ гиперпараметры – сначала найти наилучшие значения для тренировки модели поменьше, и потом перенести их на большую модель. И теоретически, и эмпирически оказывается, что оптимальные значения гиперпараметров для обучения будут +- близки при таком скейлинге, то есть, например, оптимальные значения learning rate для большой и маленькой модели будут совпадать. В частности это хорошо работает при увеличении width сетки (числа нейронов в одном слое), но и для глубины, батчсайза и sequence length работает тоже

Авторы так перенесли параметры обучения GPT 40M на GPT 6B, и их модель побила качество модели такого же размера на NLU задачах

333 views06:36

Градиент обреченный

☀️ Хорошая статья про текущие тренды в NLP. На хабре тоже был перевод, но в оригинале точнее.

https://ruder.io/ml-highlights-2021/

ML and NLP Research Highlights of 2021

This post summarizes progress across multiple impactful areas in ML and NLP in 2021.

252 viewsedited 06:47

Градиент обреченный

Forwarded from AI для Всех

Обновился блокнот DiscoDiffusion по генерации чумовых картинок и видео.

- Turbo Mode from @zippy731
- Smoother video init
- 3D rotation params are now in degrees rather than radians
- diffusion_sampling_mode allows selection of DDIM vs PLMS

Играть тут

#text2image

232 views06:53

Градиент обреченный

Forwarded from AI для Всех

Мы выложили 5ую лекцию из курса «Нейронные сети и их применение в научных исследованиях».

В лекции поговорили про Рекуррентные сети (RNN). Разобрали, что такое последовательности; как с ними работать; и почему для работы с ними применяются именно RNN. В третей части лекции, как обычно, крутые научные примеры!

🎥 Лекция 5. Рекуррентные сети

«Нейронные сети и их применение в научных исследованиях». Лекция 5: Рекуррентные сети

Архив лекций межфакультетского курса «Нейронные сети и их применение в научных исследованиях» для студентов МГУ.
Актуальные материалы смотрите на сайте https://msu.ai/mfk

Пятое занятие на МФК-курсе «Нейронные сети и их применение в научных исследованиях»…

220 views06:53

Градиент обреченный

Forwarded from DL in NLP (Vlad Lialin)

Интересно видеть много новых работ в которых пытаются предсказать гиперпараметры и перфоманс больших моделей. Постфактум абсолютно очевидно, что сейчас многие беспокоятся об этом, тк хотелось бы скейлить моедли эффективно.

Статья про µTransfer даёт нам очень интересный и теоретически подкреплённый взгляд на то как выбирать lr, beta1, beta2 и параметры инициализации (к сожалению только эти гиперпараметры) для моделей. С учётом того что метод очень легко имплементировать (см картинку), ожидаю что через пару лет он будет дефолтом во всех фреймворках.

В пару дней назад DeepMind опубликовал статью, где они исследовали tradeoff между размером модели, датасета и FLOPS. Главное их заключение в том, что вообще говоря при фиксированном компьюте мы должны делать модели чуть-чуть поменьше и давать им больше данных, чем мы делаем сейчас. Для того чтобы это продемонстировать они тренируют модель Chinchilla 70B, которая показывает себя лучше чем Gopher 280B. Однако тут все не так чисто, тк сетап заметно отличается от Gopher: используют AdamW, другую токенизацию и float32 для параметров оптимизатора.

Вангую что в этом году будет 2-3 статьи-ревью исследований по скейлингу моделей.

208 views06:54

Градиент обреченный

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Друзья, увидел прикольную вариацию нерфа "Neural RGB-D Surface Reconstruction". Нерф обучили на RGBD сканах и таким образом могут достойно восстанавливать поверхности,а не только рендерить сцену с новых углов. Обычно neural radiance fields очень плохо восстанавливают именно форму предметов, но это не мешает им получать качественный рендеринг.

190 views06:54

Градиент обреченный

Forwarded from я обучала одну модель

На stackoverflow тем временем появились темы в честь первого апреля, некоторые даже ничего 😳

180 views06:55

Градиент обреченный

Forwarded from Denis Sexy IT 🤖

Полезный пост для инженеров ML – про важность фильтрации данных перед обучением нейронок:

Вы точно слышали, что для определения covid (помните, был такой?) было создано множество разных инструментов на основе нейронок и всяких там ИИ. К сожалению, ни один из них не заработал нормально – а какие-то оказались даже вредны, из 232 протестированных алгоритмов только 2 посчитали хоть как-то эффективными.

Вот, например, одно из исследований Кембриджа — команда сосредоточилась на моделях обучения диагностирования covid и прогнозирования рисков на основе рентгеновских снимков грудной клетки и компьютерной томографии. Как итог, из 415 опубликованных инструментов ни один не подошел для клинического использования ¯\_(ツ)_/¯

Многие проблемы были связаны с откровенно низким качеством датесета, на котором обучали ИИ, снимки и прочая информация распространялись в разгар пандемии хаотично, зачастую их просто распространяли обычные врачи, которые пытались лечить пациентов. Все хотели быстро помочь, но это были единственные общедоступные данные, местами даже из неизвестных источников. То есть те, кто создавал алгоритмы обучения, использовали неверно интерпретированный датасет, а модели были не просто нерабочие, а могли и откровенно вредить.

Еще часто встречались «датасеты Франкенштейна» — это когда датасет собирается из нескольких источников и может содержать дубликаты, это означает, что разные алгоритмы тестируются на одних и тех же данных, так что о точности работы тут речь не идет.

Многие датасеты включали в себя снимки грудных клеток детей, которые даже не болели covid в качестве примера того, как выглядят случаи, не связанные с ковидным заболеванием.

В итоге алгоритм научился определять детей, а не ковид. Или ещё — датасет со снимками пациента лёжа и стоя. Поскольку у пациентов, которых сканировали лёжа, была большая вероятность серьезной болезни, ИИ решил, что вероятность covid выше у лежачих.

Доходит до смешного: некоторые алгоритмы научились узнавать похожие шрифты госпиталей где делали скан грудной клетки и таким образом те снимки из госпиталей где случаев было исторически много, помечались как положительные.

В общем, в ML все еще без чудес – чтобы алгоритмы работали как нужно, нужны идеальные данные. И чтобы из собрать нужно быть или богатым, или хитрым.

Я кстати писал про один такой алгоритм в разгар пандемии, там все еще примитивнее было – прошел туториал, уже ML-инженер 🌚

187 views06:55

Градиент обреченный

Forwarded from эйай ньюз

Вы, кстати, знали про nvitop? Это просто красиво, да еще и утилизациию видюшек показывает.

Тут есть целый блогпост про разные варианты мониторинга ваших GPU.

181 views06:30

Градиент обреченный

Forwarded from эйай ньюз

Задача сортировки маленьких массивов данных примитивных типов является частой операцией во многих алгоритмах. Для скорости важно уметь компилировать алгоритм сортировки в наименьшее количество ассемблерных инструкций и без ветвлений. Так вот, парни из DeepMind натравили сетку MuZero на эту задачу, чтобы она с помощью Reinforcement Learning поискала, как улучшить существующие алгоритмы сортировки.

До этого:
Sort3 компилировалася в 18 инструкций (3 элемента за 3 сравнения)
Sort4 - в 28 (4 элемента за 5 сравнений)
Sort5 - в 46 (5 элементов за 9 сравнений).

MuZero:
Нашла как сделать sort3 за 17 инструкций, sort5 за 43!!! Это прям круто и очень неожиданно! Тут пожно посмотерть патч в llvm.

Подробнее в посте у experimentalchill.

179 views07:07

Градиент обреченный

Forwarded from Derp Learning

Коду Make-a-scene - быть!

Коллективное сознательное начало пилить pytorch-имплементацию нашумевшей make-a-scene - архитектуры для генерации изображений по сегментационной маске и текстовому запросу.

Пока все на очень ранней стадии, но такими темпами мы либо увидим полноценный опенсорсный работающий код в апреле, либо это сподвигнет оригинальных разработчиков выложить свой код первыми :D

Код

173 views07:26

Градиент обреченный

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

Вышло обновление Disco Diffusion 5.1 для генерации картинок и видео.

Телега шакалит качество 😢

-> Ссылка на колаб

170 views05:53

Градиент обреченный

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️Latent Diffusion

Парни из моей научной группы (Heidelberg Uni + LMU) запилили соту в text-to-image генерации!

Новая моедель - Latent Diffusion умеет генерить картинки из воздуха, так же как и по классовому лейблу, семантической сегментации или по текстовому описанию. Более того она может и в super-resolution, и зарисовывать дыры в картинках.

Классические диффузионные модели довольно громоздкие и медленные. Главный трюк нового метода - это запуск дифуззионного процесса на скрытых векторах в ботленеке автоэнкодера, вместо сырых пикселей, как это делалось раньше. За счет этого стало возможным найти сладкий баланс между экспрессивностью модели и ее громоздкостью. То есть такую диффузию можно обучить (и тестировать) за адекватное время на умеренных вычислительных ресурсах. Парни тренили на одной NVIDIA A100.

Потыкать можно в код или в колаб. А подробнее про метод - в статье

189 views05:55

Градиент обреченный

Forwarded from Мишин Лернинг

Media is too big

VIEW IN TELEGRAM

🥑😈 DALL•E 2 от OpenAI: Hierarchical Text-Conditional Image Generation with CLIP Latents

2021 год показал, что contrastive модели, такие как CLIP, выучивают качественное пространство визуальных и текстовых репрезентаций.

Ресерчеры из OpenAI решили использовать эти репрезентации для генерации изображений! Встречайте двухэтапную модель DALL•E 2, которая скрещивает диффузионный декодер и диффузионную визуальную модель DALL-E (ребята, кстати, показали, что диффузия таки более вычислительно выгодная и качественная нежели авторегрессия) и контрастный CLIP!

🧪 Если проще, то это очень изящный вариант, чтобы скрестить CLIP и DALL•E, где можно пользоваться векторам (эммбедингами) CLIP’a, и создавать новые изображения на основании и изображений примеров (доноров) и текстовых описаний. Такой подход позволяет не только генерировать превосходные изображения, но и изменять существующие!

p.s.: да, OpenAI все еще ClosedAI, так что надежда или на крутой клон от Stability.AI, ну или на waitlist 🙃

📰 Paper 🎓 Blog 🎥 Янык

194 views06:40

Градиент обреченный

👁 Пока все восхищаются невероятным качеством сгенерированных картинок из статьи про DALL-E можно поиграться с сетью Latent Diffusion и самому посоздавать такой прекрасный арт.

👉 https://huggingface.co/spaces/multimodalart/latentdiffusion

259 views07:08

Градиент обреченный

Channel photo updated

07:53

Градиент обреченный

Forwarded from Neurohive

Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков.

#StateoftheArt

👍2

217 views07:54

Читать подробнее

Градиент обреченный

Написал небольшую статью про восстановление пунктуации и заглавных букв. Полезная вещь в задачах ASR, где транскрипция изначально в нижнем регистре, без точек и запятых.

https://habr.com/ru/company/ods/blog/660041/

Нюансы распознавания речи. Восстанавливаем пунктуацию, числа и заглавные буквы

⭐ градиент обреченный В задачах распознаваниях речи при переводе аудио в текст есть дополнительные этапы, делающие этот текст более человекочитаемым. Например, предложение " привет хабр сегодня...

🔥4👍1

229 views07:49

Градиент обреченный

Forwarded from DL in NLP (Vlad Lialin)

В Optimum добавили очень простой способ квантизовывать модели из Transformers.

Вообще интересно как квантизация будет жить вместе с большими моделями. Вокруг себя вижу сильный рост интереса попробовать модели в 1B параметров и больше на различных задачах, но эти модели даже при переводе в fp16 зачастую перестают работать.

huggingface.co/docs/optimum/main/en/quickstart

🤔1

214 views06:33

Градиент обреченный

Forwarded from эйай ньюз

Китайцы ~~стыбзили у NVIDIA~~ сделали свою видеокарту!

Поделка поддерживает OpenCL, OpenGL, Vulkan и даже Nvidia CUDA! По сути работает со всеми основными библиотеками, значит, наверное, можно и сетки на ней гонять.

Объявлены две видеокарты: MTT S60 для крестьян и MTT S2000 для серверов.
S60 это 6 TFLOPSб 2048 ядер и 8ГБ памяти, для S2000 — 12 TFLOPS, 4096 ядер, и 32 ГБ.
Техпроцесс 12 нм.

Из приколов. Фирма, которая выпустила сие чудо, называется Moore Threads и была основана в 2020. А ее основатель и CEO, Чжан Цзяньчжун, — это бывший глобальный вице-президент NVIDIA и ген. менеджер в Китае.

I’m not sure if... Но тут невольно вспомнился недавний слив технических документов NVIDIA некими хакерами.

Купить китайские видеокарты пока нигде нельзя, но новость очень занимательная (спасибо @cgevent). Ведь это первая заявка на прямую конкуренцию с монополистом NVIDIA на рынке GPU, AMD не в счёт.

👍1🔥1

233 views06:40