AI Для Всех
12.1K subscribers
1.04K photos
130 videos
10 files
1.32K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Media is too big
VIEW IN TELEGRAM
Сгенерил мем-ролик (сегментация при помощи DINO), что показать студент на лекции по сегментации
Красивые задачи (особенно первые две). Можно использовать на вступительных.

#Отборочные
Просто шикарный психодел. Чувак написал песню используя названия классов из ImageNet и сгенерировал к ней видиоклип используя CLIP и BigGan:

YouTube

#GAN #joke #text2image #CLIP
Оказывается любой GAN уже умеет отделять изображения от фона:

Project

#GAN #Separation
Forwarded from эйай ньюз
​​Итак, господа. Новый прорыв в self-supervised learning. Идея, как всегда, простая как апельсин.

До этого момента (почти) все тренили свои self-supervised модели на ImageNet и тестили там же. Фишка в том, что ImageNet — чистый датасет со сбалансированными классами и отцентрированными объектами. А если тренироваться на больших некурируемых датасетах как JFT-300M с 300-миллионами изображений (это внутряковый датасет Гугла) либо на YFCC100M с 95-миллионами, где распределение размера классов имеет тяжелый хвост, то точность SOTA моделей при тесте ImageNet существенно падает (с 74.3% до 65.3%). Все дело в том, что в таких больших датасетах очень много разных объектов, а иногда несколько на одной картинке, поэтому вероятность случайно выбрать сложные негативные примеры значительно ниже. То есть в среднем две случайные картинки слишком сильно отличаются => мало информации для обучения.

Авторы предлагают простой трюк. Разбиваем большой датасет на 5-10 кластеров и обучаем отдельные модели на каждом кластере, таким образом обучение отдельных моделей (экспертов) будет происходить на более близких картинках => негативные пары будут сложнее и более информативные. Далее фиксируем модели-эксперты и дистиллируем их в одну. Новая модель учится предсказывать фичи каждого эксперта с помощью L2 лосса. В итоге, офигенная точность на ImageNet при обучении без лейблов на JFT-300M: 77.3% Top1.

Подробнее в статье от DeepMind.
нашел хороший канал. В закрепе ам тоже очень крутая статья
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
Почему трансформеры сложнее обучать, почему обучение нестабильно в начале, и что с этим делать

Эмпирически известно, что архитектуру трансфорсеров обучить сложнее чем, например, сверточные сети. Они не обучаются SGD, а также, чтобы обучение вообще сошлось, почти всегда необходимо использовать прогрев лернинг рейта - линейное повышение лернинг рейта от 0 до используемого значения. Почему же так происходит, что необходим прогрев и можно ли обойтись без него или чем то заменить? На этот вопрос отвечает (пытается ответить) серия аж из трех статей. Каждая следующая говорит, что предыдущая статья не все учла/не решает всей проблемы/решение неудачное, и предлагает что то свое. Но в принципе в каждой написано что то полезное 😀

Конечный вывод такой (в статье Understanding the Difficulty of Training Transformers https://arxiv.org/abs/2004.08249 - у классической архитектуры трансформеров на начальном этапе обучения очень большая чувствительность выхода сети к небольшим изменениям параметров. Происходит это из-за Layer Normalization(LN) после каждого residual connection, из-за этого выход LN сильно зависит от residual branch (а не от skip connection). Предлагаемое решение - добавлять в residual connection веса, которые определенным образом инициализируются (таким образом, чтобы усилить зависимость от skip connection). Благодаря этим весам выход трансформера становится стабильнее, и можно обойтись даже без прогрева лернинг рейта.

Более подробный разбор каждой статьи в следующем посте.
Forwarded from Artemii
я не могу остановиться. a fox made of paper
Forwarded from Artemii
cartoon of a pink lama
Ещё вчера я развлекался с Big Sleep, как подъехала новая статья от гугла.

Ждём кооооод и веса!

#Text2Image #generative #multimodal