эйай ньюз
55.9K subscribers
1.34K photos
704 videos
7 files
1.66K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @kander426
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Классный эксперимент. Серое изображение раскрашивается в цвета таким образом, чтобы с точки зрения эмбеддинга CLIP раскраска была наиболее близка к стилю известных художников. Лосс итеративо уменьшается обновлением цветов. Спектакулярно!

Все-таки мощная штука этот ваш CLIP.
👾🎨 Denis Sexy IT 🤖+ Мишин Лернинг🤖🎓= Text2PixelArt + Zero-Shot PixelArt Style Transfer

◾️ Пару дней назад я выложил колаб по Text2PixelArt Мишин Лернинг 🤖🎓 Resolution Mod, который расширял функционал: давал возможность выбирать разрешение + улучшал качество картинки.

◾️ Сегодня Denis Sexy IT 🤖 собрал крутой колаб, основная идея которого: Zero-Shot PixelArt Style Transfer. Просто представьте, Style Transfer для которого не нужно ни одного примера (0-shot)! Этот мод дает возможность выбирать изображение, с которого начнется оптимизация. Такой подход дает невероятные возможности! Не зря говорят: Good Init Is All You Need!

Встречайте симбиоз этих двух лучших версий!

p.s.: Дополнительные благодарности: mlart, ViktorAlm, dribnet

🔮Text2PixelArt + Zero-Shot PixelArt Style Transfer = Mishin Learning + Denis Sexy IT
Media is too big
VIEW IN TELEGRAM
Наткнулся на интересный стартап allseated, который помогает организовывать виртуальные ивенты. Стартапчик поднял в сумме $8.4 млн. Вот бы кто-то догадался во время этой пандемии сделать что-то похожее для CVPR, ICCV, NeurIPS. Было бы гораздо веселее. Согласны?
Тут коллаб для улучшения качества фоток лица. Очень любопытно. Думаю, что-то такое под капотом у китайских телефонов типа Сяоми и Хуавея (эксперты могут меня поправить в комментах).

Собираюсь потыкать коллаб.
GPEN выглядит хорошо, но можно сказать "переигрывает". Илонка там сам на себя не очень похож.
Чёт проорал. Вы знали, L'Oreal теперь не только косметику делает но и дип лернинг ресерч?

Например, в этой работе с воркшопа ECCV2020 они улучшили генерацию постаревших людей. Трюк в том, чтобы добавить SPADE-нормализацию в декодер, которая обусловлена маской старости. То есть там можно явно подстроить как сильно какой регион лица нужно состарить. Смотрим как это выглядит на видео.

Довольно неплохо. Для Лореаля.

https://despoisj.github.io/AgingMapGAN/
Вот пример, как меняется результат в зависимости от входной маски.
Robust High-Resolution Video Matting with Temporal Guidance

Чуваки из TitkTok (ByteDance) и университета Вашингтона придумали новый SOTA метод для маттинга и сегментации людей на видео. Выдаёт 76 FPS в разрешении 4K! Сеть выглядит как U-Net, но интересно, что они засунули конволюционные GRU-слои перед каждым апскейлингом в декодере. Таким образом сеть может использовать временной контекст и лучше отделять статический фон от подвижных людей. Внизу смотрим видео с результатами.

Сайт проекта.
Ответ на вопрос в комменты😅.
Есть тут ещё адепты Vim-а (кроме меня)?
Так так. Руки на стол!
Да, эти красавицы сгенерированы с помощью StyleGAN2 (слегка модифицированным). Я в шоке от качества. И зубы и глаза, все как натуральное.

Сделано by l4rz из твиттера. Автор обещает написать пост о техических деталях, когда закончит с экспериментами.
🤖🏆 SimVLM — Новый CLIP

Представьте себе одну модель, которая может:
- Классифицировать фото
- Отвечать на вопросы по фото
- Дополнять текстовые описания
- Решать задачу «визуального обоснования»
- Выполнять мультимодальный перевод

А самое главное, делать все это в режиме zero-shot (обучение без обучения)!

Встречайте: SimVLM, который по факту является мультимодальной сетью Text + Image (как CLIP), с классической трансформер архитектурой. ViT+Bert энкодер + декодер GPT (см картинку поста).

Такой текстовый-визуальный претрейн сравнили с современными (SOTA) методами, включая LXMERT, VL-T5, UNITER, OSCAR, Villa, SOHO, UNIMO и VinVL.

SimVLM превосходит все существующие модели и бьет SOTA по всем рассматриваемым задачам, часто со значительным отрывом.

Скоро сделаю подробный обзор архитектуры.

📄 paper

#sota #paper #multimodal #zeroshot #сохраненки
Немного ликбеза об эффективных сетках. Pt.1

Все слышали о MobileNetV1. Это одна из первых нейронок от Google из линейки быстрых и эффективных, предназначенных для запуска на мобильных устройствах с ограниченными ресурсами.

Главная идея там была по сравнению с обычными сетками, такими как VGG, - это depthwise separable convolutions. То есть обычную конволюцию k × k × C_in × C_out, где С_in - это число входных каналов, заменяют на две более лёгких: а) depthwise convolution, k × k × 1 × 1, которую применяют к каждому из C_in входных каналов независимо, и б) pointwise convolution 1 × 1 × C_in × C_out, которая комбинирует сигналы из C_in входных каналов и преобразует в C_out выходных.

Таким образом значительно уменьшается количество обучаемых параметров (k² + C_in×C_out против k²×C_in×C_out), и увеличивется скорость вычисления при очень небольших потерях точности.

Подробный разбор MobileNetV1 можно глянуть тут. В следующем посте напишу про MobileNetV2.

#ликбез
#efficient_nets
Появился НейроПутин. Бот на основе GPT-2 думает,что он Володя Путин, и можно ему позадавать каверзные вопросы.

Кстати, В.В. говорит, что Илону Маску верить не стоит.

Поговорить с ним можно тут: @neural_chat_bot.
В дополнение к предыдущему посту, где генерились ралистичные девушки. Есть собрание трюков о том, как автор увеличивал мощность стандартного StyleGAN2, раздувая количества параметров, меняя архитектуру, и по-особому подготавливая датасет.

Все трюки и подробности здесь.
Скажу вам по секрету, что монорепа - это такая боль. Особенно когда вам в проект коммитит тысяча человек. Естественно, что не всё, что работало неделю назад, будет работа сегодня. Тут я бы вставил лицо Гарольда, который улыбается через боль.
Еще представьте себе ситуацию, что каждое утро, когда вы делаете git/hg pull и запускаете тренить свой "искусственный интеллект", то у вас попутно компилируется и собирается bleeding-edge pytorch со всеми сопутствующими.
C 1 Октября наш любимчик Юрген Шмидхубер возглавит AI исследования в King Abdullah University of Science and Technology (KAUS) в Саудовской Аравии.

Интересный шаг. Видимо, ему насыпали очень приличную гору кэша, от которой он не смог отказаться.

Для тех, кто не знает Шмидхубера. Это тот мужик, который придумал любую вашу научную идею до вас, и опубликовал её еще в 90-х. Например, те же Ганы, LSTM и т.д.

Если кроме шуток, то в KAUST-е очень топово делать PhD, при условии, что можете жить в жаре, любите домашнее вино и не боитесь быть забитыми камнями. Профессоров покупают со всего мира. Аспиранту там платят около $4500 в месяц, нет никаких налогов. Вот тут можно податься к Юргену.
This media is not supported in your browser
VIEW IN TELEGRAM
Интересное приложении для AR примерки шмоток: DressX. Видно, это сейчас в тренде.

Есть в апсторе.
В элитном интерактивном онлайн-журнале distill.pub вышла статья: "Нежное Введение в Графовые Нейронные Сети"

Мой рекомендасион.
https://distill.pub/2021/gnn-intro/

Ктати, это одна из последних статей в этом журнале. К сожалению, редакторы жёстко выгорели за пять лет поддержания такой высокой планки качества.