эйай ньюз
73.6K subscribers
1.63K photos
869 videos
7 files
1.95K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
NSFW контент

В сети появились кадры бэкстейджа съемки VR-порно.

Обратите внимание на тучу синхронизированных камер и нательных маркеров. Интересно, в PornHub занимаются нейронными сетями? Может быть они там сейчас пытаются прикрутить нерфы?😄
🧠 Подборка полезных видео про NeRF: Neural Radiance Fields Forever

Нейронный 3D рендер это уже настоящее. И NeRF и его производные захватывают наши сердца.

Собрал крутую подборку самых полезных youtube видео про технологию:

💟 NeRF paper review от Яныка
🔍 NeRF лекция от Матью из Berkeley
FastNeRF 200fps от Microsoft
🔻NeX + NeRF от Gradient Dude (от автора эйай ньюз)
🧸 Почему нейронные рендеринг это круто? от MIT

p.s.: каждый пиксель картинки к посту сделал при помощи далли Malevich

#всохраненки
Forwarded from Neural Shit
Ух! Это, наверное, лучшее из того, что я видел в плане реконструкции изображений с шакальным качеством. Исходники открыты и лежат тут
This media is not supported in your browser
VIEW IN TELEGRAM
Поженим NeRF и трансформеры, получим NerFormer!

Базовый метод реконструкции 3D сцены с помощью нейронных сетей, NeRF, имеет ряд ограничений. Например, он медленный (хотя каждый месяц выходят статьи, ускоряющие его), и его нужно с нуля обучать на каждой новой сцене/объекте. Мои коллеги из Meta (Facebook) AI Research прокачали NeRF, решив некоторые из его пробелм (детали в посте ниже).

Также в статье представлен самый большой (19к видео) публичный датасет с 360-градусным облетом вещей в "дикой природе".

Итого, имеем сильный метод для нейронной генерации новых view для 3D объектов - NerFormer. Он способен научиться рендерить сразу много категорий объектов, а так же может быть быстро зафайнтюнен на новых объектах всего по нескольким фото.

Кода для тренировки нет но есть код для теста. Сама статья на arxiv.

Если вы ничего не поняли, то советую почитать вот этот пост про нейронный рендеринг и этот.
Что же нового в NerFormer?
(продолжение предыдущего поста)

Во первых, кроме (x,y,z) координат точки и направления луча, на вход подаются соответствующие этой 3D точке фичи из всех картинок, на которых видна эта точка. Так агрегируется информация с разных входных фото. А фичи из претренированного на ImageNet резнета дают сильный априорную информацию о том, какая сцена сейчас генерируется.

Во вторых, вместо MLP (multilayer perceptron), который может обрабатывать только одну 3D точку за раз, авторы впервые предложили NeRF на основе трансформера. На вход подаются сразу все точки лежащие на луче, а не по одной как в случае MLP. Таким образом сеть имеет больше контекста и лучше справляется с шумом в данных.

Прикрепляю картинки с визуализацией всей архитектуры NerFormer.
This media is not supported in your browser
VIEW IN TELEGRAM
В Метаверсе для полного погружения очень пригодится точная и быстрая симуляция физики.

Челик в Твиттере говорит, что на этом видео риал-тайм симуляция одежды. Что-то есть сомнения... Слишком уж круто это выглядит! И брейк-данс зачетный!
Forwarded from addmeto (Grigory Bakunov 🧪)
Чем дольше работает команда DeepMind на деньги Гугла, тем больше ощущение близости ИИ. Вот сегодня они показали статью и примеры работы своей новой языковой модели Gopher. Она ощутимо больше уже ставшей стандартом де-факто GPT-3, в ней 280 миллиардов параметров. Модель гиганская, но то как она умеет отвечать на информационные запросы потрясает - это уже результат сильно лучше, чем у среднего человека.

Если посчитать, человеческий неокортекс состоит из 20 миллиардов нейронов, образующих по 10-15 тысяч соединений каждый. Т.е. двести триллионов соединений всего. Т.е. это уже всего на несколько порядков меньше чем весь обьем человеческого мозга. Приравнивать параметры модели к межнейронным связям наивно, однако масштаб модели поистине поражает https://deepmind.com/blog/article/language-modelling-at-scale
This media is not supported in your browser
VIEW IN TELEGRAM
Дизайнеры интерьеров плачут в сторонке 😢

Тут в NVIDIA научили трансформеры синтезировать расположение предметов интерьера по заданному плану (форме) и типу комнаты. Мебель они, конечно, не генерируют, а используют набор заданных 3D ассетов.

Очень показательный пример того, как трансформерами можно моделировать любые распределения, в том числе и те, где порядок не важен. Комнату можно наполнить одной и той же мебелью начиная обставлять с разных объектов, но в итоге прийти к идентичной расстановке. Читаните статью, если интересно разобраться в деталях. Также есть код.

>> Папира >> Сайт >> Код
Media is too big
VIEW IN TELEGRAM
Нейронный рендеринг без нейронных сетей?

Помните нейронный рендеринг и нерфы для реконструкции 3D сцены и синтеза новых видов? Так вот, обычно эти подходы требуют значительных временных затрат для обучения на одной конкретной сцене из-за того, что там используются громоздкие MLP (Multi-layer Perceptron), и нужно семплировать очень много тренировочных 3D точек с разных углов обзора.

Но вот поворот! Оказывается, всё то же самое можно делать и без сетей вовсе! Исследователи из Беркли показали, что можно учить напрямую сетку вокселей, сохраняя в ее узлах коэффициенты сферических функций, с помощью которых можно очень быстро отрендерить сцену с любой позиции и угла камеры. Все гениально просто.

Это просто бомба! Не нужны больше никакие Structure-from-motion и прочие классические алгоритмы.

>> Пипира >> Код >> Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
GANGealing: GAN-Supervised Dense Visual Alignment

Во время моих стажировок в Facebook AI Research я работал над развитием алгоритма Dense Pose, чтобы можно было учить dense correspondences не только между людьми, но и между различными животными [статья1, статья2]. Но мы использовали как минимум размеченные картинки с соответствиями между фотографиями людей и канонической 3D моделью человека.

Очень любопытно, что авторы метода GANgealing научились очень точно выравнивать мордочки животных (и не только) вообще без каких-либо размеченных данных. Какие крутые приложения отрывает эта работа, вах!

Подробнее про GANgealing можно посмотреть у Миши в канале либо на сайте проекта.
А это смешно! Нейронкой сегментировали велик и сделали инпейтинг (вроде этого). Кажется, это лучшее видео, где можно тестировать сетки для инпейнтинга 😅
Forwarded from ExMuffin
👘 NeuralWardrobe v.1.0 👔

Около месяца назад меня посещала мысль погенерировать СтайлГАНом какие-нибудь новые модные наряды, но буквально недавно я наткнулся на примеры создания образов с помощью ruDALL-E и был приятно удивлен. Качество потрясающее и генерируется относительно быстро. А с помощью встроенного переводчика вы можете на любом языке подсказывать этому НейроГардеробу то, какую именно одежду вы хотите на себе видеть.

P.S. На примере выше Илон в спортивном костюме, Девушка из Матрицы в деловом костюме и Кристиан в платье. Каждый из этих наборов (8 картинок) генерировался 30 минут.

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/NeuralWardrobe.ipynb
Новый трюк: пропускаем градиент через сложные дискретные распределения и комбинаторные солверы
Ч.1

Наткнулся на обалденную статью с последнего нипса - Implicit Maximum Likelihood Estimation (I-MLE).

I-MLE позволяет включать дискретные комбинаторные алгоритмы оптимизации (например, алг. Дейкстры, солверы для целочисленного линейного программирования и др.), а также любые дискретные распределения вероятностей в стандартные архитектуры глубокого обучения и "пропускать"" градиент через них. На рисунке показана схема I-MLE. Пусть есть нейронка, отображающая некоторые входные данные во входные параметры дискретного комбинаторного алгоритма оптимизации или дискретного распределения вероятностей, изображенного в виде черного ящика. В forward проходе выполняется дискретный компонент, и его дискретный вывод передается в следующую нейронку. С помощью метода I-MLE можно оценивать градиенты относительно функции потерь, которые используются во время backward-pass для обновления параметров первой нейронной сети.

Ч.2 ниже
Новый трюк: как пропускать градиент через сложные дискретные распределения и комбинаторные солверы - Ч.2
>> Ч.1 тут

Заюзать это можно где угодно в вашей архитектуре.
Например, если вы хотите посчитать top-k в векторе, либо отсортировать все его компоненты, при этом пропуская градиент через эту операцию.

Дрогой пример с дивана: игра Dota2. По текущей сцене вы строите граф и находите в нем несколько кратчайших путей до целевой токи, далее вы обрабатываете этот путь другой нейронкой, которая выдает вам ожидаемый reward (вознаграждение) при выборе того или иного пути.

Красивый приятный код от авторов позволяет использовать I-MLE, обернув дискретный солвер всего в несколько строк (см. скрин, где недифференцируемый torch_solver() начинает пропускать градиенты после добавления одного декоратора).

За подробностями и занимательной математикой прошу в статью.

Тут еще видео от Яника с объяснениями.
Forwarded from Denis Sexy IT 🤖
В нейронках вроде ruDall-E меня впечатляет именно потенциал для применения — от окна в мир в условиях без интернета, до формирования гардероба, мебели, или создания быстрых прототипов для вдохновения.

Сейчас это все первые проблески, но вы сами видите какие потенциально красивые вещи генерируют AI-художники с помощью нейронок (CLIP, тот же ruDall-E и тп).

Все это наводит на мысль, что модель весом в пару гигабайт может быть применима почти в любом визуальном контексте — потому что она содержит в себе то, что мы называем «любые картинки в интернете» и умеет их комбинировать между собой, синтезируя новые.

Вдохновляясь этим подходом, мне стало интересно где еще можно применить подобный подход – в мире существует достаточно много недописанных картин, и увы, уже никак не узнать как бы выглядело целостное произведение. Но можно, например, дообучить модель, картинами конкретного художника (и даже взять конкретный период в выборку), и уже эти картины использовать как вдохновление для «дорисовывания» картины.

За основу я взял известный портрет Джорджа Вашингтона 1796 года, который был недописан Гилберт Стюартом, но тем не менее, этот же портрет попал на все купюры в 1$. Указав где какие области картины я хотел бы «догенерировать», я получил не одну версию, а целых 24. Результат хоть и такой себе, но уже вполне применим как способ генерации потенциально возможных работ автора.

В общем, это крутое направление развитие нейронок, думая о котором я всегда улетаю куда-то на пару десятков лет в будущее, потому что все эти нейронные-текстовые-фотошопы только-только появляются.

🖼 Ну и бонус, в этом Colab можно дообучить ruDallE конкретной картинкой, получив что-то такое.
Команда из Сбера и Институт искусственного интеллекта AIRI заняла первое место в ИИ-конкурсе NetHack Challenge

NetHack Challenge - это конкурс по написанию нейросетей для консольной RPG игры NetHack. Цель челенджа - разработать ИИ, который сможет успешно пройти полную игру или набрать как можно более высокий балл. Эта игра считается одной из самых сложных в мире и используется для оценки прогресса в обучении ИИ, поскольку современные подходы пока достаточно плохо справляются с ней, в отличие от го, шахмат, Dota 2 или Starcraft, которые уже неплохо решаются нейронными сетями.

Трудность в том, что в NetHack слишком много возможностей̆ исхода событий и нет заранее известной стратегии, что максимально приближает её сценарий к условиям реального мира. Более того в игре нет четко заданных уровней - они случайно генерируются налету, что делает крайне маловероятным, что игрок когда-либо столкнется с одной и той же ситуацией более одного раза.

Учёным Сбера и AIRI удалось построить иерархию навыков, которыми должен обладать агент для игры в NetHack, на основе RL (Reinforcement Learning) и занять первое место! Reinforcement Learning — это метод обучения ИИ, на основе обратной связи от взаимодействия со средой, например, игрой, или реальным миром. Он использовался для победы ИИ в игре го (AlphaGo) и многих известных играх, например, StarCraft (AlphaStar), Dota 2 (OpenAI Five). Этот метод начинает активно применяться для задач управления роботами, торговли на бирже, управления логистикой и в множестве других областей.

Написать своего бота, чтобы поиграться с NetHack может любой желающий, на гитхабе выложен код энвайромента.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Только месяц назад Nvidia показала интерактивную демку (с ужасным UI), где можно генерировать правдоподобные пейзажи из текста, скетчей или карт сегментации, так тут же, в начале декабря, тоже Nvidia, показала подход из этой же серии, но который генерирует картинки настолько хорошо, что уделывает GauGan 2. Очередная демонстрация скорости устаревания алгоритмов 🌚

Правда, интерактивной демки пока нет, но код обещают скоро выложить.

Просто посмотрите видео – уверен такую механику в какой-то момент добавят в фотошоп.

Сайт проекта PoE-GAN, по ссылке больше примеров