Скоро выходит новая улучшалка изображений от Neural Love на базе диффузионной модели
На сайте проекта есть и другие модели для улучшения аудио и фото, которые можно попробовать бесплатно.
@ai_newz
На сайте проекта есть и другие модели для улучшения аудио и фото, которые можно попробовать бесплатно.
@ai_newz
Telegram
Denis Sexy IT 🤖
Готовим к релизу на neural.love новую модельку для AI апскейла, только посмотрите какая магия.
Плохой нейминг – наша фишка, поэтому модель назвали Enhance 9000 🌚
В примере 256 px -> 1024 px
Плохой нейминг – наша фишка, поэтому модель назвали Enhance 9000 🌚
В примере 256 px -> 1024 px
BSTRO: Body-Scene contact TRansfOrmer
Для понимания поведения человека, нужно уметь понимать его взаимодействие со сценой и различными предметами. И в новой статье от MJB представлен подход, который предсказывает 3Д контакт человека со сценой по фото. Осторожно! В модели используются трансформеры.
Для тренировки сети собрали датасет:
- Отсканировали cцены c помощью лазерного сканера Leica RTC360
- Сняли синхронные видео людей взаимодействующих со сценами с нескольких камер
- Зафитили параметрические модели SMPL-X, использую отснятые multi-view видео (про то, как фитили, напишу позже)
- Автоматически разметили контакт 3D модели человека со сценой, находя пересечения между поверхностями
Затем обучили трансформер предсказывать вероятность того, что вершина меши человека взаимодействует со сценой. На вход подаются CNN фичи входного фото и шаблонная мешь человека SMPL.
В общем, интересная работа, где для сбора датасета использовались SOTA методы для реконструкции позы и формы человека. Интересно читать.
❱❱ Код для трейна не выложили, жуки. Но можно запустить инференс на предобученных весах.
❱❱ Сайт проекта
❱❱ Мой пост с основами 3D Human Understanding: тык.
@ai_newz
Для понимания поведения человека, нужно уметь понимать его взаимодействие со сценой и различными предметами. И в новой статье от MJB представлен подход, который предсказывает 3Д контакт человека со сценой по фото. Осторожно! В модели используются трансформеры.
Для тренировки сети собрали датасет:
- Отсканировали cцены c помощью лазерного сканера Leica RTC360
- Сняли синхронные видео людей взаимодействующих со сценами с нескольких камер
- Зафитили параметрические модели SMPL-X, использую отснятые multi-view видео (про то, как фитили, напишу позже)
- Автоматически разметили контакт 3D модели человека со сценой, находя пересечения между поверхностями
Затем обучили трансформер предсказывать вероятность того, что вершина меши человека взаимодействует со сценой. На вход подаются CNN фичи входного фото и шаблонная мешь человека SMPL.
В общем, интересная работа, где для сбора датасета использовались SOTA методы для реконструкции позы и формы человека. Интересно читать.
❱❱ Код для трейна не выложили, жуки. Но можно запустить инференс на предобученных весах.
❱❱ Сайт проекта
❱❱ Мой пост с основами 3D Human Understanding: тык.
@ai_newz
Почему дипфейки все ещё выглядят фейково, или как королева Англии говорит по-арабски.
Такие приколы – это смешно, да и липсинк уже довольно стабильно работает. Единственное, чего часто не хватает в дипфейках и видосах с переозвучкой голов – так это когерентности между текстом, стилем его произношения, выражением лица и движениями головы. Невербальная составляющая (которую смоделировать сложнее) усиливает сигнал и придает реализма. Я ожидаю следующий виток развития дипфейков в этом направлении.
@ai_newz
Такие приколы – это смешно, да и липсинк уже довольно стабильно работает. Единственное, чего часто не хватает в дипфейках и видосах с переозвучкой голов – так это когерентности между текстом, стилем его произношения, выражением лица и движениями головы. Невербальная составляющая (которую смоделировать сложнее) усиливает сигнал и придает реализма. Я ожидаю следующий виток развития дипфейков в этом направлении.
@ai_newz
YouTube
Queen of England Speaks Arabic مهرجان اخواتي - ابطال الجمهورية
#deepfake #vfx #AI #egypt
Queen of England Speak Arabic مهرجان اخواتي - ابطال الجمهورية
DeepWesh VFX: https://www.facebook.com/DeepWeshVFX
Deepfaker: Hassan Ibrahim https://www.facebook.com/HassanIbrahimML
Queen of England Speak Arabic مهرجان اخواتي - ابطال الجمهورية
DeepWesh VFX: https://www.facebook.com/DeepWeshVFX
Deepfaker: Hassan Ibrahim https://www.facebook.com/HassanIbrahimML
Image Inpainting: Partial Convolution vs Gated convolution
Продолжая рубрику #fundamentals,
поговорим о конволюциях, используемых в нейронных сетях для инпейнтинга. В модели для инпейнтинга изображений на вход обычно подается поврежденное изображение (с некоторыми замаскированными частями). Однако, мы не хотим, чтобы свёртки полагались на пустые области при вычислении фичей. У этой проблемы есть простое решение (Partial convolution) и более элегантное (Gated convolution).
🔻Partial Convolutions делают свертки зависимыми только от валидных пикселей. Они похожи на обычные свертки, где к каждой выходной feature-map применяется умножение на жесткую маску. Первая маска вычисляется непосредственно из покоцанного изображения или предоставляется пользователем в качестве входных данных. Маски для каждой следующей частичной свертки вычисляются путем нахождения ненулевых элементов в промежуточных feature-мапах.
- Для частичной свертки недопустимые пиксели будут постепенно исчезать в глубоких слоях, постепенно преобразовывая все значения маски в единицы.
- частичная свертка несовместима с дополнительным вводом пользователя. Однако мы хотели бы иметь возможность использовать дополнительные пользовательские инпуты для условной генерации (например, скетч внутри маски).
- Все каналы в каждом слое используют одну и ту же маску, что ограничивает гибкость. По сути, частичную свертку можно рассматривать как необучаемое одноканальное зануление фичей по маске.
🔻Gated convolutions. Вместо жесткой маски, обновляемой с помощью жестких правил, закрытые свертки автоматически учат soft маску из данных. Дополнительная конволюция берет входную feature-map и предсказывает соответствующую soft маску, которая применяется к выходу оригинальной свертки.
- Gated convolution может принимать любой дополнительный инпут пользователя (например, маску, эскиз) в качестве входных данных. Все они могут быть склеены с поврежденным изображением и скормлены в сеть.
- Gated convolution динамически учит механизм выбора признаков для каждого канала и каждого пространственного расположения.
- Интересно, что визуализация промежуточных значений предсказанных масок показывает, что gated convolution учится выбирать фичи не только по фону, маске, эскизу, но и с учетом семантической сегментации в некоторых каналах.
- Даже в глубоких слоях gated convolution учится выделять именно маскированные области и информацию о входном скетче в отдельных каналах, что позволяет более качественно генерировать восстановленную картинку.
@ai_newz
Продолжая рубрику #fundamentals,
поговорим о конволюциях, используемых в нейронных сетях для инпейнтинга. В модели для инпейнтинга изображений на вход обычно подается поврежденное изображение (с некоторыми замаскированными частями). Однако, мы не хотим, чтобы свёртки полагались на пустые области при вычислении фичей. У этой проблемы есть простое решение (Partial convolution) и более элегантное (Gated convolution).
🔻Partial Convolutions делают свертки зависимыми только от валидных пикселей. Они похожи на обычные свертки, где к каждой выходной feature-map применяется умножение на жесткую маску. Первая маска вычисляется непосредственно из покоцанного изображения или предоставляется пользователем в качестве входных данных. Маски для каждой следующей частичной свертки вычисляются путем нахождения ненулевых элементов в промежуточных feature-мапах.
- Для частичной свертки недопустимые пиксели будут постепенно исчезать в глубоких слоях, постепенно преобразовывая все значения маски в единицы.
- частичная свертка несовместима с дополнительным вводом пользователя. Однако мы хотели бы иметь возможность использовать дополнительные пользовательские инпуты для условной генерации (например, скетч внутри маски).
- Все каналы в каждом слое используют одну и ту же маску, что ограничивает гибкость. По сути, частичную свертку можно рассматривать как необучаемое одноканальное зануление фичей по маске.
🔻Gated convolutions. Вместо жесткой маски, обновляемой с помощью жестких правил, закрытые свертки автоматически учат soft маску из данных. Дополнительная конволюция берет входную feature-map и предсказывает соответствующую soft маску, которая применяется к выходу оригинальной свертки.
- Gated convolution может принимать любой дополнительный инпут пользователя (например, маску, эскиз) в качестве входных данных. Все они могут быть склеены с поврежденным изображением и скормлены в сеть.
- Gated convolution динамически учит механизм выбора признаков для каждого канала и каждого пространственного расположения.
- Интересно, что визуализация промежуточных значений предсказанных масок показывает, что gated convolution учится выбирать фичи не только по фону, маске, эскизу, но и с учетом семантической сегментации в некоторых каналах.
- Даже в глубоких слоях gated convolution учится выделять именно маскированные области и информацию о входном скетче в отдельных каналах, что позволяет более качественно генерировать восстановленную картинку.
@ai_newz
Как я уже говорил, господам дизайнерам, иллюстраторам и фотографам для увеличения эффективности и качества своего труда в новой эпохе киберпанка и метаверса пора учиться работать в паре с нейронками. Например, некоторые творческие люди уже строят свой набор ежедневных инструментов вокруг DALLE-2.
Да, далле-2 пока не доступна каждому. Но есть куча других нейронок и сервисов для генерации изображений, которыми можно пользоваться бесплатно или за небольшую плату. Например, midjourney, ruDalle-XXL и другие. Если вы немного знаете питон, то ваше возможности расширяются, вы тогда можете сами запускать такие нейронки в колабах.
Самое время начать изучать новые технологии!
@ai_newz
Да, далле-2 пока не доступна каждому. Но есть куча других нейронок и сервисов для генерации изображений, которыми можно пользоваться бесплатно или за небольшую плату. Например, midjourney, ruDalle-XXL и другие. Если вы немного знаете питон, то ваше возможности расширяются, вы тогда можете сами запускать такие нейронки в колабах.
Самое время начать изучать новые технологии!
@ai_newz
Telegram
Мишин Лернинг 🇺🇦
📸 DALL•E 2 уже используют профессиональные фотографы для «генеративной фотографии»!
Создать грамотную композицию, расставить объекты и свет, выставить кадр, обозначить акценты — сложная задача для фотопортрета. Но ещё более сложная — сама творческая идея.…
Создать грамотную композицию, расставить объекты и свет, выставить кадр, обозначить акценты — сложная задача для фотопортрета. Но ещё более сложная — сама творческая идея.…
эйай ньюз
Как я уже говорил, господам дизайнерам, иллюстраторам и фотографам для увеличения эффективности и качества своего труда в новой эпохе киберпанка и метаверса пора учиться работать в паре с нейронками. Например, некоторые творческие люди уже строят свой набор…
Вот вам ещё пример гениального художника, использующего AI инструменты в своем творчестве.
Для генерации картинок из поста он использовал midjourney, а затем допиливал их рукамми.
Для генерации картинок из поста он использовал midjourney, а затем допиливал их рукамми.
Telegram
Zubkov
A selection of experimental concepts created on the basis of AI.
___
Многие знают, что я уже несколько лет использую нейросети в своей работе (апскейл, генерация лиц и тд). Но недавно я начал экспериментировать с чем-то принципиально иным.
Эти концепты практически…
___
Многие знают, что я уже несколько лет использую нейросети в своей работе (апскейл, генерация лиц и тд). Но недавно я начал экспериментировать с чем-то принципиально иным.
Эти концепты практически…
Forwarded from AI Для Всех
Мета выпустила переводчик на 200 языков.
Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.
Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.
📖 Статья
🗽 Код
Зацените новый прорыв Меты в области машинного перевода, о котором только что объявил Марк Цукерберг. Они создали и выложили в открытый доступ модель, с громким названием No language left behind (Ни один язык не останется за бортом), которая переводит с 200 различных языков.
Методы из этой работы были применены для улучшения переводов на Facebook, Instagram и даже Wikipedia.
📖 Статья
🗽 Код
CS25: Transformers United
Ух! Вышел курс чисто по Трансформерам от Стенфорда! Думаю, должно быть интересно.
Выложили уже 4 лекции. Го смотреть, прокачиваться.
🌐 Сайт
📺 Видео лекции
@ai_newz
Ух! Вышел курс чисто по Трансформерам от Стенфорда! Думаю, должно быть интересно.
Выложили уже 4 лекции. Го смотреть, прокачиваться.
🌐 Сайт
📺 Видео лекции
@ai_newz
Андрей Карпатый, директор по AI в Тесле и создатель первого и очень известного курса по Deep Learning cs231 в Стенфорде, сваливает из Теслы.
Говорит, что теперь, когда онрешил self-driving довел автопилот до стабильной работы на улицах города, он готов двигаться дальше, делать образовательные проекты и опен-соурс.
Но кто знает, какая у него истинная мотивация. Мб стоки Теслы слишком сильно просели 😁, да и Илон барагозит много.
@ai_newz
Говорит, что теперь, когда он
Но кто знает, какая у него истинная мотивация. Мб стоки Теслы слишком сильно просели 😁, да и Илон барагозит много.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Dressing Avatars: Deep Photorealistic Appearance for Physically Simulated Clothing
Коллеги из Meta Reality Labs выкатили реалистичных full-body аватаров да и с реалистичной симуляцией разной одежды в динамике (что очень сложная проблема) с помощью нейронок.
Можно переодевать аватаров в разные шмотки и рендерить с произвольных углов в движении.
Пока это целый монстр из трех моделей, и работает в реалтайме (30 fps) только на трех GPU Tesla V100. Но есть большой потенциал для оптимизации и ускорения таких моделей.
❱❱ Подробнее в полном видео (5 мин) и статье.
@ai_newz
Коллеги из Meta Reality Labs выкатили реалистичных full-body аватаров да и с реалистичной симуляцией разной одежды в динамике (что очень сложная проблема) с помощью нейронок.
Можно переодевать аватаров в разные шмотки и рендерить с произвольных углов в движении.
Пока это целый монстр из трех моделей, и работает в реалтайме (30 fps) только на трех GPU Tesla V100. Но есть большой потенциал для оптимизации и ускорения таких моделей.
❱❱ Подробнее в полном видео (5 мин) и статье.
@ai_newz
Advances in Neural Rendering: Курс
Продолжая серию постов о курсах и сборках материалов для обучения.
Вот толковый курс по нейронному рендерингу с SIGGRAPH 2021. За 5 часов вам расскажут от основ до продвинутых методов (полная программа курса). Рекомендую!
1⃣ Часть 1 (2.5 часа)
2⃣ Часть 2 (3 часа)
#ликбез
@ai_newz
Продолжая серию постов о курсах и сборках материалов для обучения.
Вот толковый курс по нейронному рендерингу с SIGGRAPH 2021. За 5 часов вам расскажут от основ до продвинутых методов (полная программа курса). Рекомендую!
1⃣ Часть 1 (2.5 часа)
2⃣ Часть 2 (3 часа)
#ликбез
@ai_newz
R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis
Немного о последних "сотах" в нейронном рендеринге. Неявное представление сцены, которое учит NeRF, печально известно тем, что из него очень долго рендерить. На каждый пиксель картинки нужно сделать десятки или сотни прогонов сети (ray marching). Недавние работы научились это дело ускорять, запекая неявное представление, например кэшированием выходов сетки в трехмерный грид. Но эффективная имплементация таких методов зачастую требует низкоуровневых оптимизаций кода и знаний CUDA.
В этой работе, Снэп показал более элегантный трюк. После обучения нерфа, они дистиллируют информацию (teacher-student подход) в глубокий MLP со скип-соедмнениями. Самое главное – новый MLP на вход принимает координату пикселя и расположение камеры и выдает RGB значение за один прогон, без богопротивного ray marching. Это даёт изи ускорение в 30 раз, при этом сохраняя качество рендеринга.
❱❱ Сайт
❱❱ Код
@ai_newz
Немного о последних "сотах" в нейронном рендеринге. Неявное представление сцены, которое учит NeRF, печально известно тем, что из него очень долго рендерить. На каждый пиксель картинки нужно сделать десятки или сотни прогонов сети (ray marching). Недавние работы научились это дело ускорять, запекая неявное представление, например кэшированием выходов сетки в трехмерный грид. Но эффективная имплементация таких методов зачастую требует низкоуровневых оптимизаций кода и знаний CUDA.
В этой работе, Снэп показал более элегантный трюк. После обучения нерфа, они дистиллируют информацию (teacher-student подход) в глубокий MLP со скип-соедмнениями. Самое главное – новый MLP на вход принимает координату пикселя и расположение камеры и выдает RGB значение за один прогон, без богопротивного ray marching. Это даёт изи ускорение в 30 раз, при этом сохраняя качество рендеринга.
❱❱ Сайт
❱❱ Код
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
NUWA-Infinity: новая авторегресионная модель для генерации картинок большого размера
Микромягкие выкатили новую модельку, улучшение NUWA. По сравнению с DALL·E, Imagen и Parti, микрософтовсккая модель генерит в высоком разрешении длинные картинки произвольного размера, да ещё в image-2-video умеет.
Модель авторегресионная, без диффузии. Результаты на видео. Кода пока нет,но, кажется, планируют выкатить.
📜 Статья
🌐 Сайт проекта (там есть интерактивные визуализации)
@ai_newz
Микромягкие выкатили новую модельку, улучшение NUWA. По сравнению с DALL·E, Imagen и Parti, микрософтовсккая модель генерит в высоком разрешении длинные картинки произвольного размера, да ещё в image-2-video умеет.
Модель авторегресионная, без диффузии. Результаты на видео. Кода пока нет,но, кажется, планируют выкатить.
📜 Статья
🌐 Сайт проекта (там есть интерактивные визуализации)
@ai_newz
Я перестал регулярно слушать AI подкасты, зачастую хочется послушать что-то не напрямую связанное с моей работой. Но время от времени, все же уделяю время для выпусков с топовыми учёными в нашей области.
Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.
Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.
Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте
@ai_newz
Например, сейчас слушаю подкаст от Боза, нашего CTO, который взял интервью у Яна ЛеКуна. Пока только на половине, но могу рекомендовать. Там вдохновляющие разговоры об аналогиях между обучением нейросетей и людей, и рассуждения о том, куда мы хотим прийти на нашем следующем витке развития AI. Я люблю такое.
Кенты, если у вас есть рекомендации интересных подкастов про AI - пишите в комментариях.
Эпизод с ЛеКуном:
🎙Спотифай
🎙Эпл
🎙На сайте
@ai_newz