Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing
А вот и свежак от Гугла (CVPR2022). Тоже выдает текстурированную 3D модель кожаного мешка по одному фото.
Отличие от PIFu из предыдущего поста в основном в том как тут предсказывается цвет текстуры. Эта модель уже предсказывает Альбедо и тени, учитываю геометрию поверхности.
Да, на видео - реконструкция, результат работы метода.
Кода нет и скорее всего, со слов автора, пока не будет 😐
❱❱ https://phorhum.github.io/
@Artem Gradient
А вот и свежак от Гугла (CVPR2022). Тоже выдает текстурированную 3D модель кожаного мешка по одному фото.
Отличие от PIFu из предыдущего поста в основном в том как тут предсказывается цвет текстуры. Эта модель уже предсказывает Альбедо и тени, учитываю геометрию поверхности.
Да, на видео - реконструкция, результат работы метода.
Кода нет и скорее всего, со слов автора, пока не будет 😐
❱❱ https://phorhum.github.io/
@Artem Gradient
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья! Каждому в хозяйстве метаверсе нужна хорошая сетка для удаления бэкграунда.
U-2-Net, кажется, одна из расхайпованых* сетей, которая удаляет фон, и ещё в неплохой image-2-image транслейшен умеет. Эта моделька разлетелась по куче приложений не просто так.
Есть код и веса на гитабе. Там же куча ссылок на всевозможные приложения, использующие U-2-NET.
* 5.7к звёзд на гитабе.
@Artem Gradient
U-2-Net, кажется, одна из расхайпованых* сетей, которая удаляет фон, и ещё в неплохой image-2-image транслейшен умеет. Эта моделька разлетелась по куче приложений не просто так.
Есть код и веса на гитабе. Там же куча ссылок на всевозможные приложения, использующие U-2-NET.
* 5.7к звёзд на гитабе.
@Artem Gradient
Forwarded from Not Boring Tech
🦺 В Meta AI на днях решили одну из главных проблем в современном строительстве зданий. Исследователи разработали нейросеть, которая придумала формулу для создания более экономически выгодного и крепкого бетона.
Это самый популярный строительный материал в мире, но его производство очень вредит атмосфере (на него приходится до 8% всех выбросов углекислого газа). Алгоритм обучили на 1000 формулах о прочности материалов и получили новые формулы, как и из чего можно сделать самый лучший бетон. Теперь их будут проверять, и если они докажут свою эффективность — в будущем будут строить дома из бетона, придуманного искусственным интеллектом!
#AI | Not Boring Tech
Это самый популярный строительный материал в мире, но его производство очень вредит атмосфере (на него приходится до 8% всех выбросов углекислого газа). Алгоритм обучили на 1000 формулах о прочности материалов и получили новые формулы, как и из чего можно сделать самый лучший бетон. Теперь их будут проверять, и если они докажут свою эффективность — в будущем будут строить дома из бетона, придуманного искусственным интеллектом!
#AI | Not Boring Tech
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
🎓 GPT в режиме Zero-Shot и Few-Shot
Имхо, это лучше объяснение самих концепций и разницы между Zero-Shot и Few-Shot лернингом.
Два скриншота вместо тысяч слов.
p.s.: ссылка на GPT-J-6B. Ну GPT размером в 6,000,000,000 параметров, которая доступна в любой момент — кайф.
@мишин лернинг
Имхо, это лучше объяснение самих концепций и разницы между Zero-Shot и Few-Shot лернингом.
Два скриншота вместо тысяч слов.
p.s.: ссылка на GPT-J-6B. Ну GPT размером в 6,000,000,000 параметров, которая доступна в любой момент — кайф.
@мишин лернинг
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Authentic Volumetric Avatars from a Phone Scan
SIGGRAPH 2022
Коллеги из Meta Reality Labs выпустили новый метод по созданию реалистичных 3D аватаров c помощью телефона!
Грубо говоря, работает это так:
Человек берет айфон и сканирует свое лицо, корча разные гримасы. С помощью трекинга ключевых точек и multi-view геометрии строится мешь головы и соответствующая ей текстура. Так делают много раз, для разных гримас. Далее тренируется энкодер, который переводит текстуру и карту глубины определенной гримасы в скрытый код. Этот код подается на вход декодеру, который генерит уже отрендереный аватар головы.
Самое сложное здесь - это натренировать декодер. Он тренировался в лабе на очень качественных данных от 255 человек. Каждого из участников садили в сферу обвешанную сотней камер, которые синхронно снимают видео, и заставляли гримасничать. Самое крутое, что этот декодер получился универсальным и может рендерить лица, на которых он не был изначально натренирован.
❱❱ Полное видео о методе
❱❱ Папира
@ai_newz
SIGGRAPH 2022
Коллеги из Meta Reality Labs выпустили новый метод по созданию реалистичных 3D аватаров c помощью телефона!
Грубо говоря, работает это так:
Человек берет айфон и сканирует свое лицо, корча разные гримасы. С помощью трекинга ключевых точек и multi-view геометрии строится мешь головы и соответствующая ей текстура. Так делают много раз, для разных гримас. Далее тренируется энкодер, который переводит текстуру и карту глубины определенной гримасы в скрытый код. Этот код подается на вход декодеру, который генерит уже отрендереный аватар головы.
Самое сложное здесь - это натренировать декодер. Он тренировался в лабе на очень качественных данных от 255 человек. Каждого из участников садили в сферу обвешанную сотней камер, которые синхронно снимают видео, и заставляли гримасничать. Самое крутое, что этот декодер получился универсальным и может рендерить лица, на которых он не был изначально натренирован.
❱❱ Полное видео о методе
❱❱ Папира
@ai_newz
Forwarded from feel.digital metaflow
делали такое в 2010 без нейронок ) но мир был еще не готов ))))
https://www.youtube.com/watch?v=7TzXrL4eV9g
https://www.youtube.com/watch?v=7TzXrL4eV9g
YouTube
SHAPY: Accurate 3D Body Shape Regression using Semantic Attributes (CVPR 2022)
While methods that regress 3D human meshes from images have progressed rapidly, the estimated body shapes often do not capture the true human shape. This is problematic since, for many applications, accurate body shape is as important as pose. The key reason…
Forwarded from ForkLog AI
🖼 Google представила генератор фотореалистичных изображений по тексту Parti.
Система представляет собой авторегрессионную модель с 20 млрд параметров. По данным компании, алгоритм обрабатывает длинные и сложные текстовые запросы, требующие знания мира, компоновки множества объектов с мелкими деталями и взаимодействиями, а также соблюдения определенного формата и стиля.
☝️ В Google заявили, что не опубликовали программный код Parti или используемые датасеты из-за рисков, связанных с дезинформацией, предвзятостью и безопасностью.
#Google #GAN
Система представляет собой авторегрессионную модель с 20 млрд параметров. По данным компании, алгоритм обрабатывает длинные и сложные текстовые запросы, требующие знания мира, компоновки множества объектов с мелкими деталями и взаимодействиями, а также соблюдения определенного формата и стиля.
☝️ В Google заявили, что не опубликовали программный код Parti или используемые датасеты из-за рисков, связанных с дезинформацией, предвзятостью и безопасностью.
#Google #GAN
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA 3D MoMa.
Извлечение 3D-объектов из 2D-изображений.
NVIDIA выпустила видео, демонстрирующее NVIDIA 3D MoMa — новый метод, разработанный компанией, который дает архитекторам, дизайнерам, концепт-художникам и разработчикам игр возможность быстро импортировать объект в графический движок, чтобы начать с ним работать. По заявлению компании, NVIDIA 3D MoMa способна извлекать 3D-объекты из 2D-изображений, а затем превращать их в модели которые напрямую совместимы с движками 3D-графики.
Чтобы продемонстрировать силу MoMa, команда собрала 100 изображений пяти инструментов джаз-бэнда — трубы, тромбона, саксофона, барабанной установки и кларнета — с разных ракурсов. Затем они превратили их в 3D-сетки с помощью MoMa и отредактировали с помощью Omniverse.
• Подробнее
Извлечение 3D-объектов из 2D-изображений.
NVIDIA выпустила видео, демонстрирующее NVIDIA 3D MoMa — новый метод, разработанный компанией, который дает архитекторам, дизайнерам, концепт-художникам и разработчикам игр возможность быстро импортировать объект в графический движок, чтобы начать с ним работать. По заявлению компании, NVIDIA 3D MoMa способна извлекать 3D-объекты из 2D-изображений, а затем превращать их в модели которые напрямую совместимы с движками 3D-графики.
Чтобы продемонстрировать силу MoMa, команда собрала 100 изображений пяти инструментов джаз-бэнда — трубы, тромбона, саксофона, барабанной установки и кларнета — с разных ракурсов. Затем они превратили их в 3D-сетки с помощью MoMa и отредактировали с помощью Omniverse.
• Подробнее
Forwarded from эйай ньюз
Свежее интервью с Яном Лекуном (20 мин) с парижской конфы Viva Trchnology.
В нем он коротко прошелся по своему вижену AGI и немного унизил DALL-E, GPT-3 и прочие хайповые сетки, сказав что в них нет нужного ингредиента, чтобы стать реально умными. Масштабировать размер моделей и закидывать их ресурсами – это неверный путь.
Посмотрите, интервью короткое и не напряжное.
В нем он коротко прошелся по своему вижену AGI и немного унизил DALL-E, GPT-3 и прочие хайповые сетки, сказав что в них нет нужного ингредиента, чтобы стать реально умными. Масштабировать размер моделей и закидывать их ресурсами – это неверный путь.
Посмотрите, интервью короткое и не напряжное.
Forwarded from эйай ньюз
Привет, друзья!
Собрал для вас список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
Рекомендасион для всех, кто хочет основательно погрузиться в тему.
1. Andreas Geiger. Diverse Topics in Computer Vision: Human Body Models [video]
2. Michael Black. SMPL made Simple -- Introduction [video]
3. Dimitris Tzionas. SMPL from Images via Optimization [video]
4. Michael Black. SMPL: Frequently Asked Questions [video]
2. Angjoo Kanazawa. Perceiving Humans in the 3D World [video]
3. Iasonas Kokkinos. Humans, hands, and horses [video]
4. Michael Black. Meta-commerce in the Age of Avatars [video]
5. Ahmed Osman. Problems with SMPL and fixing them with STAR [video]
6. Gerard Pons-Moll. Clothing SMPL [video]
7. Siyu Tang. Putting SMPL into Scenes [video]
8. Joachim Tesch. SMPL-X Application Integrations. Using SMPL-X in Blender, Unity and Unreal [video]
9. Datasets of and for SMPL and related models [video]
10. SMPLpix: Combining SMPL and Neural Rendering [video]
@Artem
Собрал для вас список лекций и туториалов про 3D Human Understanding от топовых ученых из этой сферы.
Рекомендасион для всех, кто хочет основательно погрузиться в тему.
1. Andreas Geiger. Diverse Topics in Computer Vision: Human Body Models [video]
2. Michael Black. SMPL made Simple -- Introduction [video]
3. Dimitris Tzionas. SMPL from Images via Optimization [video]
4. Michael Black. SMPL: Frequently Asked Questions [video]
2. Angjoo Kanazawa. Perceiving Humans in the 3D World [video]
3. Iasonas Kokkinos. Humans, hands, and horses [video]
4. Michael Black. Meta-commerce in the Age of Avatars [video]
5. Ahmed Osman. Problems with SMPL and fixing them with STAR [video]
6. Gerard Pons-Moll. Clothing SMPL [video]
7. Siyu Tang. Putting SMPL into Scenes [video]
8. Joachim Tesch. SMPL-X Application Integrations. Using SMPL-X in Blender, Unity and Unreal [video]
9. Datasets of and for SMPL and related models [video]
10. SMPLpix: Combining SMPL and Neural Rendering [video]
@Artem
Forwarded from Not Boring Tech
🎨 Дизайнеры уже нашли себе новую работу? DALLE-2 снова удивляет — в этот раз нейросеть сгенерировала иконки для дизайна веб-сайта, которые выглядят просто изумительно.
Пишешь запрос иконки, генерируешь, скачиваешь результат и добавляешь его на сайт. Если что-то не понравилось, нейросеть переделает всё с учётом правок в один клик: больше не нужно ждать, когда там освободится дизайнер, а дедлайн горит.
#AI | Not Boring Tech
Пишешь запрос иконки, генерируешь, скачиваешь результат и добавляешь его на сайт. Если что-то не понравилось, нейросеть переделает всё с учётом правок в один клик: больше не нужно ждать, когда там освободится дизайнер, а дедлайн горит.
#AI | Not Boring Tech
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Фотограмметрия на стероидах ИИ.
Если раньше по серии фото вытаскивалась либо геометрия, либо максимально корректный материал, то теперь и то, и другое.
Тут можно выпить и за моделлеров, и за текстурщиков, и за шейдинг-артистов, но у меня, как обычно, один вопрос: "Где кнопка, Брат?". Когда все это добро обрушится на тружеников постпродакшена?
Особенно пикантно, что на видео все модельки морфируются из сферы - посвящается всем моделлерам.
Видео: https://www.youtube.com/watch?v=19gzG-AsBNU
Статья: http://rgl.epfl.ch/publications/Vicini2022SDF
Если раньше по серии фото вытаскивалась либо геометрия, либо максимально корректный материал, то теперь и то, и другое.
Тут можно выпить и за моделлеров, и за текстурщиков, и за шейдинг-артистов, но у меня, как обычно, один вопрос: "Где кнопка, Брат?". Когда все это добро обрушится на тружеников постпродакшена?
Особенно пикантно, что на видео все модельки морфируются из сферы - посвящается всем моделлерам.
Видео: https://www.youtube.com/watch?v=19gzG-AsBNU
Статья: http://rgl.epfl.ch/publications/Vicini2022SDF
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
OWL-ViT by GoogleAI
Давно не говорили о детекции, друзья.
Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.
По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.
Внизу схема архитектуры и минимальный код для инференса.
@ai_newz
Давно не говорили о детекции, друзья.
Гугел сделал уверенный шаг в сторону open-vocabulary detection. Это когда у модели нет набора фиксированных классов, но она умеет реагировать на текстовые запросы. Вы вводите в промпт названия нужных объектов, и модель их находит. Попробовать демку можно на хагинфейсе.
По сути, это предобученный CLIP, где к картиночному энкодеру присобачили голову для предсказания координат баундинг боксов. То есть для каждому токена, полученного из картинки, мы предсказываем координаты и эмбеддинг. Далее этот эмбеддинг сравнивает с эмбеддингом заданного имени класса, и мы получаем similarity для класса. Дополнительные головы файнтюнятся лоссом в стиле DETR. Все подробности в статье.
Внизу схема архитектуры и минимальный код для инференса.
@ai_newz