Фотореализм и GTA V
Ещё недавно я был в восторге от таких технологий как munit, funit, fs-vid2vid, позволяющих превращать лето в зиму, день в ночь, синтетику в реальные фото/видео и т.д.
Говорят, что rockstar games собираются улучшать GTA V под next gen к осени. Давайте пока посмотрим на Enhancing Photorealism Enhancement — изящное и стабильное deep learning решение для перевода графики gta v в «реалистичный домен»
📼 https://youtu.be/P1IcaBn3ej0
Ещё недавно я был в восторге от таких технологий как munit, funit, fs-vid2vid, позволяющих превращать лето в зиму, день в ночь, синтетику в реальные фото/видео и т.д.
Говорят, что rockstar games собираются улучшать GTA V под next gen к осени. Давайте пока посмотрим на Enhancing Photorealism Enhancement — изящное и стабильное deep learning решение для перевода графики gta v в «реалистичный домен»
📼 https://youtu.be/P1IcaBn3ej0
YouTube
Enhancing Photorealism Enhancement
Enhancing Photorealism Enhancement
Stephan R. Richter, Hassan Abu AlHaija, and Vladlen Koltun
Paper: https://arxiv.org/abs/2105.04619
Code and data: https://github.com/isl-org/PhotorealismEnhancement
Project page: https://isl-org.github.io/PhotorealismEnhancement/…
Stephan R. Richter, Hassan Abu AlHaija, and Vladlen Koltun
Paper: https://arxiv.org/abs/2105.04619
Code and data: https://github.com/isl-org/PhotorealismEnhancement
Project page: https://isl-org.github.io/PhotorealismEnhancement/…
DeepMind выложили код AlphaFold v2.0
DeepMind выложили код нейросетевого алгоритма предсказания трехмерной структуры белка по последовательности аминокислот — AlphaFold v2.0 и опубликовали статью в Nature
Задача определения первичной аминокислотной структуры белка (самой последовательности) является элементарной. Это легко читается напрямую из ДНК.
При считывании с матричной РНК молекула белка формируется как цепочка аминокислот. Потом цепочка начинает сворачиваться. Таким образом формируется третичная структура белка. Именно от нее зависят свойства конкретного белка.
Предсказать же третичную структуру практически нереально. Так как придется моделировать нетривиальную динамику процесса сворачивания белка, учитывая сложнейшие для такого мира законы физики и колоссальную по размерам систему.
В последние 50 лет ученые были заняты поиском такого метода. Понимание того, как скажется то или иное изменение на конечной структуре белка открывает невиданные горизонты генной инженерии.
DeepMind выложили код нейросетевого алгоритма предсказания трехмерной структуры белка по последовательности аминокислот — AlphaFold v2.0 и опубликовали статью в Nature
Задача определения первичной аминокислотной структуры белка (самой последовательности) является элементарной. Это легко читается напрямую из ДНК.
При считывании с матричной РНК молекула белка формируется как цепочка аминокислот. Потом цепочка начинает сворачиваться. Таким образом формируется третичная структура белка. Именно от нее зависят свойства конкретного белка.
Предсказать же третичную структуру практически нереально. Так как придется моделировать нетривиальную динамику процесса сворачивания белка, учитывая сложнейшие для такого мира законы физики и колоссальную по размерам систему.
В последние 50 лет ученые были заняты поиском такого метода. Понимание того, как скажется то или иное изменение на конечной структуре белка открывает невиданные горизонты генной инженерии.
Дифференцируемое рисование по текстовому описанию
Последнее время генерация изображений по текстовому описанию находится практически полностью во власти сети CLIP.
Тут дело в том, что от DALL•E мы лишь VAE увидали, а полностью ресерчеры из OpenAI выложили только код сети CLIP.
Ну вот и имеем теперь миллионы колабов (e.g. StyleGan-любой + CLIP, VQ-GAN+CLIP, BigGAN+CLIP) похожей структуры: исходное пространство -> дифференцируемый генератор -> image_CLIP -> CosSim() <- text_CLIP <- текстовое описание.
Ребята из Японии пошли ещё дальше и заменили привычный нейронный генератор на векторный рендеринг кривых Безье. По факту ваши рисунки просто сотканы из этих кривых (авторы называют их штрихами), что действительно будет напоминать скетч. Плюс можно задавать кол-во этих штрихов, чтобы получать скетчи разного уровня сложности.
📄paper 🔮colab
🤖🎓мишин лернинг
Последнее время генерация изображений по текстовому описанию находится практически полностью во власти сети CLIP.
Тут дело в том, что от DALL•E мы лишь VAE увидали, а полностью ресерчеры из OpenAI выложили только код сети CLIP.
Ну вот и имеем теперь миллионы колабов (e.g. StyleGan-любой + CLIP, VQ-GAN+CLIP, BigGAN+CLIP) похожей структуры: исходное пространство -> дифференцируемый генератор -> image_CLIP -> CosSim() <- text_CLIP <- текстовое описание.
Ребята из Японии пошли ещё дальше и заменили привычный нейронный генератор на векторный рендеринг кривых Безье. По факту ваши рисунки просто сотканы из этих кривых (авторы называют их штрихами), что действительно будет напоминать скетч. Плюс можно задавать кол-во этих штрихов, чтобы получать скетчи разного уровня сложности.
📄paper 🔮colab
🤖🎓мишин лернинг
Ребята из fwdays открыли доступ к видео со своей онлайн-конференции по Data Science 2021
https://youtu.be/FUAuMiyFFtE
Как и обещал ранее, выкладываю лекцию.
https://youtu.be/FUAuMiyFFtE
Как и обещал ранее, выкладываю лекцию.
YouTube
DALL-E и CLIP от OpenAI Новая эпоха в машинном обучении [ru] / Михаил Константинов
Видео с онлайн-конференции Data Science fwdays'21, которая прошла 24 апреля 2021 года.
Описание доклада:
2021-й год начался совсем недавно, но мы уже отчетливо видим несколько важнейших работ в области машинного обучения не только этого года, но и, возможно…
Описание доклада:
2021-й год начался совсем недавно, но мы уже отчетливо видим несколько важнейших работ в области машинного обучения не только этого года, но и, возможно…
Differentiable Data Augmentation with Kornia
Простая PyTroch либа для тех, кто хочет получить аугментации, не выходя из графа.
Пример использования: GAN z -> generator -> diff augs -> discriminator
import kornia.augmentation as K
💻git 📚doc 📄paper
🤖🎓мишин лернинг
Простая PyTroch либа для тех, кто хочет получить аугментации, не выходя из графа.
Пример использования: GAN z -> generator -> diff augs -> discriminator
import kornia.augmentation as K
💻git 📚doc 📄paper
🤖🎓мишин лернинг
OpenAI выпустили Triton 1.0 — Python-подобный язык “прослойку” для написания нейронных сетей
OpenAI выпустили Triton 1.0, Python подобный язык программирования с открытым исходным кодом, который позволяет ресерчерам, не имеющим опыта работы с CUDA, писать высокоэффективный код.
pip install triton
import triton
import triton.language as tl
🦎blog 💻git 📚triton
🤖🎓мишин лернинг
OpenAI выпустили Triton 1.0, Python подобный язык программирования с открытым исходным кодом, который позволяет ресерчерам, не имеющим опыта работы с CUDA, писать высокоэффективный код.
pip install triton
import triton
import triton.language as tl
🦎blog 💻git 📚triton
🤖🎓мишин лернинг
Openai
Introducing Triton: Open-source GPU programming for neural networks
We’re releasing Triton 1.0, an open-source Python-like programming language which enables researchers with no CUDA experience to write highly efficient GPU code—most of the time on par with what an expert would be able to produce.
This media is not supported in your browser
VIEW IN TELEGRAM
Heisenberg из Breaking Bad: нейросетевой one line art.
Скоро каждый сможет попробовать сам. Сolab в процессе.
🤖🎓мишин лернинг
Скоро каждый сможет попробовать сам. Сolab в процессе.
🤖🎓мишин лернинг
This media is not supported in your browser
VIEW IN TELEGRAM
Zero-shot classification on Google Sheets
Ребята из Hugging Face выкатили крутейшее апи для zero-shot классификации прямо в google sheets.
Как мы помним Microsoft купил GPT-3, и что-то мне подсказывает …
Ребята из Hugging Face выкатили крутейшее апи для zero-shot классификации прямо в google sheets.
Как мы помним Microsoft купил GPT-3, и что-то мне подсказывает …
This media is not supported in your browser
VIEW IN TELEGRAM
Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
Да, TikTok помог науке. wow
💻git 💾set 📄paper
🤖🎓мишин лернинг
Да, TikTok помог науке. wow
💻git 💾set 📄paper
🤖🎓мишин лернинг
🥑 Professional illustration of grandmother playing cool guitar
Поэкспериментировал с китайской версией DALL·E — CogView, которая в 4 раза меньше DALL·E от OpenAI. Клон уже показывает неплохие результаты.
Результаты на голову выше, чем у DALL·E mini от 🤗Hugging Face.
DALL·E mini уступает CogView, хотя и использует куда более прогрессивный VQGAN, который ребята тюнили специально под свой zero-shot text-to-image.
CogView работает на относительно старом VQVAE, правда в связке с super resolution, что позволяет чуть зашарпить мыло, которым грешат VAE.
Все дело именно в размере GPT-like трансформер модели внутри этих решений. DALL·E mini ~0.4B vs CogView ~4B. 10X играют огромную роль (плюс, конечно же, размер датасета)
Хотелось бы верить, что скоро мы сможем увдидеть DALL·E v2 c VQ-GAN уже от OpenAI и c разным числом обучаемых параметров: от Lite do XL.
p.s. Cкоро выложу рабочий colab. У “официального” с git’a бага с подгрузкой VQVAE
💻git 📄paper
🤖🎓мишин лернинг
Поэкспериментировал с китайской версией DALL·E — CogView, которая в 4 раза меньше DALL·E от OpenAI. Клон уже показывает неплохие результаты.
Результаты на голову выше, чем у DALL·E mini от 🤗Hugging Face.
DALL·E mini уступает CogView, хотя и использует куда более прогрессивный VQGAN, который ребята тюнили специально под свой zero-shot text-to-image.
CogView работает на относительно старом VQVAE, правда в связке с super resolution, что позволяет чуть зашарпить мыло, которым грешат VAE.
Все дело именно в размере GPT-like трансформер модели внутри этих решений. DALL·E mini ~0.4B vs CogView ~4B. 10X играют огромную роль (плюс, конечно же, размер датасета)
Хотелось бы верить, что скоро мы сможем увдидеть DALL·E v2 c VQ-GAN уже от OpenAI и c разным числом обучаемых параметров: от Lite do XL.
p.s. Cкоро выложу рабочий colab. У “официального” с git’a бага с подгрузкой VQVAE
💻git 📄paper
🤖🎓мишин лернинг
Анонс выпуска моего курса Introduction to Deep Learning
Друзья, привет! У меня для вас отличная новость!
📅 12.08 (в этот четверг) в 19-30
состоится выпуск моего курса:
Introduction to Deep Learning: Выпуск
Мы с ребятами подготовили для вас крутой контент. Вас ждут элегантные решения множества задач: Computer Vision и Natural Language Processing
Что будет:
+ Сверточные сети: MnasNet, EfficientNet, ResNet, MaskRCNN, кастомные решения (и это точно не свертка-relu-пулинг-свертка-relu)
+ Трансформеры: GPT, BERT, Vision Transformer (ViT)
+ Фреймоворки: PyTorch, TF, Keras, + кастомный
фреймворк машинного обучения (Zelda⚔️)
+ Возможность задавать вопросы студентам и мне
⚠️ p.s.: Выпуск 12.08 в 19-30 (точно не 10.08)
Коллеги, буду благодарен за репост
Друзья, привет! У меня для вас отличная новость!
📅 12.08 (в этот четверг) в 19-30
состоится выпуск моего курса:
Introduction to Deep Learning: Выпуск
Мы с ребятами подготовили для вас крутой контент. Вас ждут элегантные решения множества задач: Computer Vision и Natural Language Processing
Что будет:
+ Сверточные сети: MnasNet, EfficientNet, ResNet, MaskRCNN, кастомные решения (и это точно не свертка-relu-пулинг-свертка-relu)
+ Трансформеры: GPT, BERT, Vision Transformer (ViT)
+ Фреймоворки: PyTorch, TF, Keras, + кастомный
фреймворк машинного обучения (Zelda⚔️)
+ Возможность задавать вопросы студентам и мне
⚠️ p.s.: Выпуск 12.08 в 19-30 (точно не 10.08)
Коллеги, буду благодарен за репост
YouTube
Introduction to Deep Learning — випуск курсу – 12.08.2021 | Projector
Випускаємо другий набір онлайн курсу Introduction to Deep Learning під кураторством Михайла Константинова.
Протягом курсу наші студенти вивчали і закріплювали теорію на практиці, щоб розуміти, чому мережі влаштовані саме так, навіщо потрібні функції активації…
Протягом курсу наші студенти вивчали і закріплювали теорію на практиці, щоб розуміти, чому мережі влаштовані саме так, навіщо потрібні функції активації…
This media is not supported in your browser
VIEW IN TELEGRAM
Disentangled Lifespan Face Synthesis
Добавил в колаб интерфейс для выбора модели: “мужское и женское“ + возможность легко загружать свои фотки с компа и скачивать результат.
🔮colab
#colab #mishin_learning_colab #neuralart
Добавил в колаб интерфейс для выбора модели: “мужское и женское“ + возможность легко загружать свои фотки с компа и скачивать результат.
🔮colab
#colab #mishin_learning_colab #neuralart
Creating a Space Game with OpenAI Codex
Будущее наступило! Codex (gpt3 для генерации кода от OpenAI) позволяет писать игры на естественном языке!
https://youtu.be/Zm9B-DvwOgw
Будущее наступило! Codex (gpt3 для генерации кода от OpenAI) позволяет писать игры на естественном языке!
https://youtu.be/Zm9B-DvwOgw
YouTube
Creating a Space Game with OpenAI Codex
Learn more: https://openai.com/blog/openai-codex
🤖TRANSFORMER IS ALL YOU NEED
Неделю назад я писал, что начал делать крутой проект. Встречайте:
transformer.community
p.s. все картины на сайте созданы нейронными сетями
Неделю назад я писал, что начал делать крутой проект. Встречайте:
transformer.community
p.s. все картины на сайте созданы нейронными сетями
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Perceiver IO от deepmind бьет SOTA по задаче Optical Flow
Optical Flow — задача отслеживания движения пикселей. Цвет каждого пикселя показывает направление и скорость движения, предсказанного трансформером Perceiver IO.
Кроме того, новая архитектура от deepmind: Perceiver IO — трансформер-генералист. Его можно использовать для огромного количества задач как в CV так и в NLP.
То есть архитектура Perceiver IO подходит для обработки изображений, текста, аудио, видео и их комбинаций!
Optical Flow — задача отслеживания движения пикселей. Цвет каждого пикселя показывает направление и скорость движения, предсказанного трансформером Perceiver IO.
Кроме того, новая архитектура от deepmind: Perceiver IO — трансформер-генералист. Его можно использовать для огромного количества задач как в CV так и в NLP.
То есть архитектура Perceiver IO подходит для обработки изображений, текста, аудио, видео и их комбинаций!