Мишин Лернинг 🇺🇦🇮🇱
8.01K subscribers
1.16K photos
141 videos
4 files
630 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта.
Download Telegram
Фотореализм и GTA V

Ещё недавно я был в восторге от таких технологий как munit, funit, fs-vid2vid, позволяющих превращать лето в зиму, день в ночь, синтетику в реальные фото/видео и т.д.

Говорят, что rockstar games собираются улучшать GTA V под next gen к осени. Давайте пока посмотрим на Enhancing Photorealism Enhancement — изящное и стабильное deep learning решение для перевода графики gta v в «реалистичный домен»

📼 https://youtu.be/P1IcaBn3ej0
DeepMind выложили код AlphaFold v2.0

DeepMind выложили код нейросетевого алгоритма предсказания трехмерной структуры белка по последовательности аминокислот — AlphaFold v2.0 и опубликовали статью в Nature

Задача определения первичной аминокислотной структуры белка (самой последовательности) является элементарной. Это легко читается напрямую из ДНК.

При считывании с матричной РНК молекула белка формируется как цепочка аминокислот. Потом цепочка начинает сворачиваться. Таким образом формируется третичная структура белка. Именно от нее зависят свойства конкретного белка.

Предсказать же третичную структуру практически нереально. Так как придется моделировать нетривиальную динамику процесса сворачивания белка, учитывая сложнейшие для такого мира законы физики и колоссальную по размерам систему.

В последние 50 лет ученые были заняты поиском такого метода. Понимание того, как скажется то или иное изменение на конечной структуре белка открывает невиданные горизонты генной инженерии.
Дифференцируемое рисование по текстовому описанию

Последнее время генерация изображений по текстовому описанию находится практически полностью во власти сети CLIP.

Тут дело в том, что от DALL•E мы лишь VAE увидали, а полностью ресерчеры из OpenAI выложили только код сети CLIP.

Ну вот и имеем теперь миллионы колабов (e.g. StyleGan-любой + CLIP, VQ-GAN+CLIP, BigGAN+CLIP) похожей структуры: исходное пространство -> дифференцируемый генератор -> image_CLIP -> CosSim() <- text_CLIP <- текстовое описание.

Ребята из Японии пошли ещё дальше и заменили привычный нейронный генератор на векторный рендеринг кривых Безье. По факту ваши рисунки просто сотканы из этих кривых (авторы называют их штрихами), что действительно будет напоминать скетч. Плюс можно задавать кол-во этих штрихов, чтобы получать скетчи разного уровня сложности.

📄paper 🔮colab
🤖🎓мишин лернинг
Differentiable Data Augmentation with Kornia

Простая PyTroch либа для тех, кто хочет получить аугментации, не выходя из графа.

Пример использования: GAN z -> generator -> diff augs -> discriminator

import kornia.augmentation as K

💻git 📚doc 📄paper
🤖🎓мишин лернинг
Gradient Through Augments: Vice City
OpenAI выпустили Triton 1.0 — Python-подобный язык “прослойку” для написания нейронных сетей

OpenAI выпустили Triton 1.0, Python подобный язык программирования с открытым исходным кодом, который позволяет ресерчерам, не имеющим опыта работы с CUDA, писать высокоэффективный код.

pip install triton

import triton
import triton.language as tl

🦎blog 💻git 📚triton
🤖🎓мишин лернинг
This media is not supported in your browser
VIEW IN TELEGRAM
Heisenberg из Breaking Bad: нейросетевой one line art.

Скоро каждый сможет попробовать сам. Сolab в процессе.

🤖🎓мишин лернинг
Zero-Shot Style Transfer: Photo of a Cat -> Watercolor Cyber Dog
This media is not supported in your browser
VIEW IN TELEGRAM
Zero-shot classification on Google Sheets

Ребята из Hugging Face выкатили крутейшее апи для zero-shot классификации прямо в google sheets.

Как мы помним Microsoft купил GPT-3, и что-то мне подсказывает …
This media is not supported in your browser
VIEW IN TELEGRAM
Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

Да, TikTok помог науке. wow

💻git 💾set 📄paper
🤖🎓мишин лернинг
Ребята, начал делать крутой проект по мл. Скоро сделаю анонс.
p.s. картинка сгенерирована нейросетью
🥑 Professional illustration of grandmother playing cool guitar

Поэкспериментировал с китайской версией DALL·E — CogView, которая в 4 раза меньше DALL·E от OpenAI. Клон уже показывает неплохие результаты.

Результаты на голову выше, чем у DALL·E mini от 🤗Hugging Face.

DALL·E mini уступает CogView, хотя и использует куда более прогрессивный VQGAN, который ребята тюнили специально под свой zero-shot text-to-image.

CogView работает на относительно старом VQVAE, правда в связке с super resolution, что позволяет чуть зашарпить мыло, которым грешат VAE.

Все дело именно в размере GPT-like трансформер модели внутри этих решений. DALL·E mini ~0.4B vs CogView ~4B. 10X играют огромную роль (плюс, конечно же, размер датасета)

Хотелось бы верить, что скоро мы сможем увдидеть DALL·E v2 c VQ-GAN уже от OpenAI и c разным числом обучаемых параметров: от Lite do XL.

p.s. Cкоро выложу рабочий colab. У “официального” с git’a бага с подгрузкой VQVAE

💻git 📄paper
🤖🎓мишин лернинг
Анонс выпуска моего курса Introduction to Deep Learning

Друзья, привет! У меня для вас отличная новость!

📅 12.08 (в этот четверг) в 19-30
состоится выпуск моего курса:
Introduction to Deep Learning: Выпуск

Мы с ребятами подготовили для вас крутой контент. Вас ждут элегантные решения множества задач: Computer Vision и Natural Language Processing

Что будет:
+ Сверточные сети: MnasNet, EfficientNet, ResNet, MaskRCNN, кастомные решения (и это точно не свертка-relu-пулинг-свертка-relu)

+ Трансформеры: GPT, BERT, Vision Transformer (ViT)

+ Фреймоворки: PyTorch, TF, Keras, + кастомный
фреймворк машинного обучения (Zelda⚔️)

+ Возможность задавать вопросы студентам и мне

⚠️ p.s.: Выпуск 12.08 в 19-30 (точно не 10.08)
Коллеги, буду благодарен за репост
This media is not supported in your browser
VIEW IN TELEGRAM
Disentangled Lifespan Face Synthesis

Добавил в колаб интерфейс для выбора модели: “мужское и женское“ + возможность легко загружать свои фотки с компа и скачивать результат.

🔮colab

#colab #mishin_learning_colab #neuralart
Creating a Space Game with OpenAI Codex

Будущее наступило! Codex (gpt3 для генерации кода от OpenAI) позволяет писать игры на естественном языке!

https://youtu.be/Zm9B-DvwOgw
🤖TRANSFORMER IS ALL YOU NEED

Неделю назад я писал, что начал делать крутой проект. Встречайте:

transformer.community

p.s. все картины на сайте созданы нейронными сетями
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 Perceiver IO от deepmind бьет SOTA по задаче Optical Flow

Optical Flow — задача отслеживания движения пикселей. Цвет каждого пикселя показывает направление и скорость движения, предсказанного трансформером Perceiver IO.

Кроме того, новая архитектура от deepmind: Perceiver IO — трансформер-генералист. Его можно использовать для огромного количества задач как в CV так и в NLP.

То есть архитектура Perceiver IO подходит для обработки изображений, текста, аудио, видео и их комбинаций!