VideoGPT: Video Generation using VQ-VAE and Transformers
Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.
VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.
Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).
Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.
ArXiv
Проект
Colab
#video #generative
Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.
VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.
Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).
Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.
ArXiv
Проект
Colab
#video #generative
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models.
Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.
В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.
Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.
Статья
#generative #diffusion #images
Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.
В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.
Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.
Статья
#generative #diffusion #images
This media is not supported in your browser
VIEW IN TELEGRAM
SofGAN: A Portrait Image Generator with Dynamic Styling
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
CLIP Guided Diffusion HQ
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
OpenAI Codex - просто чума!
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
AI Для Всех
CLIP Guided Diffusion HQ Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации. Картинка сгенерирована по тексту: a beautiful watercolor painting of wind #text2image #generative #CLIP #diffusion
CLIP Guided Diffusion Uncond
Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.
Бежим играть - делитесь в комментах, что у вас получилось.
(Prompt с обложки поста: the rise of consciousness)
#generative #diffusion #CLIP #images #multimodal #text2image
Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.
Бежим играть - делитесь в комментах, что у вас получилось.
(Prompt с обложки поста: the rise of consciousness)
#generative #diffusion #CLIP #images #multimodal #text2image
CLIPIT PixelDraw
Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.
#generative #CLIP #multimodal #images #text2image
Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.
#generative #CLIP #multimodal #images #text2image
Program Synthesis with Large Language Models
Авторы используют большие языковые модели для синтеза компьютерных программ, выполнения программ, решения математических задач и диалога с людьми для итеративного уточнения кода.
Модели могут решить 60% и 81% задач по программированию и математике, соответственно.
Оказалось что, большие модели не только решают проблемы, которые не могут решить меньшие модели, но и более надежно решают более простые проблемы, которые меньшие модели решают реже.
В статье разобранны различные аспекты работы с такими кодовыми моделями.
ArXiv
#code #generative #nlp
Авторы используют большие языковые модели для синтеза компьютерных программ, выполнения программ, решения математических задач и диалога с людьми для итеративного уточнения кода.
Модели могут решить 60% и 81% задач по программированию и математике, соответственно.
Оказалось что, большие модели не только решают проблемы, которые не могут решить меньшие модели, но и более надежно решают более простые проблемы, которые меньшие модели решают реже.
В статье разобранны различные аспекты работы с такими кодовыми моделями.
ArXiv
#code #generative #nlp
Consistency Regularization for Variational Auto-Encoders
Вариационные автоэнкодеры (ВАЕ) - мощный подход к self-supervised learning. VAE представляет собой вариационное семейство, параметризованное глубокой нейронной сетью, называемой кодером, которая принимает данные на вход.
Этот кодер VAE обладает нежелательным свойством: он отображает наблюдение и преобразование этого наблюдения в различные латентные представления. Такая "непоследовательность" кодировщика снижает качество изученных представлений.
В данной работе предлагают метод регуляризации для обеспечения согласованности в VAE. Идея заключается в минимизации расхождения Куллбэка-Лейблера (KL) между вариационным распределением при условии наблюдения и вариационным распределением при условии случайного семантически сохраняющего преобразования этого наблюдения. Эта регуляризация применима к любому VAE и более того улучшает любой из них.
arXiv
#SSL #vae #generative
Вариационные автоэнкодеры (ВАЕ) - мощный подход к self-supervised learning. VAE представляет собой вариационное семейство, параметризованное глубокой нейронной сетью, называемой кодером, которая принимает данные на вход.
Этот кодер VAE обладает нежелательным свойством: он отображает наблюдение и преобразование этого наблюдения в различные латентные представления. Такая "непоследовательность" кодировщика снижает качество изученных представлений.
В данной работе предлагают метод регуляризации для обеспечения согласованности в VAE. Идея заключается в минимизации расхождения Куллбэка-Лейблера (KL) между вариационным распределением при условии наблюдения и вариационным распределением при условии случайного семантически сохраняющего преобразования этого наблюдения. Эта регуляризация применима к любому VAE и более того улучшает любой из них.
arXiv
#SSL #vae #generative
Want To Reduce Labeling Cost? GPT-3 Can Help
Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.
В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.
Статья
#gpt #labeling #generative #nlp
Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.
В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.
Статья
#gpt #labeling #generative #nlp
Finetuned Language Models Are Zero-Shot Learners (Google AI)
В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".
Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.
Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.
Статья
#nlp #gpt #training #generative
В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".
Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.
Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.
Статья
#nlp #gpt #training #generative
Moser Flow: Divergence-based Generative Modeling on Manifolds
Потоки Мозера, новый класс непрерывных нормализующих потоков на многообразиях, основанный на дивергенциях нейронных сетей. Первые результаты генеративного моделирования на общих криволинейных поверхностях!
Учитывая две плотности вероятности на многообразии, Дж. Мозер (1965) построил поток, сдвигающий первую плотность ко второй. Поток определяется векторным полем, дивергенция которого равна разности между плотностями.
Это послужило мотивом для создания MF - универсального аппроксиматора, в котором разница в плотностях модели и предшествующей плотности выражается с помощью (локального, легко аппроксимируемого) оператора дивергенции, применяемого непосредственно к NN. В отличие от предыдущих методов CNF, он не требует решения ODE во время обучения!
МП с большим отрывом достигают вероятности SOTA на бэнчмарках наук о Земле с базовой сферической геометрией.
Статья
#ScientificML #generative
Потоки Мозера, новый класс непрерывных нормализующих потоков на многообразиях, основанный на дивергенциях нейронных сетей. Первые результаты генеративного моделирования на общих криволинейных поверхностях!
Учитывая две плотности вероятности на многообразии, Дж. Мозер (1965) построил поток, сдвигающий первую плотность ко второй. Поток определяется векторным полем, дивергенция которого равна разности между плотностями.
Это послужило мотивом для создания MF - универсального аппроксиматора, в котором разница в плотностях модели и предшествующей плотности выражается с помощью (локального, легко аппроксимируемого) оператора дивергенции, применяемого непосредственно к NN. В отличие от предыдущих методов CNF, он не требует решения ODE во время обучения!
МП с большим отрывом достигают вероятности SOTA на бэнчмарках наук о Земле с базовой сферической геометрией.
Статья
#ScientificML #generative
This media is not supported in your browser
VIEW IN TELEGRAM
π-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis
Последние достижения в области генеративных визуальных моделей и нейронного рендеринга ускорили прогресс в синтезе изображений с учетом 3D. Однако существующие подходы могут не обеспечивать адекватное представление на уровне слоев или генерировать изображения, не соответствующие многоракурсному представлению. Periodic Implicit Generative Adversarial Networks (π-GAN) предлагаются для высококачественного синтеза изображений с учетом 3D. π-GAN визуализирует сцены как контекстуальные 3D-представления с высокой детализацией, используя нейронные представления с периодическими функциями активации. Предложенный подход позволяет получить самые современные результаты для синтеза 3D-изображений на различных реальных и синтетических наборах данных.
Статья
Проект
Код
#gan #generative #images
Последние достижения в области генеративных визуальных моделей и нейронного рендеринга ускорили прогресс в синтезе изображений с учетом 3D. Однако существующие подходы могут не обеспечивать адекватное представление на уровне слоев или генерировать изображения, не соответствующие многоракурсному представлению. Periodic Implicit Generative Adversarial Networks (π-GAN) предлагаются для высококачественного синтеза изображений с учетом 3D. π-GAN визуализирует сцены как контекстуальные 3D-представления с высокой детализацией, используя нейронные представления с периодическими функциями активации. Предложенный подход позволяет получить самые современные результаты для синтеза 3D-изображений на различных реальных и синтетических наборах данных.
Статья
Проект
Код
#gan #generative #images
Обновился блокнот CLIPPixelArt, ещё более красивые картинки и ещё больше вариантов генерации
Colab
#generative #text2image #clip #multimodal
Colab
#generative #text2image #clip #multimodal
Тут в статье A Recipe For Arbitrary Text Style Transfer with Large Language Models предложили прикольный рецепт для авто-аугментации текста в режиме Few-Shot. Берем затравку как на картинке, а дальше начинаем фантазировать. У меня получилось (курсивом на вход, жирным на выход):
1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.
2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president: {Мне не нужно в туалет}
3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}
Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!
#gpt #generative #fewshot #nlp
1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.
2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president: {Мне не нужно в туалет}
3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}
Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!
#gpt #generative #fewshot #nlp
Guided diffusion update
Обновился блокнот guided diffusion 512x512. Модификация позволяет использовать cutn=128 на графических процессорах Colab (более высокое качество вывода). Для этого cutn разделяется на четыре батча с cutn=32 и накапливает градиенты, но быстрым способом.
Colab
#text2image #diffusion #generative
Обновился блокнот guided diffusion 512x512. Модификация позволяет использовать cutn=128 на графических процессорах Colab (более высокое качество вывода). Для этого cutn разделяется на четыре батча с cutn=32 и накапливает градиенты, но быстрым способом.
Colab
#text2image #diffusion #generative
Смотрите какая крутая штука! Оказывается loss функцию можно показывать очень и очень красиво и артистично!
Больше крутых примеров 👉 https://losslandscape.com/gallery/
#images #generative #training
Больше крутых примеров 👉 https://losslandscape.com/gallery/
#images #generative #training
Benchmarking deep generative models for diverse antibody sequence design
Дизайн новых и разнообразных белков, соответствующих заданной структуре, остается важной нерешенной задачей. В последнее время глубокие генеративные модели, которые обучаются только на основе последовательностей или на основе последовательностей и структур совместно, показали впечатляющие результаты в решении этой задачи.
Исследователи из IBM рассматривают три недавно предложенные глубокие генеративные схемы для проектирования белков: (AR) авторегрессионная генеративная модель на основе последовательности, (GVP) графовая нейронная сеть на основе точной структуры и Fold2Seq.
Авторы сравнили эти модели на задаче вычислительного дизайна последовательностей антител, которая требует проектирования последовательностей с высоким разнообразием для функциональной привязки. Модель Fold2Seq превосходит две другие базовые модели по разнообразию конструируемых последовательностей.
📎 Статья
#ScientificML #biology #generative
Дизайн новых и разнообразных белков, соответствующих заданной структуре, остается важной нерешенной задачей. В последнее время глубокие генеративные модели, которые обучаются только на основе последовательностей или на основе последовательностей и структур совместно, показали впечатляющие результаты в решении этой задачи.
Исследователи из IBM рассматривают три недавно предложенные глубокие генеративные схемы для проектирования белков: (AR) авторегрессионная генеративная модель на основе последовательности, (GVP) графовая нейронная сеть на основе точной структуры и Fold2Seq.
Авторы сравнили эти модели на задаче вычислительного дизайна последовательностей антител, которая требует проектирования последовательностей с высоким разнообразием для функциональной привязки. Модель Fold2Seq превосходит две другие базовые модели по разнообразию конструируемых последовательностей.
📎 Статья
#ScientificML #biology #generative
This media is not supported in your browser
VIEW IN TELEGRAM
Шустрый diffusion GAN
За последнее пару лет было разработано большое разнообразие глубоких генеративных моделей. Эти модели обычно генерируют либо хорошо, либо быстро.
В частности, диффузионные модели продемонстрировали впечатляющее качество, но они просто невыносимо медленные (что не позволяет их применять во многих реальных приложениях). Исследователи из NVIDIA придумали как значительно ускорить процесс с помощью сложного мультимодального распределения. Они показали, что их диффузионные GAN сравнимы по качеству с оригинальными диффузионными моделями, но при этом работают в 2000 раз быстрее (на датасете CIFAR-10).
Denoising diffusion GAN - первая модель, которая снижает стоимость сэмплинга в диффузионных моделях до такой степени, что позволяет задёшево применять их в реальных приложениях.
📎 Статья
🖥 Проект
💻 Код
#diffusion #gan #generative
За последнее пару лет было разработано большое разнообразие глубоких генеративных моделей. Эти модели обычно генерируют либо хорошо, либо быстро.
В частности, диффузионные модели продемонстрировали впечатляющее качество, но они просто невыносимо медленные (что не позволяет их применять во многих реальных приложениях). Исследователи из NVIDIA придумали как значительно ускорить процесс с помощью сложного мультимодального распределения. Они показали, что их диффузионные GAN сравнимы по качеству с оригинальными диффузионными моделями, но при этом работают в 2000 раз быстрее (на датасете CIFAR-10).
Denoising diffusion GAN - первая модель, которая снижает стоимость сэмплинга в диффузионных моделях до такой степени, что позволяет задёшево применять их в реальных приложениях.
📎 Статья
🖥 Проект
💻 Код
#diffusion #gan #generative