#resources #literature #normalization #optimizer #transformer #nlp #generative #cnn
Наверно, стоит в принципе отметить сайт https://theaisummer.com/
На сайте есть много приятных статей с очень хорошими, часто авторскими, иллюстрациями.
На мой вкус порой они делают порой плохие по качеству рассказа или материала статьи, но фактических ошибок у них не замечал. И такие статьи редки.
Потому сайт является хорошим местом, которое можно посмотреть при подготовке или перед чтением лекции.
Примеры приятных статей:
In-layer normalization techniques for training very deep neural networks
A journey into Optimization algorithms for Deep Neural Networks
Intuitive Explanation of Skip Connections in Deep Learning
How Transformers work in deep learning and NLP: an intuitive introduction
The theory behind Latent Variable Models: formulating a Variational Autoencoder
Best deep CNN architectures and their principles: from AlexNet to EfficientNet
Наверно, стоит в принципе отметить сайт https://theaisummer.com/
На сайте есть много приятных статей с очень хорошими, часто авторскими, иллюстрациями.
На мой вкус порой они делают порой плохие по качеству рассказа или материала статьи, но фактических ошибок у них не замечал. И такие статьи редки.
Потому сайт является хорошим местом, которое можно посмотреть при подготовке или перед чтением лекции.
Примеры приятных статей:
In-layer normalization techniques for training very deep neural networks
A journey into Optimization algorithms for Deep Neural Networks
Intuitive Explanation of Skip Connections in Deep Learning
How Transformers work in deep learning and NLP: an intuitive introduction
The theory behind Latent Variable Models: formulating a Variational Autoencoder
Best deep CNN architectures and their principles: from AlexNet to EfficientNet
AI Summer
AI Summer | Learn Deep Learning and Artificial Intelligence
VideoGPT: Video Generation using VQ-VAE and Transformers
Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.
VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.
Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).
Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.
ArXiv
Проект
Colab
#video #generative
Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.
VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.
Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).
Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.
ArXiv
Проект
Colab
#video #generative
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models.
Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.
В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.
Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.
Статья
#generative #diffusion #images
Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.
В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.
Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.
Статья
#generative #diffusion #images
This media is not supported in your browser
VIEW IN TELEGRAM
SofGAN: A Portrait Image Generator with Dynamic Styling
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
CLIP Guided Diffusion HQ
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
OpenAI Codex - просто чума!
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
AI Для Всех
CLIP Guided Diffusion HQ Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации. Картинка сгенерирована по тексту: a beautiful watercolor painting of wind #text2image #generative #CLIP #diffusion
CLIP Guided Diffusion Uncond
Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.
Бежим играть - делитесь в комментах, что у вас получилось.
(Prompt с обложки поста: the rise of consciousness)
#generative #diffusion #CLIP #images #multimodal #text2image
Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.
Бежим играть - делитесь в комментах, что у вас получилось.
(Prompt с обложки поста: the rise of consciousness)
#generative #diffusion #CLIP #images #multimodal #text2image
CLIPIT PixelDraw
Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.
#generative #CLIP #multimodal #images #text2image
Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.
#generative #CLIP #multimodal #images #text2image