StyleGAN-NADA преобразует предварительно обученный генератор в новые домены, используя только текстовую подсказку и без обучающих данных.
Естественно направляет его CLIP.
Project
#GAN #CLIP #multimodal
Естественно направляет его CLIP.
Project
#GAN #CLIP #multimodal
Ещё одна версия VQGAN + CLIP с другим типом аугментации и сэмплирования из модели. Предположительно даёт лучшее качество.
Colab
#text2image #generative #gan #CLIP
Colab
#text2image #generative #gan #CLIP
Тэги доступные в канале на данный момент:
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
#alphafold2, #astronomy, #audio, #augmentation, #automl, #bayes, #biology, #botany, #captioning, #categorical, #chemistry, #classification, #clip, #cnn, #code, #community, #competition, #compression, #conference, #contrastivelearning, #course, #datasets, #debugging, #demo, #depth, #detection, #diffusion, #dilation, #dimensionality, #distillation, #earthscience, #economics, #explainability, #gan, #generative, #geometric, #gnn, #gpt, #gpu, #graph, #hardware, #holdontoyoirpapers, #image2text, #images, #inference, #joke, #julia, #jupyterlab, #jupyterlite, #labeling, #latex, #lnl, #medicine, #metrics, #mlp, #money, #multimodal, #nas, #news, #nlp, #noise, #novelviews, #optimizer, #outliers, #physics, #presentation, #python, #resnet, #resources, #rl, #rnn, #rocauc, #science, #scientificml, #segmentation, #SSL, #XAI, #separation, #sequences, #signal, #social, #sound, #speech, #styletransfer, #superresolution, #tabular, #text2image, #theory, #torrent, #training, #transformer, #translate, #tutorial, #twominutespapers, #video, #visualization, #waveforms, #гумунитарии, #дьяконов, #книги, #отборочные
MedCLIP
Позволяет осуществлять поиск по медицинским изображениям.
Поиграть можно тут 👉
Онлайн-демо
#CLIP #images #medicine #multimodal #demo
Позволяет осуществлять поиск по медицинским изображениям.
Поиграть можно тут 👉
Онлайн-демо
#CLIP #images #medicine #multimodal #demo
huggingface.co
Medical image retrieval using a CLIP model - a Hugging Face Space by kaushalya
Discover amazing ML apps made by the community
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
CLIP Guided Diffusion HQ
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
AI Для Всех
CLIP Guided Diffusion HQ Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации. Картинка сгенерирована по тексту: a beautiful watercolor painting of wind #text2image #generative #CLIP #diffusion
CLIP Guided Diffusion Uncond
Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.
Бежим играть - делитесь в комментах, что у вас получилось.
(Prompt с обложки поста: the rise of consciousness)
#generative #diffusion #CLIP #images #multimodal #text2image
Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.
Бежим играть - делитесь в комментах, что у вас получилось.
(Prompt с обложки поста: the rise of consciousness)
#generative #diffusion #CLIP #images #multimodal #text2image
CLIPIT PixelDraw
Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.
#generative #CLIP #multimodal #images #text2image
Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.
#generative #CLIP #multimodal #images #text2image
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
Обновился блокнот CLIPPixelArt, ещё более красивые картинки и ещё больше вариантов генерации
Colab
#generative #text2image #clip #multimodal
Colab
#generative #text2image #clip #multimodal
Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).
Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.
Датасет
Инсайдерская инфа (Скоро будет 1 миллиард)
#datasets #multimodal #clip
Zero-Shot Open Set Detection Based on a Pretrained Language-Vision Model
В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).
В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.
Статья
#images #CLIP #multimodal #zeroshot
В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).
В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.
Статья
#images #CLIP #multimodal #zeroshot
This media is not supported in your browser
VIEW IN TELEGRAM
CLIPort
Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.
В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!
Статья
Код
#CLIP #robots #NLP #multimodal
Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.
В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!
Статья
Код
#CLIP #robots #NLP #multimodal
ActionCLIP: A New Paradigm for Video Action Recognition
В традиционном (казалось бы насколько это слово не применимо к машинному обучению) мире ML, для того что бы обрабатывать видео - нужно пилить какой-то класификатор.
С подходом ActionCLIP - все проще. Просто учим CLIP, но вместо картинок - используем видео. Вуаля - теперь у вас есть система, которая может описать что происходит с вашими котиками или кто там у вас (а значит можем и искать по видосам).
Приминений в науке - море! Хочешь таймлэпсы маркируй и разбивай на осмысленные фрагменты, хочешь записи с телескопов и микроскопов.
Статья
Код
#CLIP #video
В традиционном (казалось бы насколько это слово не применимо к машинному обучению) мире ML, для того что бы обрабатывать видео - нужно пилить какой-то класификатор.
С подходом ActionCLIP - все проще. Просто учим CLIP, но вместо картинок - используем видео. Вуаля - теперь у вас есть система, которая может описать что происходит с вашими котиками или кто там у вас (а значит можем и искать по видосам).
Приминений в науке - море! Хочешь таймлэпсы маркируй и разбивай на осмысленные фрагменты, хочешь записи с телескопов и микроскопов.
Статья
Код
#CLIP #video
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
И продолжая тему с видеоCLIPами. На этот раз статья от Facebook. VideoCLIP обучают трансформер для видео и текста, противопоставляя перекрывающиеся во времени положительные пары видео и текста жестким отрицательным парам, полученным в результате поиска ближайших соседей.
Говорят что их результаты самые самые.
Статья
Код
#CLIP #video #multimodal
И продолжая тему с видеоCLIPами. На этот раз статья от Facebook. VideoCLIP обучают трансформер для видео и текста, противопоставляя перекрывающиеся во времени положительные пары видео и текста жестким отрицательным парам, полученным в результате поиска ближайших соседей.
Говорят что их результаты самые самые.
Статья
Код
#CLIP #video #multimodal