AI Для Всех
12.8K subscribers
1.17K photos
153 videos
10 files
1.38K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
StyleGAN-NADA преобразует предварительно обученный генератор в новые домены, используя только текстовую подсказку и без обучающих данных.

Естественно направляет его CLIP.

Project

#GAN #CLIP #multimodal
Ещё одна версия VQGAN + CLIP с другим типом аугментации и сэмплирования из модели. Предположительно даёт лучшее качество.

Colab

#text2image #generative #gan #CLIP
MedCLIP

Позволяет осуществлять поиск по медицинским изображениям.

Поиграть можно тут 👉
Онлайн-демо

#CLIP #images #medicine #multimodal #demo
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications

В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.

Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.

Статья

#generative #multimodal #images #nlp
CLIP Guided Diffusion HQ

Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.

Картинка сгенерирована по тексту: a beautiful watercolor painting of wind

#text2image #generative #CLIP #diffusion
AI Для Всех
CLIP Guided Diffusion HQ Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации. Картинка сгенерирована по тексту: a beautiful watercolor painting of wind #text2image #generative #CLIP #diffusion
CLIP Guided Diffusion Uncond

Вновь обновился Colab с Guided Diffusion (нейросеть которая позволяет из любого текста сделать картинку). Качество изображений стало ещё лучше, теперь неплохо получаются лица.

Бежим играть - делитесь в комментах, что у вас получилось.

(Prompt с обложки поста: the rise of consciousness)

#generative #diffusion #CLIP #images #multimodal #text2image
CLIPIT PixelDraw

Возможно некоторые из вас уже видели новую сеть для генерации Pixel Art из текстового описания. И вот наконец к ней выложили Colab с которым можно поиграться самостоятельно.

#generative #CLIP #multimodal #images #text2image
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text
Обновился блокнот CLIPPixelArt, ещё более красивые картинки и ещё больше вариантов генерации

Colab

#generative #text2image #clip #multimodal
Набор данных LAION-400M находится в полном открытом, свободном доступе (400 миллионов пар картинка-текст).

Собран благодаря crowd-computing усилиям ElutherAI (я тоже поучаствовал 🤏).

Все изображения и тексты в LAION-400M были отфильтрованы с помощью OpenAI's CLIP путем вычисления косинусного сходства между эмбедингами текста и изображения и отбрасывания тех, чье сходство ниже 0,3.

Датасет

Инсайдерская инфа (Скоро будет 1 миллиард)

#datasets #multimodal #clip
Zero-Shot Open Set Detection Based on a Pretrained Language-Vision Model

В задаче на классификацию неограниченных классов сэмплы известных классов (также называемых классами закрытого множества) используются для обучения классификатора. При тестировании классификатор может (1) отнести образцы известных классов к соответствующим классам и (2) определить образцы, которые не принадлежат ни к одному из известных классов (мы говорим, что они принадлежат к некоторым открытым классам).

В работе предлагается метод (ZO-CLIP) для решения проблемы открытой классификации. ZO-CLIP основывается на достижениях в области классификации Zero-Shot с помощью обучения мультимодальному представлению данных (multimodal representation). Сначала он расширяет предварительно обученную модель CLIP, обучая генератор текстовых описаний изображений поверх CLIP. При тестировании ZO-CLIP использует модель для генерации названий неизвестных классов-кандидатов для каждого тестового образца.

Статья

#images #CLIP #multimodal #zeroshot
This media is not supported in your browser
VIEW IN TELEGRAM
CLIPort

Рисовать картинки с помощью CLIP и GAN было весело. А теперь у CLIP нашлось новое, асболютно бомбическое применение! Оказалось, что CLIP можно использовать для того что бы давать команды манипулятору.

В работе CLIPort (загляните на сайт, там много красивых примеров) предлагают сетку которая понимает команды данные на человеческом языке, при этом робот не ограничен каким-то заранее известным набором команд и способен “понимать” чего от него хотят!

Статья
Код

#CLIP #robots #NLP #multimodal
ActionCLIP: A New Paradigm for Video Action Recognition

В традиционном (казалось бы насколько это слово не применимо к машинному обучению) мире ML, для того что бы обрабатывать видео - нужно пилить какой-то класификатор.

С подходом ActionCLIP - все проще. Просто учим CLIP, но вместо картинок - используем видео. Вуаля - теперь у вас есть система, которая может описать что происходит с вашими котиками или кто там у вас (а значит можем и искать по видосам).

Приминений в науке - море! Хочешь таймлэпсы маркируй и разбивай на осмысленные фрагменты, хочешь записи с телескопов и микроскопов.

Статья
Код

#CLIP #video
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

И продолжая тему с видеоCLIPами. На этот раз статья от Facebook. VideoCLIP обучают трансформер для видео и текста, противопоставляя перекрывающиеся во времени положительные пары видео и текста жестким отрицательным парам, полученным в результате поиска ближайших соседей.
Говорят что их результаты самые самые.

Статья
Код

#CLIP #video #multimodal
Смотрите какая крутая штука!!! Кто-то натренировал CLIP на извлечение мест с космоснимков по свободному текстовому запросу! Вот тут демка

Кидайте в комменты свои лучшие запросы-ответы

#ScientificML #earthscience #CLIP