AI Для Всех

[OpenAI CLIP] Learning Transferable Visual Models From Natural Language Supervision
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever
Статья: https://arxiv.org/abs/2103.00020
Пост в блоге: https://openai.com/blog/clip/
Код (официальный, но неполный): https://github.com/openai/CLIP
Код (неофициальный, но с обучением): https://github.com/mlfoundations/open_clip
Мультиязычный CLIP: https://github.com/FreddeFrallan/Multilingual-CLIP
Русский CLIP от Сбера: https://github.com/sberbank-ai/ru-clip

В предыдущем посте про DALL·E мы упомянули, что частью системы является CLIP, использующийся для ранжирования пар <картинка, текст>. Собственно, надо и про CLIP рассказать.

Глобальная идея CLIP в том, что традиционный подход к обучению в компьютерном зрении заключался в обучении по заранее заданным категориям (предопределённые классы), в то время как в природе есть гораздо более богатый (и потенциально более “дешёвый”, потому что классическая разметка по классам довольно дорога) тип данных — обычные тексты, которые и можно использовать в качестве supervised сигнала. Это идейно похоже на подход из области NLP принятый в трансформере T5, когда все задачи оформляются как seq2seq и для всех задач, включая классификацию, выходы являются текстовыми (а не категориальными в случае той же классификации). Дополнительным бонусом такого подхода является то, что мы не только выучиваем хорошее представление для задачи, но и ещё связываем представление текстов с представлением картинок, то есть получаем какое-то общее мультимодальное пространство.

CLIP расшифровывается как Contrastive Language-Image Pre-Training и технически его идея достаточно проста — возьмём огромный датасет пар <картинка, текстовое описание>, намайненный из интернета (таковых набралось 400М пар) и на этом датасете обучим контрастивную модель, которая для соответствующих друг другу элементов пары даст высокий скор, а для всех остальных — низкий. В этом смысле — классика contrastive learning (про который мы много писали ранее), только теперь он мультимодальный, тексты + картинки.

Про датасет на самом деле довольно мутная и почти неописанная часть. И он, конечно, не выложен. Вроде как искали пары <картинки, текст> по различным запросам (500К слов, которые встретились по крайней мере 100 раз в англоязычной википедии + информативные биграммы) и получая примерно 20К пар на каждый запрос. Датасет вышел аналогичный по числу слов датасету WebText, на котором обучалась GPT-2. Этот датасет назвали WIT (WebImageText). Я пока не уловил, что именно всё-таки в этих текстах, не сами запросы же? Какие-то прикартиночные тексты, или что-то ещё?

На таком датасете можно было бы обучить полноценный seq2seq в режиме похожем на image captioning, то есть генерить по картинке текст. Но авторы показали, что, например, если генерить по картинке описывающий её bag of words, то с точки зрения compute effieiency это получается в три раза эффективнее. А если потом предсказание заменить на контрастивное обучение, то эффективность ещё в четыре раза выше. Так пришли к контрастивному CLIP.

Собственно модель состоит из картиночного и текстового энкодеров, а дальше поверх нормализованных эмбеддингов считается косинусное расстояние, которое модель максимизирует для соответствующих элементов пары и минимизирует для несоответствующих.

В качестве картиночного энкодера попробовали 8 моделей: 5 свёрточных и 3 трансформера. В качестве свёрточных энкодеров взят базовый ResNet-50 с несколькими модификациями, более тяжёлый вариант ResNet-101, и EfficientNet-подобные RN50x4, RN50x16, RN50x64; а в качестве трансформеров используются ViT (https://t.me/gonzo_ML/434): ViT-B/32, ViT-B/16 и ViT-L/14. Для ViT-L/14 в дальнейшем сделали версию дообученную одну эпоху на разрешении 336 пикселей (все предыдущие были 224), её называют ViT-L/14@336px и дальше собственно её и подразумевают под версией в CLIP, так как её перформанс лучший.

Openai

CLIP: Connecting text and images

We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,…

362 viewsArtemii, 10:57