AI для Всех

Я прошелся по всем сообщениям в канале и проставил тэги, что бы было потом удобнее искать (когда понадобится) + поформатировал ссылки. По возможности старайтесь использовать теги которые уже есть и не плодить сущностей типа #image и #images

88 viewsArtemii, edited 17:34

AI для Всех

Do Vision Transformers See Like Convolutional Neural Networks? (Google AI)

Недавние работы показали, что (Vision) Transformer models (ViT) могут достигать высокой производительности в задачах классификации изображений. В связи с этим возникает главный вопрос: как они эти задачи решают? Действуют ли они подобно сверточным сетям или учат совершенно другие визуальные представления?

Анализируя внутреннюю структуру представления ViTs и CNNs, авторы обнаружили поразительные различия между этими двумя архитектурами, например, ViT имеет более однородное представление во всех слоях. Оказалось, решающую роль играют self-attention, который позволяет рано агрегировать глобальную информацию, и остаточные связи ViT, которые передают признаки от нижних слоев к верхним.

Ещё авторы демонстрируют влияние предварительного обучения и масштаба датасетовна промежуточные признаки и transfer learning, и в заключение обсуждают связи с новыми архитектурами, такими как MLP-Mixer.

ArXiv

#transformer #image #Convolutions #theory

244 viewsArtemii, edited 07:32

AI для Всех

CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP

За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).

У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.

Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.

🔭 Блог-пост
📎 Статья
🖥 Код

#multimodal #text #image #hopfield #SSL

1.5K viewsedited 08:14

About

Blog

Apps

Platform