CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL