AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Antarctic Captioning - на основе CLIP и сети для image captioning:

Colab
Git

Позволяет генерировать описания к картинкам, которые значительно выходят за рамки любой обученной модели, например COCO.

#images #captioning #multimodal #CLIP
Audio Captioning Transformer

Было бы круто обучить такую же модель, но для описания последовательностей/временных рядов. Например для графиков давления - типа «давление падает в виду движения циклона на северо-восток».

#waveforms #audio #captioning
SciCap: Generating Captions for Scientific Figures

Исследователи используют рисунки (figures) для передачи богатой, сложной информации в научных статьях. Подписи к этим рисункам имеют решающее значение для эффективной передачи информации. Однако в научных статьях часто встречаются низкокачественные подписи к рисункам, что может снизить уровень их понимания.

Что бы начать с этой проблемой справляться нейронными методами, выпустили SCICAP - крупномасштабный набор данных с подписями к рисункам. В основном используют рисунки из статей arXiv по информатике, опубликованных в период с 2010 по 2020 год. SCICAP содержит более двух миллионов рисунков, извлеченных из более чем 290 000 статей.

Боюсь что подписи все равно генерировать будет сложно без текста статьи, но что-то мультимодальное наверное в ближайшее время справится и с такой задачей.

📎 Статья
🗂 Данные

#ScientificML #captioning #datasets
ClipCap: CLIP Prefix for Image Captioning

Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.

Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.

Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.

📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн

#clip #images #captioning #text