AI Для Всех
12.3K subscribers
1.06K photos
138 videos
10 files
1.35K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
🤯 wav2CLIP

Новый метод обучения аудиопредставлений путем дистилляции из контрастивного предварительного обучения языку и изображению (CLIP).

Авторы оценивают Wav2CLIP на различных аудиозадачах, включая классификацию, поиск и генерацию, и показывают, что Wav2CLIP превосходит общедоступные алгоритмы предварительного обучения audio representation.

Wav2CLIP проецирует аудио в общее пространство эмбедингов с изображениями и текстом, что позволяет использовать его в мультимодальных задачах, таких как классификация zero-shot и кросс-модальный поиск. Более того, Wav2CLIP требуется всего ~10% от данных необходимых для supervised learning.

📎 Статья
🖥 Код

#clip #audio #video #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
ProsePainter

Создавайте образы, рисуя словами.
ProsePainter сочетает в себе рисование руками с оптимизацией изображения в реальном времени с помощью машинного обучения. Просто скажите, что вы хотите, и выделите нужную область.

🖥 Код

#CLIP #images #multimodal
ClipCap: CLIP Prefix for Image Captioning

Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.

Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.

Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.

📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн

#clip #images #captioning #text