DocTR: Document Text Recognition
Оптическое распознавание символов стало простым и доступным для всех, на базе TensorFlow 2 (PyTorch в бета-версии)
Чего ожидать от этого репозитория:
* эффективные способы разбора текстовой информации (локализация и идентификация каждого слова) из ваших документов
* руководство по интеграции в вашу текущую архитектуру
GitHub
#ocr #text #nlps
Оптическое распознавание символов стало простым и доступным для всех, на базе TensorFlow 2 (PyTorch в бета-версии)
Чего ожидать от этого репозитория:
* эффективные способы разбора текстовой информации (локализация и идентификация каждого слова) из ваших документов
* руководство по интеграции в вашу текущую архитектуру
GitHub
#ocr #text #nlps
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
SummerTime - Text Summarization Toolkit for Non-experts
Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.
SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).
Код
Colab
Демо
#nlp #text #ScientificML
Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.
SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).
Код
Colab
Демо
#nlp #text #ScientificML
Learning to Prompt for Vision-Language Models
Устали от настройки prompts для моделей языка зрения, таких как CLIP?
Почему бы не использовать CoOp для изучения prompts! Он эффективен с точки зрения данных и обобщаем в конкретных областях😎
Основная идея CoOp заключается в моделировании контекста в подсказках с помощью непрерывных представлений и выполнении сквозного обучения на основе данных. CoOp демонстрирует способность к эффективному обучению на основе данных, а также устойчивость к изменению распределения.
Статья
Код
#prompting #transformer #multimodal #images #text #text2image
Устали от настройки prompts для моделей языка зрения, таких как CLIP?
Почему бы не использовать CoOp для изучения prompts! Он эффективен с точки зрения данных и обобщаем в конкретных областях😎
Основная идея CoOp заключается в моделировании контекста в подсказках с помощью непрерывных представлений и выполнении сквозного обучения на основе данных. CoOp демонстрирует способность к эффективному обучению на основе данных, а также устойчивость к изменению распределения.
Статья
Код
#prompting #transformer #multimodal #images #text #text2image
HuggingFace Datasets
🤗 Datasets - это легкая и расширяемая библиотека для удобного обмена и доступа к наборам данных и метрикам оценки для обработки естественного языка (NLP).
🤗 Datasets имеет много интересных особенностей (помимо простого обмена и доступа к наборам данных/метрикам):
* Встроенная совместимость с Numpy, Pandas, PyTorch и Tensorflow 2
* Наборы данных естественным образом освобождают пользователя от ограничений памяти RAM, все наборы данных по умолчанию отображаются на диске.
* Интеллектуальное кэширование: вам никогда не придётся ждать, пока ваши данные будут обрабатываться несколько раз
* В настоящее время 🤗 Datasets предоставляет доступ к ~1000 наборам данных и ~30 метрикам оценки и разработан для того, чтобы сообщество могло легко добавлять и делиться новыми наборами данных и метриками оценки. Вы можете просмотреть полный набор наборов данных в режиме реального времени с помощью программы просмотра 🤗 Datasets.
Датасеты
Статья
GitHub
#nlp #datasets #text
🤗 Datasets - это легкая и расширяемая библиотека для удобного обмена и доступа к наборам данных и метрикам оценки для обработки естественного языка (NLP).
🤗 Datasets имеет много интересных особенностей (помимо простого обмена и доступа к наборам данных/метрикам):
* Встроенная совместимость с Numpy, Pandas, PyTorch и Tensorflow 2
* Наборы данных естественным образом освобождают пользователя от ограничений памяти RAM, все наборы данных по умолчанию отображаются на диске.
* Интеллектуальное кэширование: вам никогда не придётся ждать, пока ваши данные будут обрабатываться несколько раз
* В настоящее время 🤗 Datasets предоставляет доступ к ~1000 наборам данных и ~30 метрикам оценки и разработан для того, чтобы сообщество могло легко добавлять и делиться новыми наборами данных и метриками оценки. Вы можете просмотреть полный набор наборов данных в режиме реального времени с помощью программы просмотра 🤗 Datasets.
Датасеты
Статья
GitHub
#nlp #datasets #text
huggingface.co
Datasets
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
За 2021 год, мы увидели множество прорывов в области self-supervised learning (это когда человек вообще не размечал данные). Одним из таких прорывов был CLIP, который умеет соотносить между собой текст и картинки (предвестник безумного ML-арта).
У CLIP есть проблема - иногда он «срезает» углы и предсказывает что-то, на основании ложных признаков (как в истории про умную лошадь по имени Ганс, которая «умела» в математику). Эту проблему можно решить с помощью сетей Хопфилда, которые служат в качестве ассоциативной системы памяти.
Что подводит нас собственно к CLOOB (Contrastive Leave One Out Boost)- новому методу self-supervised обучения, в котором сети Хопфилда повышают эффективность обучения. CLOOB преодолевает проблему срезания «углов», характерную для CLIP с помощью замены признаков входной картинки/текста на признаки, которые извлекаются из сети Хопфилда.
🔭 Блог-пост
📎 Статья
🖥 Код
#multimodal #text #image #hopfield #SSL
Media is too big
VIEW IN TELEGRAM
End-to-End Referring Video Object Segmentation with Multimodal Transformers
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
Предположим вы хотите сегментировать объекты на видео по их текстовому описанию. Эту задачу можно разбить на составляющие части: понимание текста и видео, а так же непосредственно сегментация и треккинг объектов.
В данной работе авторы предлагают простой (забавное слово) подход на основе трансформеров. Их система, названная Multimodal Tracking Transformer (MTTR), моделирует задачу как проблему предсказания последовательности. MTTR основан на том, что видео и текст могут быть эффективно и элегантно обработаны одной мультимодальной трансформерной моделью.
Оценка на стандартных бэнчмарках показала, что MTTR значительно превосходит предыдущие методы по многим показателям. В частности, MTTR демонстрирует впечатляющий прирост точности при обработке 76 кадров в секунду (то есть ее можно гонять real-time даже на хороших камерах с 60 fps).
📎 Статья
🖥 Код
#multimodal #video #transformer #text #segmentation
ClipCap: CLIP Prefix for Image Captioning
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Нейронки научились хорошо предсказывать описания любых картинок. Сначала изображение прогоняют через CLIP (получают эмбеддинг изображения), а затем вытаскивают соответствующее текстовое описание из языковой модели.
Основная идея статьи заключается в том, что вместе с предварительно обученной языковой моделью (GPT2) авторы получают широкое понимание как визуальных, так и текстовых данных.
Таким образом, без дополнительных аннотаций или предварительного обучения, сеть эффективно генерирует осмысленные подписи для любых изображений.
📎 Статья
💻 Colab
🖥 Код
🤗 Онлайн
#clip #images #captioning #text
Roadmap for Information Retrieval
Поиск информации (IR), задача поиска и доступа к соответствующим знаниям, вероятно, является одной из наиболее определяющих проблем информационного века. Люди используют IR каждый день, чтобы найти книги в электронной библиотеке, обувь в интернет-магазине, песни в стриминговом музыкальном сервисе и многое другое.
Нейронные модели - отличный метод для решения этой задачи, благодаря их способности глубоко понимать язык. Подобно тому, как людям, занятым на наукоемких работах, обычно приходится обращаться к знаниям в Интернете, нейронные сети должны эффективно искать более масштабные источники знаний. В последнее время исследователи добились больших успехов в повышении точности и эффективности предварительно обученных языковых моделей.
Почитать о том, что они придумали можно в блоге одной «экстремистской организации» 🤦♂️.
#information #text
Поиск информации (IR), задача поиска и доступа к соответствующим знаниям, вероятно, является одной из наиболее определяющих проблем информационного века. Люди используют IR каждый день, чтобы найти книги в электронной библиотеке, обувь в интернет-магазине, песни в стриминговом музыкальном сервисе и многое другое.
Нейронные модели - отличный метод для решения этой задачи, благодаря их способности глубоко понимать язык. Подобно тому, как людям, занятым на наукоемких работах, обычно приходится обращаться к знаниям в Интернете, нейронные сети должны эффективно искать более масштабные источники знаний. В последнее время исследователи добились больших успехов в повышении точности и эффективности предварительно обученных языковых моделей.
Почитать о том, что они придумали можно в блоге одной «экстремистской организации» 🤦♂️.
#information #text
Facebook
Advances toward ubiquitous neural information retrieval
Today, we’re sharing cutting-edge dense retrieval models that will help pave the way for ubiquitous neural information retrieval. This work will not only improve search as we currently use it, but also enable smarter AI agents of the future.