AI Для Всех

QED: A Framework and Dataset for Explanations in Question Answering (Google AI)

QED - это лингвистически обоснованная система объяснений ответа на вопрос. Как представлено в статье, при наличии вопроса и отрывка QED представляет объяснение ответа как комбинацию дискретных, интерпретируемых человеком шагов:

* выбор предложения := определение предложения, подразумевающего ответ на вопрос
* референциальное равенство := идентификация именных фраз в вопросе и ответном предложении, которые относятся к одной и той же вещи
* предикатная эвиденциальность := подтверждение того, что предикат в предложении влечет за собой предикат в вопросе после абстрагирования от референтных равенств.

arXiv
GitHub

#datasets #nlp #linguistics #ScientificML

206 viewsArtemii, edited 14:57

AI Для Всех

MDETR: Modulated Detection for End-to-End Multi-Modal Understanding

Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces

Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.

Сайт
GitHub
Colab
ArXiv
Демо на Spaces

#multimodal #demo #nlp #images #detection

471 viewsArtemii, edited 08:13

AI Для Всех

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)

CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.

arXiv
Github

#clip #multimodal #video #nlp #text

215 viewsArtemii, edited 11:17

AI Для Всех

Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).

Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.

Статья

#nlp #training #prompting

180 viewsArtemii, edited 16:36

AI Для Всех

SummerTime - Text Summarization Toolkit for Non-experts

Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.

SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).

Код
Colab
Демо

#nlp #text #ScientificML

208 viewsArtemii, edited 11:07

AI Для Всех

Want To Reduce Labeling Cost? GPT-3 Can Help

Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.

В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.

Статья

#gpt #labeling #generative #nlp

193 viewsArtemii, edited 19:40

AI Для Всех

Shatter: An Efficient Transformer Encoder with Single-Headed Self-Attention and Relative Sequence Partitioning (Google language)

Популярная архитектура Transformer, основанная на self-attention, является основой больших предварительно обученных моделей, таких как BERT, которые стали устойчивой парадигмой в NLP. Несмотря на свою мощь, вычислительные ресурсы и время, необходимые для предварительного обучения таких моделей, могут оказаться непомерно большими.

В этой работе авторы представляют альтернативную архитектуру self-attention, Shatter, которая более эффективно кодирует информацию о последовательности путем мягкого разделения пространства относительных позиций и применения различных матриц значений к различным частям последовательности.

Этот механизм позволяет упростить multi-head attention в Transformer до одноголового. Shatter достигает лучшей производительности, чем BERT, при этом предварительное обучение быстрее на шаг (15% на TPU), сходится за меньшее количество шагов и обеспечивает значительную экономию памяти (>50%). Вместе взятые, Shatter может быть предварительно обучен на 8 GPU V100 за 7 дней и сравним по производительности с BERT_Base, что делает стоимость предварительного обучения гораздо более доступной.

Статья

#transformer #attention #nlp

202 viewsArtemii, 08:53

AI Для Всех

Finetuned Language Models Are Zero-Shot Learners (Google AI)

В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".

Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.

Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.

Статья

#nlp #gpt #training #generative

211 viewsArtemii, edited 07:25

About

Blog

Apps

Platform