Program Synthesis with Large Language Models
Авторы используют большие языковые модели для синтеза компьютерных программ, выполнения программ, решения математических задач и диалога с людьми для итеративного уточнения кода.
Модели могут решить 60% и 81% задач по программированию и математике, соответственно.
Оказалось что, большие модели не только решают проблемы, которые не могут решить меньшие модели, но и более надежно решают более простые проблемы, которые меньшие модели решают реже.
В статье разобранны различные аспекты работы с такими кодовыми моделями.
ArXiv
#code #generative #nlp
Авторы используют большие языковые модели для синтеза компьютерных программ, выполнения программ, решения математических задач и диалога с людьми для итеративного уточнения кода.
Модели могут решить 60% и 81% задач по программированию и математике, соответственно.
Оказалось что, большие модели не только решают проблемы, которые не могут решить меньшие модели, но и более надежно решают более простые проблемы, которые меньшие модели решают реже.
В статье разобранны различные аспекты работы с такими кодовыми моделями.
ArXiv
#code #generative #nlp
QED: A Framework and Dataset for Explanations in Question Answering (Google AI)
QED - это лингвистически обоснованная система объяснений ответа на вопрос. Как представлено в статье, при наличии вопроса и отрывка QED представляет объяснение ответа как комбинацию дискретных, интерпретируемых человеком шагов:
* выбор предложения := определение предложения, подразумевающего ответ на вопрос
* референциальное равенство := идентификация именных фраз в вопросе и ответном предложении, которые относятся к одной и той же вещи
* предикатная эвиденциальность := подтверждение того, что предикат в предложении влечет за собой предикат в вопросе после абстрагирования от референтных равенств.
arXiv
GitHub
#datasets #nlp #linguistics #ScientificML
QED - это лингвистически обоснованная система объяснений ответа на вопрос. Как представлено в статье, при наличии вопроса и отрывка QED представляет объяснение ответа как комбинацию дискретных, интерпретируемых человеком шагов:
* выбор предложения := определение предложения, подразумевающего ответ на вопрос
* референциальное равенство := идентификация именных фраз в вопросе и ответном предложении, которые относятся к одной и той же вещи
* предикатная эвиденциальность := подтверждение того, что предикат в предложении влечет за собой предикат в вопросе после абстрагирования от референтных равенств.
arXiv
GitHub
#datasets #nlp #linguistics #ScientificML
MDETR: Modulated Detection for End-to-End Multi-Modal Understanding
Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces
Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.
Сайт
GitHub
Colab
ArXiv
Демо на Spaces
#multimodal #demo #nlp #images #detection
Если по простому - даёте любую фотографию или картинку, пишете текстом что вы хотите на ней найти (например розовый слоник в балетной пачке) и сеть выдаёт координаты этого объекта. Попробуйте сами на Spaces
Если по умному - этот репозиторий содержит код и ссылки на предобученные модели для MDETR (Modulated DETR) для претренинга на данных, содержащих выровненный текст и изображения с аннотациями, а также для файнтюнинга на задачах, требующих тонкого понимания изображения и текста.
Сайт
GitHub
Colab
ArXiv
Демо на Spaces
#multimodal #demo #nlp #images #detection
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP (Tencent)
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
CLIP2Video - сеть для end-to-end переноса модели переобученой на изображениях и языке в видеотекстовый поиск. В частности, основываясь на пространственной семантике, улавливаемой моделью Contrastive Language-Image Pretraining (CLIP), модель включает в себя блок Temporal Difference для захвата движений в видеокадрах и блок Temporal Alignment для повторного выравнивания лексем видеоклипов и фраз и улучшения мультимодальной корреляции.
arXiv
Github
#clip #multimodal #video #nlp #text
Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners
Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).
Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.
Статья
#nlp #training #prompting
Огромные предобученные языковые модели внесли значительный вклад в обработку естественного языка. Однако их эффективность зависит в основном от масштабирования параметров модели, что препятствует их применению в большинстве реальных приложений. В этом исследовании предлагается новый масштабируемый и эффективный подход, названный DifferentiAble pRompT (DART).
Основной принцип этого подхода заключается в переформулировании потенциальных задач обработки естественного языка в задачи предобучения языковой модели и дифференциальной оптимизации шаблона подсказки и целевой метки с помощью обратного распространения. Кроме того, предложенный подход может быть: (i) использован с любыми предобученными языковым моделями; (ii) расширен на задачи классификации.
Статья
#nlp #training #prompting
SummerTime - Text Summarization Toolkit for Non-experts
Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.
SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).
Код
Colab
Демо
#nlp #text #ScientificML
Библиотека, помогающая пользователям выбрать подходящие инструменты обобщения на основе их конкретных задач или потребностей. Включает модели, метрики оценки и наборы данных.
SummerTime поддерживает различные модели (например, TextRank, BART, Longformer), а также обертки моделей для более сложных задач обобщения (например, JointModel для обобщения нескольких документов, BM25 retrieval для обобщения на основе запросов).
Код
Colab
Демо
#nlp #text #ScientificML
Want To Reduce Labeling Cost? GPT-3 Can Help
Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.
В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.
Статья
#gpt #labeling #generative #nlp
Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.
В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.
Статья
#gpt #labeling #generative #nlp
Shatter: An Efficient Transformer Encoder with Single-Headed Self-Attention and Relative Sequence Partitioning (Google language)
Популярная архитектура Transformer, основанная на self-attention, является основой больших предварительно обученных моделей, таких как BERT, которые стали устойчивой парадигмой в NLP. Несмотря на свою мощь, вычислительные ресурсы и время, необходимые для предварительного обучения таких моделей, могут оказаться непомерно большими.
В этой работе авторы представляют альтернативную архитектуру self-attention, Shatter, которая более эффективно кодирует информацию о последовательности путем мягкого разделения пространства относительных позиций и применения различных матриц значений к различным частям последовательности.
Этот механизм позволяет упростить multi-head attention в Transformer до одноголового. Shatter достигает лучшей производительности, чем BERT, при этом предварительное обучение быстрее на шаг (15% на TPU), сходится за меньшее количество шагов и обеспечивает значительную экономию памяти (>50%). Вместе взятые, Shatter может быть предварительно обучен на 8 GPU V100 за 7 дней и сравним по производительности с BERT_Base, что делает стоимость предварительного обучения гораздо более доступной.
Статья
#transformer #attention #nlp
Популярная архитектура Transformer, основанная на self-attention, является основой больших предварительно обученных моделей, таких как BERT, которые стали устойчивой парадигмой в NLP. Несмотря на свою мощь, вычислительные ресурсы и время, необходимые для предварительного обучения таких моделей, могут оказаться непомерно большими.
В этой работе авторы представляют альтернативную архитектуру self-attention, Shatter, которая более эффективно кодирует информацию о последовательности путем мягкого разделения пространства относительных позиций и применения различных матриц значений к различным частям последовательности.
Этот механизм позволяет упростить multi-head attention в Transformer до одноголового. Shatter достигает лучшей производительности, чем BERT, при этом предварительное обучение быстрее на шаг (15% на TPU), сходится за меньшее количество шагов и обеспечивает значительную экономию памяти (>50%). Вместе взятые, Shatter может быть предварительно обучен на 8 GPU V100 за 7 дней и сравним по производительности с BERT_Base, что делает стоимость предварительного обучения гораздо более доступной.
Статья
#transformer #attention #nlp
Finetuned Language Models Are Zero-Shot Learners (Google AI)
В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".
Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.
Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.
Статья
#nlp #gpt #training #generative
В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".
Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.
Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.
Статья
#nlp #gpt #training #generative