AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing
Большая обзорная статья на Transformer-based pretrained language models (T-PTLMs). Эволюция этих моделей началась с GPT и BERT.
Этот обширный обзор послужит хорошим пособием для изучения основных концептов, а также для того, чтобы быть в курсе последних событий в области T-PTLMs.
ArXiv
#nlp #gpt
Большая обзорная статья на Transformer-based pretrained language models (T-PTLMs). Эволюция этих моделей началась с GPT и BERT.
Этот обширный обзор послужит хорошим пособием для изучения основных концептов, а также для того, чтобы быть в курсе последних событий в области T-PTLMs.
ArXiv
#nlp #gpt
Призыв от Стеллы Бёрдмэн из ElutherAI:
Вы (некомпьютерный) ученый, который хочет использовать такие модели, как GPT-3 от @OpenAI, для исследований? #EleutherAI хочет помочь. Мы разработали самые мощные в мире свободно распространяемые языковые модели ИИ и хотим передать их в ваши руки.
В какой поддержке вы нуждаетесь? Что я могу сделать, чтобы ваша исследовательская программа была осуществима? Напишите мне DM, @, ответьте в этой теме, напишите мне по адресу stella@eleuther.ai
Для ясности: мы не являемся стартапом и не берем $$. Мы - частная исследовательская группа с нулевым интересом к получению прибыли. Вы можете заплатить нам цитированием, соавторством и (что наиболее важно) проведением потрясающих исследований с помощью наших инструментов.
Тред
#ScientificML #science #gpt
Вы (некомпьютерный) ученый, который хочет использовать такие модели, как GPT-3 от @OpenAI, для исследований? #EleutherAI хочет помочь. Мы разработали самые мощные в мире свободно распространяемые языковые модели ИИ и хотим передать их в ваши руки.
В какой поддержке вы нуждаетесь? Что я могу сделать, чтобы ваша исследовательская программа была осуществима? Напишите мне DM, @, ответьте в этой теме, напишите мне по адресу stella@eleuther.ai
Для ясности: мы не являемся стартапом и не берем $$. Мы - частная исследовательская группа с нулевым интересом к получению прибыли. Вы можете заплатить нам цитированием, соавторством и (что наиболее важно) проведением потрясающих исследований с помощью наших инструментов.
Тред
#ScientificML #science #gpt
Twitter
Stella Rose Biderman
#AcademicTwitter #AcademicChatter Are you a (non-computer) scientist who wants to use models like @OpenAI’s GPT-3 for research? #EleutherAI wants to help. We have developed the most powerful freely available AI language models in the world and want to put…
Want To Reduce Labeling Cost? GPT-3 Can Help
Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.
В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.
Статья
#gpt #labeling #generative #nlp
Аннотирование данных - трудоемкий и длительный процесс для многих задач NLP. Хотя существуют различные методы получения псевдометок, они часто зависят от конкретной задачи и все равно требуют значительного количества размеренных данных.
В статье исследуются способы использования GPT-3 в качестве недорогого средства для разметки данных для обучения других моделей. Авторы обнаружили, что для того, чтобы последующая модель достигла одинаковой производительности в различных задачах NLU и NLG, использование меток из GPT-3 обходится на 50%-96% дешевле, чем использование меток от человека. Более того, авторы предлагают новую схему комбинирования псевдометок из GPT-3 с человеческими метками, что приводит к еще более высокой производительности при ограниченном бюджете на разметку. Эти результаты представляют экономически эффективную методологию разметки данных, которая может быть использована во многих практических приложениях.
Статья
#gpt #labeling #generative #nlp
MiniF2F: a cross-system benchmark for formal Olympiad-level mathematics (OpenAI)
Датасет формальных задач по математике олимпиадного уровня, предназначенный для создания единого межсистемного бенчмарка для нейронного доказательства теорем
Статья
GitHub
#datasets #math #ScientificML #gpt
Датасет формальных задач по математике олимпиадного уровня, предназначенный для создания единого межсистемного бенчмарка для нейронного доказательства теорем
Статья
GitHub
#datasets #math #ScientificML #gpt
GitHub
GitHub - openai/miniF2F: Formal to Formal Mathematics Benchmark
Formal to Formal Mathematics Benchmark. Contribute to openai/miniF2F development by creating an account on GitHub.
Finetuned Language Models Are Zero-Shot Learners (Google AI)
В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".
Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.
Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.
Статья
#nlp #gpt #training #generative
В этой статье рассматривается простой метод улучшения способности языковых моделей к обучению "zero shot".
Авторы берут предварительно обученную языковую модель с 137B параметров и тюнят ее на более чем 60 задачах НЛП, вербализованных с помощью шаблонов инструкций на естественном языке.
Эта модель существенно улучшает производительность своего немодифицированного аналога и превосходит zero-shot 175B GPT-3 на 19 из 25 задач, которые оценивали авторы.
Статья
#nlp #gpt #training #generative
Тут в статье A Recipe For Arbitrary Text Style Transfer with Large Language Models предложили прикольный рецепт для авто-аугментации текста в режиме Few-Shot. Берем затравку как на картинке, а дальше начинаем фантазировать. У меня получилось (курсивом на вход, жирным на выход):
1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.
2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president: {Мне не нужно в туалет}
3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}
Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!
#gpt #generative #fewshot #nlp
1. {I need to go to the bathroom}. Here is a rewrite of the text, which is more like a geoscientist: {A huge volume of rock, called a pluton, is pushed up rapidly into the Earth's crust}.
2. {Мне нужно в туалет}. Here is
a rewrite of the text, which is more like a president: {Мне не нужно в туалет}
3. {Give me a BigMac and some chips}. Here is a rewrite of the text, which is more like a CEO of Burger King: {Let's start a BurgerKing store in my neighborhood}
Ну вы поняли идею =) Много крутых примеров тут. А попробовать самим можно в ElutherAI GPT-J (GPT-3 для бедных) на их интеркативном демо-сайте. Делитесь в комментах что получилось!
#gpt #generative #fewshot #nlp
Недавно вышла статья, в которой утверждалось, что чем крупнее модель GPT - тем более неправдивые ответы она выдает на заданые вопросы. На основании этой статьи, журналист из New York Times начал хайповать на теме: “аааа, мы знали! все эти ваши GPT до добра не доведут!”. Но только оказалось, что в статье использовался датасет, который был специальным образом сконструирован так, что бы GPT выдавала конспирологические ответы.
По этому поводу у Яника вышел отличный разгон, советую всем посмотреть!
#gpt
По этому поводу у Яника вышел отличный разгон, советую всем посмотреть!
#gpt
Language Models as Zero-Shot Planners
Большие языковые модели (LLM), такие как GPT-3 и Codex, могут планировать действия для воплощенных агентов (embodied - ну всякие там роботы и тд),
даже без дополнительного обучения.
То есть ты говоришь GPT:
- Алиса, сделай завтрак!
А она это преобразует в последовательность действий для робота:
- дойди до холодильника
- открой холодильник
- и тд
📎 Статья
🖥 Код
🦸♀️ Проект
#gpt #transformer #reasoning
Большие языковые модели (LLM), такие как GPT-3 и Codex, могут планировать действия для воплощенных агентов (embodied - ну всякие там роботы и тд),
даже без дополнительного обучения.
То есть ты говоришь GPT:
- Алиса, сделай завтрак!
А она это преобразует в последовательность действий для робота:
- дойди до холодильника
- открой холодильник
- и тд
📎 Статья
🖥 Код
🦸♀️ Проект
#gpt #transformer #reasoning
OpenAI добавила возможность получать эмбеддинги текста или кода напрямую из своего API
Эмбеддинги - это числовые представления каких-то понятий (например слов или кусочков кода), преобразованные в последовательности чисел (например [1.,…,2.]), которые облегчают компьютеру понимание отношений между этими понятиями.
Эмбеддинги полезны при работе с естественным языком и кодом, поскольку их можно легко использовать и сравнивать с другими моделями машинного обучения и алгоритмами, такими как кластеризация или поиск.
То есть получается, берём например текст -> прогоняем его через OpenAI API -> получаем эмбеддинг -> и можем его использовать с любыми моделями машинного обучения (не только с OpenAI, а то получилось бы еще одна «экосистема» по типу Apple).
Для тех, кто потихонечку вкатывается в NLP рекомендую почитать блог-пост. Там простым и понятным языком написано.
📸 Блог-пост
📎 Статья
#gpt #nlp #basics
Эмбеддинги - это числовые представления каких-то понятий (например слов или кусочков кода), преобразованные в последовательности чисел (например [1.,…,2.]), которые облегчают компьютеру понимание отношений между этими понятиями.
Эмбеддинги полезны при работе с естественным языком и кодом, поскольку их можно легко использовать и сравнивать с другими моделями машинного обучения и алгоритмами, такими как кластеризация или поиск.
То есть получается, берём например текст -> прогоняем его через OpenAI API -> получаем эмбеддинг -> и можем его использовать с любыми моделями машинного обучения (не только с OpenAI, а то получилось бы еще одна «экосистема» по типу Apple).
Для тех, кто потихонечку вкатывается в NLP рекомендую почитать блог-пост. Там простым и понятным языком написано.
📸 Блог-пост
📎 Статья
#gpt #nlp #basics