100 статей по обработке естествественного языка, которые необходимо прочитать
Это список из 100 важных работ по обработке естественного языка, о которых, вероятно, должны знать и читать серьезные студенты и исследователи, работающие в этой области. Этот список составлен Масато Хагивара по ответам на соответствующий вопрос на Quora.
https://github.com/mhagiwara/100-nlp-papers
#data_science #machine_learning #nlp #natural_language_processing #english #github #nlp #оея #статьи #подборки
Это список из 100 важных работ по обработке естественного языка, о которых, вероятно, должны знать и читать серьезные студенты и исследователи, работающие в этой области. Этот список составлен Масато Хагивара по ответам на соответствующий вопрос на Quora.
https://github.com/mhagiwara/100-nlp-papers
#data_science #machine_learning #nlp #natural_language_processing #english #github #nlp #оея #статьи #подборки
GitHub
GitHub - mhagiwara/100-nlp-papers: 100 Must-Read NLP Papers
100 Must-Read NLP Papers. Contribute to mhagiwara/100-nlp-papers development by creating an account on GitHub.
Дэвид Питерсон придумывает языки для кино: на чем говорить вымышленным народам. На этом часовом видео запись, как он выступает в Гугле на тему «придумываем язык за час». Рекомендую:
https://youtu.be/StcSHmBZj2k
#natural_language_processing
https://youtu.be/StcSHmBZj2k
#natural_language_processing
Дарина Деменьтева из лаборатории Skoltech NKP рассказала на Хабре о методах «детоксификации» текстов для русского языка. Похоже на старый вопрос обработки естественного языка о восприятии иронии. Интересна и сама статья, и комментарии под ней.
https://habr.com/ru/company/ru_mts/blog/585804/
#natural_language_processing
https://habr.com/ru/company/ru_mts/blog/585804/
#natural_language_processing
Хабр
Методы детоксификации текстов для русского языка
ВНИМАНИЕ! В статье есть примеры текстов, содержащие мат и грубые выражения. Мы ни в коем случае не хотим оскорбить наших читателей, все подобные тексты приведены лишь в научных целях в качестве...
Команда Silero выпустила сервис для бесплатного распознавания аудиофайла в текст до 60 мин и 100 Мб: https://audio-v-text.silero.ai/
Пока нет расстановки знаков препинания, но есть поддержка русского, английского, немецкого испанского. Обсуждение на Хабре: https://habr.com/ru/post/587512/
#natural_language_processing #nlp #audio_to_text
Пока нет расстановки знаков препинания, но есть поддержка русского, английского, немецкого испанского. Обсуждение на Хабре: https://habr.com/ru/post/587512/
#natural_language_processing #nlp #audio_to_text
Хабр
Бесплатное распознавание речи для всех желающих
Бесплатное Распознавание Речи Для Всех Желающих Как Пользоваться Идея Сервиса Текущие Ограничения Безопасность и Использование Данных Бесплатное распознавание речи для всех желающих После относительно...
Сергей Аверкиев собрал отличную подборку книг по популярной лингвистике: https://habr.com/ru/post/587710/. Книжки про сами языки, конструирование и изучение языков, этимологию и особенности перевода. Пример хорошей обложки поста — видно, что мнение взято не из воздуха и сами книги у автора, по крайней мере, есть.
На мой взгляд, всё это очень занятное чтение для всех любителей обработки естественного языка. Для удобства приведу здесь список книг, который перенес в свой список чтения. За подробностями смотрите пост Сергея.
— Гастон Доррен. Лингво. Языковой пейзаж Европы
— Гастон Доррен. Вавилон. Вокруг света за двадцать языков
— Кронгауз М., Пиперски А. и Сомин А. Сто языков
— Дмитрий Казаков. Человек языкатый
— Александр Пиперски. Конструирование языков
— Дэвид Питерсон. Искусство создания языков
— Н. Келли и Й. Цетше. Тонкости перевода
— Дэвид Бэллос. Что за рыбка в вашем ухе
— Гай Дойчер. Сквозь зеркало языка
— Владимир Плунгян. Почему языки такие разные (эту читал сам — трудно, но интересно)
— Николай Шанский. Лингвистические детективы
— С. Монахов и Д. Чердаков. Глазарий языка
Еще в посте книги по отдельным языкам, но это уже специфичное.
#natural_language_processing #лингвистика
На мой взгляд, всё это очень занятное чтение для всех любителей обработки естественного языка. Для удобства приведу здесь список книг, который перенес в свой список чтения. За подробностями смотрите пост Сергея.
— Гастон Доррен. Лингво. Языковой пейзаж Европы
— Гастон Доррен. Вавилон. Вокруг света за двадцать языков
— Кронгауз М., Пиперски А. и Сомин А. Сто языков
— Дмитрий Казаков. Человек языкатый
— Александр Пиперски. Конструирование языков
— Дэвид Питерсон. Искусство создания языков
— Н. Келли и Й. Цетше. Тонкости перевода
— Дэвид Бэллос. Что за рыбка в вашем ухе
— Гай Дойчер. Сквозь зеркало языка
— Владимир Плунгян. Почему языки такие разные (эту читал сам — трудно, но интересно)
— Николай Шанский. Лингвистические детективы
— С. Монахов и Д. Чердаков. Глазарий языка
Еще в посте книги по отдельным языкам, но это уже специфичное.
#natural_language_processing #лингвистика
Хабр
Популярная лингвистика. Книги про языки, которые мне нравятся
Наш телеграм канал 14.11.2021 — Upd 7. В японский язык добавил Путь бесхвостой птички Адиля Талышханова (Shinrin), в английский — The Mother Tongue — English And How It Got That Way Билла Брайсона (...
N+1 совместно с Яндексом запустили онлайн-журнал ТЕХНО https://techno.yandex.ru/. Тыры-пыры, выходит раз в месяц, каждый выпуск рассказывает про одну современную технологию: как появилась, где уже используют и как еще можно применить.
Что интересно лично мне: первый выпуск посвящён языковым моделям. Главный лонгрид: https://techno.yandex.ru/longreads/algorithm.
→ Что понравилось: попытка рассказать историю более-менее живым языком. К сожалению, не могу сказать, что вышло очень уж увлекательно, но хотя бы понятно и достаточно полно.
→ Что не понравилось: на каждой странице слово «Яндекс» и YaLM упоминается с десяток раз и больше. Ясно, что компанией сделано многое и нужно это продвигать. Но мне-читателю хватило бы отдельной статьи конкретно по достижениям компании — такой формат был бы куда приятнее.
#natural_language_processing
Что интересно лично мне: первый выпуск посвящён языковым моделям. Главный лонгрид: https://techno.yandex.ru/longreads/algorithm.
→ Что понравилось: попытка рассказать историю более-менее живым языком. К сожалению, не могу сказать, что вышло очень уж увлекательно, но хотя бы понятно и достаточно полно.
→ Что не понравилось: на каждой странице слово «Яндекс» и YaLM упоминается с десяток раз и больше. Ясно, что компанией сделано многое и нужно это продвигать. Но мне-читателю хватило бы отдельной статьи конкретно по достижениям компании — такой формат был бы куда приятнее.
#natural_language_processing
Онлайн-журнал ТЕХНО
ТЕХНО — Журнал Яндекса о технологиях
Рассказываем о технологическом прогрессе простыми словами и красивыми картинками
Прочитал статью @roman-gorb «Нейросеть, способная объяснить себе задачу: P-tuning для YaLM» https://habr.com/ru/company/yandex/blog/588214/. Ниже мой краткий конспект.
Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.
Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf
P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.
#natural_language_processing #нейросети
Есть метод обучения Few-shot. Он позволяет без дообучения решать задачи ОЕЯ. Например, сгенерировать по тексту сокращенный вариант (задача суммаризации новостей, отзывов и книг). Для этого используется предобученная модель, которая доучивается на небольшом количестве данных. Так как данных мало, сигнал получается шумным: нейросеть додумывает куски текста, не имеющие отношения к подводке, или повторяет отдельные фразы.
Есть уточнение этой модели, называемое P-tuning. Формулировка задачи та же. И там, и там мы работаем не с самими текстами, а с их векторными представлениями — эмбеддингами. Но в случае P-tuning модель нагло оптимизирует эмбеддинг текста так, чтобы итоговая задача решалась лучше. То есть вместо статичных векторов используют обучаемые. Эмбеддинги моделируют, используя LSTM и MLP. Фактически делают adversarial attack на часть входного текста в NLP-модель. Идея предложена в статье с arXiv: https://arxiv.org/pdf/2103.10385.pdf
P-tuning обеспечивает лучшее качество, чем Few-shot, и обычно не производит артефакты, присущие последнему. В бенчмарке Russian SuperGLUE https://russiansuperglue.com/leaderboard/2 модель заняла 3 место, обогнав single-model-методы, а также более дорогостоящие finetuning-модели.
#natural_language_processing #нейросети
Не хватает визуальных примеров, но интересно: https://habr.com/ru/post/591255/
Пользователь Хабра NewTechAudit описал работу над моделью автоматического распознавания русского рукописного текста. Модель основана на архитектуре Simple HTR: свёрточный + рекуррентный нейросетевые блоки.
Докер-контейнер с лучшей моделью и инструкцией для использования: https://hub.docker.com/r/droidkos/htr-mb-inference
#natural_language_processing #handwritten_russian
Пользователь Хабра NewTechAudit описал работу над моделью автоматического распознавания русского рукописного текста. Модель основана на архитектуре Simple HTR: свёрточный + рекуррентный нейросетевые блоки.
Докер-контейнер с лучшей моделью и инструкцией для использования: https://hub.docker.com/r/droidkos/htr-mb-inference
#natural_language_processing #handwritten_russian
Хабр
Исследование в области русского рукописного текста. Реализация и тестирование прототипа
Недавно мы с коллегами работали над задачей автоматического распознавания русского рукописного текста. В предыдущей статье была описана работа над созданием нашего датасета для обучения...
Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья
https://habr.com/ru/company/netologyru/blog/656485/
#natural_language_processing #nlp #interfaces
https://habr.com/ru/company/netologyru/blog/656485/
#natural_language_processing #nlp #interfaces
Хабр
Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья
Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области...