Если вам интересно познакомиться с NLP (Natural Language Processing), посмотрите статью, вышедшую несколько недель назад и уже переведённую несколько раз на русский.
https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e
(перевод https://proglib.io/p/fun-nlp/)
В статье весьма поверхностная, но не плохая для ознакомления, прочитайте, если вы не знаете что такое: NLU, лемматизация, стемминг, стоп-слова, парсинг зависимостей, NER (распознавание именованных сущностей), кореференции.
Ещё рекомендую прочесть пост от Яндекса https://habr.com/company/yandex/blog/205198/ ( он также обзорный, но мне понравились примеры, которые использовали для объяснений проблем NLP )
#nlp #ai #ml #nlu
https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e
(перевод https://proglib.io/p/fun-nlp/)
В статье весьма поверхностная, но не плохая для ознакомления, прочитайте, если вы не знаете что такое: NLU, лемматизация, стемминг, стоп-слова, парсинг зависимостей, NER (распознавание именованных сущностей), кореференции.
Ещё рекомендую прочесть пост от Яндекса https://habr.com/company/yandex/blog/205198/ ( он также обзорный, но мне понравились примеры, которые использовали для объяснений проблем NLP )
#nlp #ai #ml #nlu
Medium
Natural Language Processing is Fun!
How computers understand Human Language
Ранее google анонсировала свою новую архитектуру сети для обработки естественных языков (Bidirectional Encoder Representations from Transformers https://t.me/tj4me/83). Теперь доступна opensourse реализация сети на tensorflow и есть предобученные модели для английского:
https://github.com/google-research/bert
Пост в официальном блоге https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
Напомню что BERT интересен возможностью дообучения (fine tuning), это значит, что хорошо обученная на неразмеченных данных модель может быть дообучена небольшим количеством размеченных данных (как правило от нескольких тысяч примеров) для решения конкретной задачи.
Пока сам не проверил, модель довольно прожорливая и запустить на своём ноутбуке не представляется возможным, авторы рекомендуют использовать облачный TPU с 64 GB RAM, но уменьшенная версия сети должны запуститься на 12-16 GB
Попробовать BART можно в google colab https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb
публикация доступна здесь https://arxiv.org/abs/1810.04805
#google #nlp #nlu #nn
https://github.com/google-research/bert
Пост в официальном блоге https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
Напомню что BERT интересен возможностью дообучения (fine tuning), это значит, что хорошо обученная на неразмеченных данных модель может быть дообучена небольшим количеством размеченных данных (как правило от нескольких тысяч примеров) для решения конкретной задачи.
Пока сам не проверил, модель довольно прожорливая и запустить на своём ноутбуке не представляется возможным, авторы рекомендуют использовать облачный TPU с 64 GB RAM, но уменьшенная версия сети должны запуститься на 12-16 GB
Попробовать BART можно в google colab https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb
публикация доступна здесь https://arxiv.org/abs/1810.04805
#google #nlp #nlu #nn
Telegram
tj4me
На прошлой неделе google представили новую статью https://arxiv.org/abs/1810.04805 (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding), и если кратко, то звучит многообещающе, но всё же дождёмся общедоступной реализации и, очень…
Очень интересная, на мой взгляд, NLP библиотека. По заверению авторов это SOTA решение для ряда NLU задач, таких как (Чтобы не путать переводом, названия на английском): Named Entity Recognition (NER), Entity Mention Detection (EMD), Relation Extraction (ER), Coreference Resolution (CR).
Именованные сущности (NE) это обычно нахождение имён собственных.
EMD - немного сложнее, когда нам нужно выявить действующие лица, это могут быть некоторые объекты, или живые существа. Задача усложняется тем, что некоторые сущности могут быть представлены в виде нескольких слов.
Например:
The project leader is refusing to help. - В этом предложении The project leader это одна сущность
Извлечение зависимостей (RE)
Когда сущности были найдены, дальше можно найти связи между ними.
И последняя, самая интересная часть, разрешение кореференций (CR)
Корефере́нтность - это когда одно и большевыражениее в тексте ссылается наоднуу и туже сущность (см https://en.wikipedia.org/wiki/Coreference)
несколько примеров
The music was so loud that it couldn't be enjoyed.
Our neighbors dislike the music. If they are angry, the cops will show up soon
Так вот библиотека справляется с некоторыми задачами, но всё-таки делает достаточно много ошибок. Можете сами попробовать веб-версию. Обратите внимание, что все эти задачи решаются с помощью одной архитектуры сети.
https://huggingface.co/hmtl/
исходный код и ссылка на статью доступны здесь https://github.com/huggingface/hmtl
#nlp #nlu #lib
Именованные сущности (NE) это обычно нахождение имён собственных.
EMD - немного сложнее, когда нам нужно выявить действующие лица, это могут быть некоторые объекты, или живые существа. Задача усложняется тем, что некоторые сущности могут быть представлены в виде нескольких слов.
Например:
The project leader is refusing to help. - В этом предложении The project leader это одна сущность
Извлечение зависимостей (RE)
Когда сущности были найдены, дальше можно найти связи между ними.
И последняя, самая интересная часть, разрешение кореференций (CR)
Корефере́нтность - это когда одно и большевыражениее в тексте ссылается наоднуу и туже сущность (см https://en.wikipedia.org/wiki/Coreference)
несколько примеров
The music was so loud that it couldn't be enjoyed.
Our neighbors dislike the music. If they are angry, the cops will show up soon
Так вот библиотека справляется с некоторыми задачами, но всё-таки делает достаточно много ошибок. Можете сами попробовать веб-версию. Обратите внимание, что все эти задачи решаются с помощью одной архитектуры сети.
https://huggingface.co/hmtl/
исходный код и ссылка на статью доступны здесь https://github.com/huggingface/hmtl
#nlp #nlu #lib
Wikipedia
Coreference
when two or more expressions in a text refer to the same person or thing