Bayesian Noise

Если вам интересно познакомиться с NLP (Natural Language Processing), посмотрите статью, вышедшую несколько недель назад и уже переведённую несколько раз на русский.

https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e
(перевод https://proglib.io/p/fun-nlp/)

В статье весьма поверхностная, но не плохая для ознакомления, прочитайте, если вы не знаете что такое: NLU, лемматизация, стемминг, стоп-слова, парсинг зависимостей, NER (распознавание именованных сущностей), кореференции.

Ещё рекомендую прочесть пост от Яндекса https://habr.com/company/yandex/blog/205198/ ( он также обзорный, но мне понравились примеры, которые использовали для объяснений проблем NLP )

#nlp #ai #ml #nlu

Medium

Natural Language Processing is Fun!

How computers understand Human Language

37 viewsedited 08:37

Bayesian Noise

Ранее google анонсировала свою новую архитектуру сети для обработки естественных языков (Bidirectional Encoder Representations from Transformers https://t.me/tj4me/83). Теперь доступна opensourse реализация сети на tensorflow и есть предобученные модели для английского:

https://github.com/google-research/bert

Пост в официальном блоге https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

Напомню что BERT интересен возможностью дообучения (fine tuning), это значит, что хорошо обученная на неразмеченных данных модель может быть дообучена небольшим количеством размеченных данных (как правило от нескольких тысяч примеров) для решения конкретной задачи.

Пока сам не проверил, модель довольно прожорливая и запустить на своём ноутбуке не представляется возможным, авторы рекомендуют использовать облачный TPU с 64 GB RAM, но уменьшенная версия сети должны запуститься на 12-16 GB

Попробовать BART можно в google colab https://colab.research.google.com/github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb

публикация доступна здесь https://arxiv.org/abs/1810.04805

#google #nlp #nlu #nn

tj4me

На прошлой неделе google представили новую статью https://arxiv.org/abs/1810.04805 (BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding), и если кратко, то звучит многообещающе, но всё же дождёмся общедоступной реализации и, очень…

44 views22:30

Bayesian Noise

Очень интересная, на мой взгляд, NLP библиотека. По заверению авторов это SOTA решение для ряда NLU задач, таких как (Чтобы не путать переводом, названия на английском): Named Entity Recognition (NER), Entity Mention Detection (EMD), Relation Extraction (ER), Coreference Resolution (CR).

Именованные сущности (NE) это обычно нахождение имён собственных.

EMD - немного сложнее, когда нам нужно выявить действующие лица, это могут быть некоторые объекты, или живые существа. Задача усложняется тем, что некоторые сущности могут быть представлены в виде нескольких слов.

Например:

The project leader is refusing to help. - В этом предложении The project leader это одна сущность

Извлечение зависимостей (RE)

Когда сущности были найдены, дальше можно найти связи между ними.

И последняя, самая интересная часть, разрешение кореференций (CR)

Корефере́нтность - это когда одно и большевыражениее в тексте ссылается наоднуу и туже сущность (см https://en.wikipedia.org/wiki/Coreference)

несколько примеров

The music was so loud that it couldn't be enjoyed.

Our neighbors dislike the music. If they are angry, the cops will show up soon

Так вот библиотека справляется с некоторыми задачами, но всё-таки делает достаточно много ошибок. Можете сами попробовать веб-версию. Обратите внимание, что все эти задачи решаются с помощью одной архитектуры сети.

https://huggingface.co/hmtl/

исходный код и ссылка на статью доступны здесь https://github.com/huggingface/hmtl

#nlp #nlu #lib

Wikipedia

Coreference

when two or more expressions in a text refer to the same person or thing

61 viewsedited 22:41

About

Blog

Apps

Platform