Deep learning for NLP (RU)
545 subscribers
42 photos
4 files
65 links
Применение методов машинного обучения и глубокого обучения (ML/DL) к обработке естественного языка (NLP).

Конспекты к избранным статьям, описание концепций и основ ML/DL, а также последние новости в этой области.

Контакт: @edwardnlp
Download Telegram
HMM маркировка

📷 Изображение
Цепь Маркова — это модель, которая работает с последовательностью случайных состояний и зависит от вероятностей этих состояний. Модель полезна, когда нам нужно вычислить вероятность последовательности наблюдаемых событий. Однако большинство интересующих нас событий скрыто: мы не наблюдаем их напрямую. Например, мы обычно не наблюдаем частей речи в тексте.

Предположим, что у нас есть ненаблюдаемые (скрытые) состояния X, это то, что нас интересует. Для построения модели скрытой модели Маркова (HMM) нам нужны наблюдаемые события Y, на которые влияет X. Следовательно, HMM позволяет работать с обоими: с наблюдаемыми и скрытыми событиями.

На рисунке изображен HMM для маркировки частей речи (POS),
а - вероятность перехода из одного состояния в другое,
Q - состояния, теги POS,
P(o|Q) - вероятности распространения, насколько вероятно слово будет иметь соответствующий тег.

HMM реализует следующие предположения:
1. Текущее состояние зависит только от предыдущего состояния;
2. Выходная вероятность наблюдения зависит только от состояния, которое породило наблюдение P(o|Q).

#основы #pos #markov
👍6
Conditional Random Fields (CRFs)

📷 Изображение
Во многих задачах обработки естественного языка очень часто приходится иметь дело с неизвестными словами. Например: имена собственные и аббревиатуры. Также знание контекста может быть полезно для понимания языка и маркировки. К сожалению, HMM плохо работает с новыми или редкими словами, так как перед началом обучения необходимо рассчитать вероятности этих слов и переходов. Но есть различительная модель для последовательностей, основанная на логарифмически-линейных моделях, и схожа с HMM. Модель называется — условные случайные поля (Conditional random fields, CRF).

CRF не вычисляет вероятность для каждого тега на каждом шаге. Вместо этого на каждом шаге CRF вычисляет логарифмически-линейные функции для набора соответствующих признаков, и эти локальные признаки агрегируются и нормализуются для получения глобальной вероятности для всей последовательности.

В CRF входные данные являются последовательными и учитывают предыдущий контекст при предсказывании результата. Чтобы смоделировать такое поведение, CRF используют функции признаков (feature function), которые возвращают 0 или 1. Цель функции — выразить некоторую характеристику последовательности, которую представляет точка данных. Для обучения модели каждой функции признаков назначается обучаемый вес. На рисунке есть два типа функций признаков: функции состояния (fs1..n) и функции перехода (ft1..n).

Примером функции признаков для маркировки частей речи (POS tagging) может быть:
- если предыдущая метка является существительным, а текущая - глаголом, то вернуть 1, а не 0.
- если предыдущая метка является глаголом, а текущая - наречием, то вернуть 1, а не 0.

#основы #pos #markov #crf
👍3