Deep learning for NLP (RU)
545 subscribers
42 photos
4 files
65 links
Применение методов машинного обучения и глубокого обучения (ML/DL) к обработке естественного языка (NLP).

Конспекты к избранным статьям, описание концепций и основ ML/DL, а также последние новости в этой области.

Контакт: @edwardnlp
Download Telegram
Датасеты для разметки частей речи (POS tagging)

Подборка некоторых популярных датасетов для отработки разметки частей речи (POS tagging) state-of-the-art точностью (по состоянию на июль 2022 г.)
#dataset #pos
👍1
Получение датасетов из nltk

Установите необходимый пакет (в вашей локальной среде).
pip install nltk

Теперь нужно скачать и уже можно использовать датасет.
import nltk
from nltk.corpus import treebank

nltk.download('treebank') # Скачайте датасет

# Теперь можно посмотреть на примеры данных в датасете
for word, tag in treebank.tagged_words()[:10]:
print('Word: ', word, 'Tag: ', tag)

#dataset #pos #tutorial
Получение датасетов из huggingface

Установите необходимые пакеты (в вашей локальной среде).
pip install datasets conllu

Некоторые датасеты могут требовать дополнительные пакеты, как например в случае UD датасета. Для этого датасета нужно еще установить пакет 'conllu'. Обычно его устанавливать не нужно и будет достаточно установить только 'datasets'.

Теперь нужно скачать и уже можно использовать датасет.
from datasets import load_dataset

dataset = load_dataset('universal_dependencies', 'ru_gsd', split='train') # Скачайте датасет

# Теперь можно посмотреть на примеры данных в датасете
dataset.to_pandas().head(5) # NB! эта команда требует предустановленный пакет pandas

#dataset #pos #tutorial