Deep learning for NLP (RU)

Датасеты для разметки частей речи (POS tagging)

Подборка некоторых популярных датасетов для отработки разметки частей речи (POS tagging) state-of-the-art точностью (по состоянию на июль 2022 г.)
#dataset #pos

👍1

153 viewsedited 14:48

Получение датасетов из nltk

Установите необходимый пакет (в вашей локальной среде).

pip install nltk

Теперь нужно скачать и уже можно использовать датасет.

import nltk
from nltk.corpus import treebank

nltk.download('treebank')  # Скачайте датасет

# Теперь можно посмотреть на примеры данных в датасете
for word, tag in treebank.tagged_words()[:10]:
    print('Word: ', word, 'Tag: ', tag)

#dataset #pos #tutorial

186 views21:18

Deep learning for NLP (RU)

Получение датасетов из huggingface

Установите необходимые пакеты (в вашей локальной среде).

pip install datasets conllu

Некоторые датасеты могут требовать дополнительные пакеты, как например в случае UD датасета. Для этого датасета нужно еще установить пакет 'conllu'. Обычно его устанавливать не нужно и будет достаточно установить только 'datasets'.

Теперь нужно скачать и уже можно использовать датасет.

from datasets import load_dataset

dataset = load_dataset('universal_dependencies', 'ru_gsd', split='train')  # Скачайте датасет

# Теперь можно посмотреть на примеры данных в датасете
dataset.to_pandas().head(5)  # NB! эта команда требует предустановленный пакет pandas

#dataset #pos #tutorial

203 views21:20

About

Blog

Apps

Platform