Получение датасетов из nltk
Установите необходимый пакет (в вашей локальной среде).
Теперь нужно скачать и уже можно использовать датасет.
#dataset #pos #tutorial
Установите необходимый пакет (в вашей локальной среде).
pip install nltk
Теперь нужно скачать и уже можно использовать датасет.
import nltk
from nltk.corpus import treebank
nltk.download('treebank') # Скачайте датасет
# Теперь можно посмотреть на примеры данных в датасете
for word, tag in treebank.tagged_words()[:10]:
print('Word: ', word, 'Tag: ', tag)
#dataset #pos #tutorial
Получение датасетов из huggingface
Установите необходимые пакеты (в вашей локальной среде).
Некоторые датасеты могут требовать дополнительные пакеты, как например в случае UD датасета. Для этого датасета нужно еще установить пакет 'conllu'. Обычно его устанавливать не нужно и будет достаточно установить только 'datasets'.
Теперь нужно скачать и уже можно использовать датасет.
#dataset #pos #tutorial
Установите необходимые пакеты (в вашей локальной среде).
pip install datasets conllu
Некоторые датасеты могут требовать дополнительные пакеты, как например в случае UD датасета. Для этого датасета нужно еще установить пакет 'conllu'. Обычно его устанавливать не нужно и будет достаточно установить только 'datasets'.
Теперь нужно скачать и уже можно использовать датасет.
from datasets import load_dataset
dataset = load_dataset('universal_dependencies', 'ru_gsd', split='train') # Скачайте датасет
# Теперь можно посмотреть на примеры данных в датасете
dataset.to_pandas().head(5) # NB! эта команда требует предустановленный пакет pandas
#dataset #pos #tutorial