SpaCy предоставляет эффективные инструменты для разбиения текста на токены и определения их базовых форм:
import spacy
nlp = spacy.load("ru_core_news_sm")
doc = nlp("Кошки любят спать на мягких подушках.")
for token in doc:
print(f"{token.text} -> {token.lemma_}")
SpaCy автоматически определяет части речи для каждого токена:
for token in doc:
print(f"{token.text} - {token.pos_}")
Библиотека способна выделять в тексте именованные сущности, такие как имена, организации и локации:
for ent in doc.ents:
print(f"{ent.text} - {ent.label_}")
Хотя spaCy в первую очередь предназначен для анализа текста, его можно использовать и для помощи в генерации:
SpaCy определяет синтаксические зависимости между словами, что может быть использовано для создания новых предложений:
def generate_sentence(subject, verb, object):
doc = nlp(f"{subject} {verb} {object}")
return " ".join([token.text for token in doc])
print(generate_sentence("Программист", "пишет", "код"))
Векторные представления слов в spaCy могут быть использованы для поиска семантически близких слов:
def find_similar_word(word, n=3):
token = nlp(word)[0]
similar_words = []
for lex in nlp.vocab:
if lex.has_vector:
if lex.is_lower == token.is_lower and lex.is_alpha:
similarity = token.similarity(lex)
similar_words.append((lex.text, similarity))
return sorted(similar_words, key=lambda x: x[1], reverse=True)[:n]
print(find_similar_word("компьютер"))
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥2