Pythoner

✈️

Анализ текста с помощью spaCy

➡️

Токенизация и лемматизация
SpaCy предоставляет эффективные инструменты для разбиения текста на токены и определения их базовых форм:

import spacy

nlp = spacy.load("ru_core_news_sm")
doc = nlp("Кошки любят спать на мягких подушках.")

for token in doc:
    print(f"{token.text} -> {token.lemma_}")

➡️

Определение частей речи
SpaCy автоматически определяет части речи для каждого токена:

for token in doc:
    print(f"{token.text} - {token.pos_}")

➡️

Распознавание именованных сущностей
Библиотека способна выделять в тексте именованные сущности, такие как имена, организации и локации:

for ent in doc.ents:
    print(f"{ent.text} - {ent.label_}")

➡️

Генерация текста с использованием spaCy
Хотя spaCy в первую очередь предназначен для анализа текста, его можно использовать и для помощи в генерации:

➡️

Использование зависимостей для построения предложений
SpaCy определяет синтаксические зависимости между словами, что может быть использовано для создания новых предложений:

def generate_sentence(subject, verb, object):
    doc = nlp(f"{subject} {verb} {object}")
    return " ".join([token.text for token in doc])

print(generate_sentence("Программист", "пишет", "код"))

➡️

Использование векторных представлений слов
Векторные представления слов в spaCy могут быть использованы для поиска семантически близких слов:

def find_similar_word(word, n=3):
    token = nlp(word)[0]
    similar_words = []
    for lex in nlp.vocab:
        if lex.has_vector:
            if lex.is_lower == token.is_lower and lex.is_alpha:
                similarity = token.similarity(lex)
                similar_words.append((lex.text, similarity))
    return sorted(similar_words, key=lambda x: x[1], reverse=True)[:n]

print(find_similar_word("компьютер"))

🐍

Pythoner

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2

432 views16:06

About

Blog

Apps

Platform