В дополнение к посту выше, набор библиотек для работы с текстом:
https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки
https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста
https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций
https://www.nltk.org/ - самая известная библиотека обработки языков для python
https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.
Как преобразовать текст в числа? Здача не простая, но есть решения:
https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои
https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков
#nlp #ai #tool #libs
https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки
https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста
https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций
https://www.nltk.org/ - самая известная библиотека обработки языков для python
https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.
Как преобразовать текст в числа? Здача не простая, но есть решения:
https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои
https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков
#nlp #ai #tool #libs
spacy.io
spaCy · Industrial-strength Natural Language Processing in Python
spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.