Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
В дополнение к посту выше, набор библиотек для работы с текстом:

https://spacy.io/ - хорошая библиотека для работы с текстом, во многом превосходит аналоги, но не так много языков поддерживает из коробки

https://textacy.readthedocs.io/en/latest/ - дополнение к spacy, поможет с извлечением фактов из текста

https://github.com/huggingface/neuralcoref - дополнение к spacy поможет с разрешением кореференций

https://www.nltk.org/ - самая известная библиотека обработки языков для python

https://radimrehurek.com/gensim/ - просто замечательная библиотека, их слоган topic modeling for humans, от части так и есть. Вы легко можете загрузить готовые обученные word2vec вектора и найдёте большое число полезных функций.

Как преобразовать текст в числа? Здача не простая, но есть решения:

https://nlp.stanford.edu/projects/glove/ - здесь вы найдёте обученные вектора на разных корпусах и можете воспользоваться кодом на github, чтобы обучить свои

https://fasttext.cc/ - замечательная библиотека, и хорошо обученные вектора для разных языков

#nlp #ai #tool #libs