[Перевод] Word2vec в картинках
#Машинноеобучение #NLP #Word2vec #embeddings #вложения #векторноепредставлениеслов #Gensim IV
https://habr.com/ru/post/446530/
#Машинноеобучение #NLP #Word2vec #embeddings #вложения #векторноепредставлениеслов #Gensim IV
https://habr.com/ru/post/446530/
t.me
Word2vec в картинках
«Во всякой вещи скрыт узор, который есть часть Вселенной. В нём есть симметрия, элегантность и красота — качества, которые прежде всего схватывает всякий истин...
[Перевод] Классификация документов: 7 практических подходов для небольших наборов данных
#Машинноеобучение #NLP #Word2vec #CountVectorizer #TfidfVectorizer #Gensim #FastText IV
https://habr.com/ru/post/504744/
#Машинноеобучение #NLP #Word2vec #CountVectorizer #TfidfVectorizer #Gensim #FastText IV
https://habr.com/ru/post/504744/
t.me
Классификация документов: 7 практических подходов для небольших наборов данных
Классификация документов или текста — это одна из важнейших задач в обработке естественного языка (natural language processing, NLP). У нее есть множество примен...
Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM
#Python #Программирование #Машинноеобучение #gensim #tfidf #python #ml IV
https://habr.com/ru/post/542048/
#Python #Программирование #Машинноеобучение #gensim #tfidf #python #ml IV
https://habr.com/ru/post/542048/
t.me
Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM
Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выб...
Как я сжимал модель fastText для реальной задачи в 80 раз в 2021 году
#Python #Машинноеобучение #Искусственныйинтеллект #fasttext #python #gensim #machinelearning IV
https://habr.com/ru/post/582980/
#Python #Машинноеобучение #Искусственныйинтеллект #fasttext #python #gensim #machinelearning IV
https://habr.com/ru/post/582980/
t.me
Как я сжимал модель fastText для реальной задачи в 80 раз в 2021 году
FastText — это отличное решение для предоставления готовых векторных представлений слов, для решения различных задач в области ML и NLP. Но основным недостатком данных моделей является, то что на...
История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени
#БлогкомпанииOTUS #Python #Машинноеобучение #NaturalLanguageProcessing #nlpnaturallanguageprocessing #тематическоемоделирование #gensim IV
https://habr.com/ru/post/723306/
#БлогкомпанииOTUS #Python #Машинноеобучение #NaturalLanguageProcessing #nlpnaturallanguageprocessing #тематическоемоделирование #gensim IV
https://habr.com/ru/post/723306/
Хабр
История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени
Кейс изучения средств тематического моделирования для датасета анекдотов на русском языке. Датасет не размечен, поэтому в данной работе делается предварительное выделение топиков объединяющих...
Краткий обзор токенизаторов: что это такое и зачем это надо?
#Python #python #nltkpython #spacy #библиотекиpython #gensim #токенизация IV
https://habr.com/ru/articles/800595/
#Python #python #nltkpython #spacy #библиотекиpython #gensim #токенизация IV
https://habr.com/ru/articles/800595/
Хабр
Краткий обзор токенизаторов: что это такое и зачем это надо?
Токенизация — это первый шаг в обработке текстовых данных. Без токенизации компьютеры не смогли бы понимать текст и находить в нем полезную информацию. Токенизаторы...
Telegram-бот для анализа текста | выделение тематических групп
#aiogram #telegrambot #lda #lemmings #gensim #python #postgresql
https://habr.com/ru/articles/855786/
#aiogram #telegrambot #lda #lemmings #gensim #python #postgresql
https://habr.com/ru/articles/855786/
Хабр
Telegram-бот для анализа текста | выделение тематических групп
Предыстория Буквально месяц назад, мы с моим коллегой участвовали в HAKATON. Наша команда взялась за интересную задачу от компании МТС: на основе тысяч опросов, найти усредненный синоним к...