Хабр / ML & AI
483 subscribers
5.48K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
[Перевод] Распознавание именованных сущностей: механизм, методики, сценарии использования и реализация

Естественные языки сложны. А когда на горизонте появляется контекст, они становятся ещё сложнее. Возьмём для примера фамилию Линкольн. Некоторые сразу подумают о шестнадцатом президенте США, выдающейся исторической фигуре. Однако для других это производитель автомобилей с тем же названием. Одно простое слово имеет разные значения.

Мы, люди, без проблем различаем значения и категории. Это свидетельствует о нашем интуитивном понимании окружающего мира. Но когда дело касается компьютеров, эта, казалось бы, простая задача превращается в неоднозначную проблему. Подобные трудности подчёркивают необходимость надёжного распознавания именованных сущностей (named entity recognition, NER) — механизма, при помощи которого мы учим машины понимать различные лингвистические нюансы.

В этой статье мы расскажем о том, что такое NER, о его принципах работы и о том, как оно используется в реальной жизни. Также в ней мы прольём свет на различные методики NER и способы реализации модели NER.

Читать дальше →

#токенизация #feature_extraction #машинное_обучение #nlp #ner #pos_tagging #word_embeddings #рекомендации_контента #gpt_4 #openai #brat #sentiment_analysis | @habr_ai
Рекурсивный отбор признаков. Динамический шаг в танце feature selection

В статье рассматривается выбор оптимального шага при рекурсивном отборе признаков (RFE). Предлагаются три подхода: фиксированный шаг, динамический шаг, зависящий от количества признаков, и динамический шаг, основанный на значимости признаков. На основе как искусственно сгенерированных, так и реальных наборов данных проводится анализ эффективности каждого метода, выявляются их преимущества и недостатки. Также внимание уделяется недостаткам текущей реализации RFE в библиотеке Scikit-learn, и предлагаются пути их улучшения, а также креативные подходы к решению задач feature selection.

Читать далее

#data_science #machine_learning #feature_selection #feature_extraction #отбор_признаков #lightgbm #машинное_обучение | @habr_ai