Библиотека собеса по Data Science | вопросы с собеседований

Что такое TF-IDF?

TF-IDF (Term Frequency-Inverse Document Frequency) — это статистическая мера, используемая для оценки значимости слова в документе относительно всех других документов в коллекции или корпусе. TF-IDF сочетает два значения:

🔷 TF (Частота слова)
Это число, показывающее, сколько раз слово встречается в документе. Чем чаще, тем слово важнее в контексте этого документа.
🔷 IDF (Обратная частота документа)
Это мера, которая уменьшает вес слов, часто встречающихся во всём корпусе документов. Чем реже слово встречается во всём корпусе, тем больше его вклад в IDF.

Значение TF-IDF рассчитывается как произведение TF и IDF. На основе TF-IDF значений слов можно построить векторы документов.

#NLP

👍6👏3

1.19K views12:02

Что такое токенизация?

Токенизация в контексте обработки естественного языка — это процесс разделения текста на составные части. Такими составными частями могут быть слова, небольшие словосочетания или даже слоги.

Зачем нам это нужно? Токенизация позволяет перевести текст в формат, удобный для дальнейшего анализа и обработки. Токены можно преобразовать в числовые векторы, что необходимо для моделей машинного обучения. Примеры таких методов — мешок слов (Bag of Words), TF-IDF и векторные представления слов (word embeddings).

Кроме того, токенизация помогает выделить основу слова и его морфологические признаки (окончания, префиксы и т.д.), что полезно для задач, связанных с морфологическим анализом.

#NLP

👍5🔥2

1.23K views13:30

Библиотека собеса по Data Science | вопросы с собеседований

Что такое стоп-слова в NLP и как с ними работать?

Стоп-слова — это распространённые в языке слова, которые практически не несут смысловой нагрузки. Чаще всего это артикли, междометия, союзы и т.д. Например, в английском языке стоп-словами могут быть the, a и an.

В рамках подготовки текста к NLP-задачам стоп-слова обычно удаляются, так как они могут добавить много шума. Универсального способа определить список стоп-слова нет. Однако можно пользоваться готовыми инструментами. Так, в библиотеке NLTK есть предустановленный список. Перед первым использованием вам понадобится его скачать: nltk.download('stopwords'). После скачивания можно его импортировать и посмотреть на сами слова.

#NLP

👍4❤1

1.15K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Что такое Named Entity Recognition (NER)?

Named Entity Recognition — распознавание именованных сущностей. Это задача из области обработки естественного языка (

NLP

), цель которой — найти и классифицировать ключевые сущности в тексте.

Эти сущности могут относиться к определённым категориям, например:
- Имена людей;
- Географические объекты;
- Даты и время;
- Денежные суммы;
- Названия организаций.

▪️Как это работает?

Алгоритмы NER анализируют текст и на основе обученных моделей выделяют слова или фразы, относящиеся к этим категориям. Для обучения используются аннотированные данные, где сущности уже отмечены.

▪️Где применяется?

- Автоматическое извлечение данных из документов;
- Улучшение поисковых систем;
- Обработка запросов в службах поддержки;
- Анализ социальных сетей;
- Классификация новостей;
- Работа с резюме.

#машинное_обучение #NLP

👍9

1.1K views12:01

About

Blog

Apps

Platform