Криптонит. Разработка, наука, шифрование

🧠

Тематическое моделирование и стоп-слова для ИИ. Про это новый выпуск рубрики #нейрословарь, которую мы делаем вместе с экспертами лаборатории больших данных компании «Криптонит».

Искусственный интеллект склонен к мазохизму: он будет выполнять лишнюю работу, если его не остановить. Чтобы ИИ не страдал напрасно (а пользователь не ждал слишком долго), разработчики придумали механизмы ограничений.

❗️

К одним из них относится использование стоп-слов — перечня терминов общей лексики, не несущих смысловой нагрузки и встречающихся в документах на любые темы. Например, это предлоги, междометия, вводные слова и словосочетания. Они просто игнорируются при анализе текста.

🔹В частности, стоп-слова используются для оптимизации тематического моделирования (topic modeling) — метода, который выявляет скрытые темы в коллекции текстов или относит их к заранее определенному списку тем.

Построение тематической модели основано на вычислении семантических векторов, характеризующих степень принадлежности документа к каждой из тем. Векторы вычисляются для всех терминов уже после отбрасывания стоп-слов. Это позволяет быстрее определять, каким темам соответствует анализируемый набор текстов, и какие наборы слов характерны для каждой из них.

Один документ может одновременно затрагивать несколько тем, характеризующихся определённой частотой распределения терминов.

🟩Эффективность тематического моделирования зависит от качества семантических векторов. Чем больше модель «видела» текстов при обучении, тем лучше она будет охватывать семантическую составляющую каждого слова.

📌

Тематическое моделирование применяется в поисковых системах, социальных сетях, новостных интеграторах, научных библиотеках, подборках аннотированных медиафайлов и даже в биоинформатике — для поиска генетических последовательностей.

Please open Telegram to view this post