AI для чайников | Александр Троицкий
1.63K subscribers
37 photos
6 videos
6 files
40 links
Ex- ING (IB), Big4, Lamoda, Oliver Wyman. Занимаюсь разработкой AI-моделей и продуктов. Сюда пишу мысли вечного новичка в AI since 2018.

Автор канала: @troitskii

#machinelearning #datascience #python
Download Telegram
Как подбирать фичи для разработки предсказательной модели? Сегодня поговорим о том, как надо проверять факторы перед тем, как посылать их в модель (любую модель!). Разберём это на примере предсказания события (например, того, что человек заболеет в течение месяца).

Конечно, мы можем просто взять и засунуть в модель 1000 разных факторов, подождать месяц, пока компьютер сможет это обработать и после - вуаля, готово! Но что будет с моделью? Скорее всего, она переобучится, а значит будет хорошо предсказывать события внутри датасета, на котором обучалась, но когда мы выведем модель в продакшен, то поймём, что она ужасно предсказывает новые события. Именно поэтому факторы нужно проверять на индивидуальную предсказательную силу (Somer-D или индивидуальный Джини).

То есть сначала нужно разработать модель на каждом отдельном факторе из, допустим, 1000, которые мы придумали. У нас получится 1000 простых однофакторных моделей.

Далее надо посчитать предсказательную силу каждой из этих моделей. Если предсказательная сила у модели (фактора) низкая - убираем её из нашего шорт-листа. Если очень высокая сила - повод задуматься о том, что с этим фаткором не так и почему он такой мощный. Может быть, он редко всплывает в выборке или он является производным от события, которое мы предсказываем (например, если у вас температура 37.5 - значит вы заболели, и фактор температуры не предсказывает болезнь, а лишь говорит о том, что вы заболели какое-то время назад).

После надо посмотреть корреляции между факторами. Если корреляция высокая, надо оставлять только тот фактор, у кого выше Джини. Например, в плане заболеваемости "Как часто вы ездите в общественном транспорте" и фактор "Как часто вы ездите на такси или личной машине" будут значить примерно одно и то же, предсказательная сила у них тоже будет одинаковая, потому что они взаимоисключающие.

Далее надо посмотреть, сколько факторов осталось. Если факторов много, а выборка небольшая, то стоит уменьшить их количество, ужесточив требования в рамках предыдущих шагов или убрать факторы в зависимости доступности данных по ним.

И только после всех этих процедур можно загружать фичи в алгоритм и обучать его.

#datascience #machinelearning #ai #машинноеобучение #искуственный #интеллект #python #ИИ
👍1