Интересное что-то

Forwarded from DziS Science | Data Science

Привет всем!👋

Количество постов явно коррелирует с загруженностью на работе. Прошлая неделя была посвящена модельному риску.

Кто не знает что такое модельный риск, дам небольшую вводную.
Модельный риск - событие риска, наступающее при ошибочных решениях на основе неточности/несовершенства использования моделей в бизнес процессах.

Любая модель в том или ином виде подвержена модельному риску!

Основные проблемы, с которыми сталкивается моделист в рамках модельного риска - падение инфраструктуры (модель не считается n-дней), отсутствие данных (отдельные данные не приходят n-дней), выведена не та версия модели (модель работает не так, как предполагается или не совсем полный функционал).

Так уж случилось, что на той неделе произошло аж 2 инцидента по модельному риску.

- Что в таких случаях делает команда DS и в чем заключается сложность данного процесса?
Любая модель, так или иначе, стоит на мониторинге, в разных системах, которые в случае проблем дают симптомы. Чаще всего перераспределение признаков, либо целевой метки.

- Итак, мы видим на мониторингах странные вещи, в чем проблема их пофиксить?
Главная проблема в том, что симптомы общие для семейства проблем и DS оперативно выявить и локализовать проблему. Например, видим падение источника (фича перестала приходить, везде NaN) на источнике данные могут быть, но например, не подгружаться корректно инфрой. Тут уже надо бежать смотреть логи модели, проверяя как и первоисточник данных, так и систему, их выгружающую. В случае моей работы, это постоянное смотрение ручками + коммуникация и координация действий со смежными подразделениями по данным (DE) и инфраструктуре (MLOps).

- Выявили проблему, что дальше?
Это уже большая победа, ведь каждый день ошибки на модели - миллионы потерь для банка. Составляется план исправления в кратчайшие сроки. Когда понятны причины, заводится риск событие. Риск событие - формализация проблемы с указанием его первоисточника, процессов, затронутой проблемой и планом решения.

Данное событие обрабатывают риск-чемпионы - коллеги, которые принимают решение о критичности, формализуется оценка потери. Буквально коллеги оценивают полноту картины, в каких процессах что упало и где это влияет в денежном эквиваленте. Результатом их работы является поручение на анализ финансового эффекта потерь, подтверждение, что предложенный план исчерпывает проблему и дается правовая оценка события (если дело пахнет жареным и тянет на пару статей УК РФ).

Для нас как для DS данный процесс представляет собой формирование Ad-hoc упражнений, которые потом используются для подсчета потерь (чаще всего это некоторый what-if анализ, который мы проводим в сжатые сроки). Плюс на плечах DS лежит вывод патча + проверка и подтверждение, что после исправления работает все именно так, как и должно.

- Какой результат?
Исправление бага, действия со стороны бизнеса, которые минимизируют эффект (например, оперативный пересчет предложений, блокировка выдачи в конкретный момент), оценка прогнозируемых и фактических потерь (хорошая новость этого события, что потенциальные потери != фактические, нередко клиент может даже не заметить на себе что что-то случилось).

#трудовые_будни

Please open Telegram to view this post

VIEW IN TELEGRAM

83 views19:42