Кредитный скоринг и нейронные сети
В России существует великое множество поверий - сплюнь через левое плечо и постучи по дереву, не здоровайся через порог, не выноси мусор по вечерам и многое другое. Не смотря на то, что дата сайентисты меньше остальных подвержены этому влиянию, большинство продолжает считать, что задачу кредитного скоринга можно решать исключительно при помощи логистической регрессии. Причем молодые специалисты склонны заблуждаться чаще своих опытных коллег, ибо в рамках учебных программ продолжают распространять это поверье. Опыт работы в высокотехнологичном банке на протяжении двух лет не сильно смог повлиять и на мой кругозор в этом вопросе. В результате, перспективы от предложения HRа по развитию кредитного скоринга, полученные на почте и по телефону, были проигнорированы и только после оффлайн встречи и спустя девять месяцев я перешел в новую перспективную нишу.
К счастью, моя новая команда была положительно настроена к изменениям, о чем свидетельствовало применение градиентного бустинга в качестве основного семейства моделей в кредитном скоринге. Основным двигателем нововведений являлось значительное повышение точности относительного логистической регрессии. Более того, была установлена довольна точная эмпирическая формула, переводящая Джини (линейная комбинация от AUC ROC) в чистую прибыль. Таким образом, можно было использовать любое семейство моделей, в том числе нейронные сети, которое стабильно бы улучшало метрики качества. Коммерческая направленность убеждала в необратимости внедрений в случае успеха. С другой стороны, прагматичность к инновациям Альфа-Банка задавала жесткие требования к значимости финансового эффекта, ведь более сложные методы приводят к увеличению количества вычислительных мощностей и необходимости модернизации систем автоматического принятия решений.
Нейронные сети превосходят классические модели машинного обучения на больших обучающих множествах из слабоструктурированных данных за счет огромного количества обучаемых параметров и регуляризации, вносимой выбором архитектуры нейронной сети под конкретную структуру данных. Широко известно, что отдельные архитектуры нейронных сетей являются SOTA для работы с картинками, звуком и текстом. При обработке текста же используют семантические связи слов, учитывая контекст и их последовательность. Эти архитектуры могут быть также переиспользованы для обработки любых видов последовательностей.
В базах данных банка содержится огромное разнообразие источников, самым нативным и объемных из которых является транзакционный массив. Клиенты банка совершают до нескольких тысяч транзакций по дебетовым и кредитным картам за год. В итоге образуется огромный объем данных, достаточный для того, чтобы на текущий момент его можно было смело называть модным словом BigData и применять SOTA для обработки текста с небольшой адаптацией под многомерный временной ряд из категориальных переменных. Путь развития нейронных сетей в Альфе начался именно с этого источника данных. В результате, дата сайентисты Лаборатории машинного обучения концентрируется на подборе архитектуры нейронной сети, которая в свою очередь «генерирует признаки» из временного ряда за счет большого количества обучаемых параметров и обработки данных в неагрегированном виде.
Нейросетевой подход оправдал ожидания и выжал значительное количество дополнительной информации из последовательных данных. Далее, он был адаптирован для работы с другими последовательностями: транзакциями расчетного счета и данными БКИ. Модели на данный момент стабильно работают в системах принятия решения рисков, а подход масштабируются на другие бизнес-процессы. В дальнейшем, расскажу о том тернистом пути, который был преодолен для внедрения полученных результатов в продакш.
#dl_in_finance
В России существует великое множество поверий - сплюнь через левое плечо и постучи по дереву, не здоровайся через порог, не выноси мусор по вечерам и многое другое. Не смотря на то, что дата сайентисты меньше остальных подвержены этому влиянию, большинство продолжает считать, что задачу кредитного скоринга можно решать исключительно при помощи логистической регрессии. Причем молодые специалисты склонны заблуждаться чаще своих опытных коллег, ибо в рамках учебных программ продолжают распространять это поверье. Опыт работы в высокотехнологичном банке на протяжении двух лет не сильно смог повлиять и на мой кругозор в этом вопросе. В результате, перспективы от предложения HRа по развитию кредитного скоринга, полученные на почте и по телефону, были проигнорированы и только после оффлайн встречи и спустя девять месяцев я перешел в новую перспективную нишу.
К счастью, моя новая команда была положительно настроена к изменениям, о чем свидетельствовало применение градиентного бустинга в качестве основного семейства моделей в кредитном скоринге. Основным двигателем нововведений являлось значительное повышение точности относительного логистической регрессии. Более того, была установлена довольна точная эмпирическая формула, переводящая Джини (линейная комбинация от AUC ROC) в чистую прибыль. Таким образом, можно было использовать любое семейство моделей, в том числе нейронные сети, которое стабильно бы улучшало метрики качества. Коммерческая направленность убеждала в необратимости внедрений в случае успеха. С другой стороны, прагматичность к инновациям Альфа-Банка задавала жесткие требования к значимости финансового эффекта, ведь более сложные методы приводят к увеличению количества вычислительных мощностей и необходимости модернизации систем автоматического принятия решений.
Нейронные сети превосходят классические модели машинного обучения на больших обучающих множествах из слабоструктурированных данных за счет огромного количества обучаемых параметров и регуляризации, вносимой выбором архитектуры нейронной сети под конкретную структуру данных. Широко известно, что отдельные архитектуры нейронных сетей являются SOTA для работы с картинками, звуком и текстом. При обработке текста же используют семантические связи слов, учитывая контекст и их последовательность. Эти архитектуры могут быть также переиспользованы для обработки любых видов последовательностей.
В базах данных банка содержится огромное разнообразие источников, самым нативным и объемных из которых является транзакционный массив. Клиенты банка совершают до нескольких тысяч транзакций по дебетовым и кредитным картам за год. В итоге образуется огромный объем данных, достаточный для того, чтобы на текущий момент его можно было смело называть модным словом BigData и применять SOTA для обработки текста с небольшой адаптацией под многомерный временной ряд из категориальных переменных. Путь развития нейронных сетей в Альфе начался именно с этого источника данных. В результате, дата сайентисты Лаборатории машинного обучения концентрируется на подборе архитектуры нейронной сети, которая в свою очередь «генерирует признаки» из временного ряда за счет большого количества обучаемых параметров и обработки данных в неагрегированном виде.
Нейросетевой подход оправдал ожидания и выжал значительное количество дополнительной информации из последовательных данных. Далее, он был адаптирован для работы с другими последовательностями: транзакциями расчетного счета и данными БКИ. Модели на данный момент стабильно работают в системах принятия решения рисков, а подход масштабируются на другие бизнес-процессы. В дальнейшем, расскажу о том тернистом пути, который был преодолен для внедрения полученных результатов в продакш.
#dl_in_finance
Оценка финансового эффекта от pd-моделей
Банк, как и физическое лицо, принимает решение о выдаче кредита исходя из вероятности его возврата. Заемщик по договору обязуется возвращать долг в формате ежемесячных платежей. Дефолтом обычно считается просрочка по внесению обязательного платежа продолжительностью 90 дней. PD-модель предсказывает наступит ли событие дефолта, уровень уверенность модели переводится в вероятность дефолта при помощи калибровки, финальное решение о выдаче кредита принимается исходя из полученной вероятности.
Решение о выборе порогового значения для принятия решения о выдаче кредита основывается на текущем уровне риск аппетита. В стабильное время банки обычно более голодные, чем в смутные времена экономических кризисов. Риск-стратегия банка базируется на экспертном подходе, в виду зависимости от макроэкономики, политической обстановки, поведения конкурентов и других сложномоделируемых факторов. Риск-менеджеру, при изменении риск-политики, необходима уверенность в стабильно высоком качестве работы модели для широкого спектра пороговых значений. При таких требованиях, метрика Джини является отличным выбором.
Джини (2 * AUC ROC - 1) в банках на слуху у большого круга лиц, а не только у дата сайентистов и риск-менеджеров. Оказывается, даже сотрудники операционных подразделений, работающих в дружном коллективе с моделями могут знать об этой метрике. Более того, метрика может трансформироваться в созвучное, более народное и привычное «Женя». Иногда, при достаточном уровне погрешности при передаче информации из уст в уста, даже может показаться, что именно Женя принимает решения вместо всех моделей машинного обучения.
Исторически, машинное обучение в банках начинало свое развитие именно в задачах кредитного скоринга. Это привело к использованию метрики Джини в задачах бинарной классификации даже там, где более уместны другие метрики. Тем не менее, необходимо устанавливать четкую связь между модельными и продуктовыми метрикам, так как финансовый эффект достигается за счет улучшения последних. Такая связь позволяет разговаривать с бизнесом на одном языке и, в виду коммерческой направленности банка, открывает многие двери. При таком подходе, на одной чаще весов мы всегда будем иметь стабильный значимый финансовый эффект, который будет перевешивать нежелание менять привычный порядок вещей. В итоге, «бабло побеждает зло».
Повышение риск аппетита при фиксированной стратегии всегда приводит к увеличению доли дефолтов, понижение, так называемые закрутки, приводит к снижению количества выдач. Следовательно, дополнительную разделяющую способность модели можно направить либо на сокращение риска при сохранении объемов выдач, либо на увеличение числа выдач при неизменном уровне риска. Таким образом, при стабильной экономической ситуации, эффект от повышения метрики Джини приводит к дополнительным выдачам. Банк довольно точно умеет оценивать потенциальную прибыль от дополнительных выдач. В итоге, оценить потенциальный эффект от 1 п.п. Джини на этапе разработки модели становится возможным по результатам предыдущих а/б-тестов и линейной аппроксимации: нужно разделить число дополнительных выдач на кол-во дополнительных пунктов Джини и умножить на чистую прибыль от одной выдачи. Однако, защитить финансовый эффект от внедрения новой модели возможно только в рамках а/б-теста, длящегося более одного года с момента начала использования модели, в силу особенности созревания целевой переменной.
#mlsysdesign #dl_in_finance
Банк, как и физическое лицо, принимает решение о выдаче кредита исходя из вероятности его возврата. Заемщик по договору обязуется возвращать долг в формате ежемесячных платежей. Дефолтом обычно считается просрочка по внесению обязательного платежа продолжительностью 90 дней. PD-модель предсказывает наступит ли событие дефолта, уровень уверенность модели переводится в вероятность дефолта при помощи калибровки, финальное решение о выдаче кредита принимается исходя из полученной вероятности.
Решение о выборе порогового значения для принятия решения о выдаче кредита основывается на текущем уровне риск аппетита. В стабильное время банки обычно более голодные, чем в смутные времена экономических кризисов. Риск-стратегия банка базируется на экспертном подходе, в виду зависимости от макроэкономики, политической обстановки, поведения конкурентов и других сложномоделируемых факторов. Риск-менеджеру, при изменении риск-политики, необходима уверенность в стабильно высоком качестве работы модели для широкого спектра пороговых значений. При таких требованиях, метрика Джини является отличным выбором.
Джини (2 * AUC ROC - 1) в банках на слуху у большого круга лиц, а не только у дата сайентистов и риск-менеджеров. Оказывается, даже сотрудники операционных подразделений, работающих в дружном коллективе с моделями могут знать об этой метрике. Более того, метрика может трансформироваться в созвучное, более народное и привычное «Женя». Иногда, при достаточном уровне погрешности при передаче информации из уст в уста, даже может показаться, что именно Женя принимает решения вместо всех моделей машинного обучения.
Исторически, машинное обучение в банках начинало свое развитие именно в задачах кредитного скоринга. Это привело к использованию метрики Джини в задачах бинарной классификации даже там, где более уместны другие метрики. Тем не менее, необходимо устанавливать четкую связь между модельными и продуктовыми метрикам, так как финансовый эффект достигается за счет улучшения последних. Такая связь позволяет разговаривать с бизнесом на одном языке и, в виду коммерческой направленности банка, открывает многие двери. При таком подходе, на одной чаще весов мы всегда будем иметь стабильный значимый финансовый эффект, который будет перевешивать нежелание менять привычный порядок вещей. В итоге, «бабло побеждает зло».
Повышение риск аппетита при фиксированной стратегии всегда приводит к увеличению доли дефолтов, понижение, так называемые закрутки, приводит к снижению количества выдач. Следовательно, дополнительную разделяющую способность модели можно направить либо на сокращение риска при сохранении объемов выдач, либо на увеличение числа выдач при неизменном уровне риска. Таким образом, при стабильной экономической ситуации, эффект от повышения метрики Джини приводит к дополнительным выдачам. Банк довольно точно умеет оценивать потенциальную прибыль от дополнительных выдач. В итоге, оценить потенциальный эффект от 1 п.п. Джини на этапе разработки модели становится возможным по результатам предыдущих а/б-тестов и линейной аппроксимации: нужно разделить число дополнительных выдач на кол-во дополнительных пунктов Джини и умножить на чистую прибыль от одной выдачи. Однако, защитить финансовый эффект от внедрения новой модели возможно только в рамках а/б-теста, длящегося более одного года с момента начала использования модели, в силу особенности созревания целевой переменной.
#mlsysdesign #dl_in_finance
Во время презентации первой версии нейронной сети на карточных транзакциях, у продуктовой команды возник один вопрос: «Учитываете ли вы в модели платежи за коммунальные услуги и крупные покупки: автомобили и недвижимость?». Перечисленные типы транзакций в представленную модель не входили, так как клиенты их совершают по расчетному счету, а не по карте. Отличительной особенностью этого типа транзакций является отсутствие их структуризации по mcc. К счастью, это с лихвой компенсируется текстовым полем с назначением платежа. Мы адаптировали наш подход под новый источник данных, модели на этом источнике уже стабильно работают в продакшне более полутора лет, а значит настало время поделиться накопленным опытом. Благо, мне достаточно прикрепить ссылку, ведь @meacca уже рассказал об этом на хабре. https://habr.com/ru/company/alfa/blog/657577/
#статьи #dl_in_finance
#статьи #dl_in_finance
Хабр
Нейросетевой подход к моделированию транзакций расчетного счета
Введение Естественным источником информации в банке о покупках клиента являются карточные транзакции – любые операции, проводимые по дебетовым или кредитным картам. При этом денежные операции клиента...
Популяризация нейронных сетей среди риск-менеджеров
🗣 Лаборатория активно рассказывает в паблике про применение нейронных сетей в кредитном скоринге DS-сообществу: три публикации на хабре, три соревнования, порядка десяти видео с выступлениями на онлайн и офлайн конференциях.
👀 Наша работа не осталась незамеченной в смежном сообществе и с нами связался редактор журнала «Риск-менеджмент в кредитной организации». Скорее всего, вы тоже об этом издании раньше не слышали, тем не менее, его читали и хорошо отзывались все моих коллеги, построившие успешную карьеру в этой области.
🤔 Недостаточно убедительно? 🌟 Александр Дъяконов (@smalldatascience) входит в экспертный совет журнала и публикуется в нем. Теперь достаточно?)
✔️ Мы уже показали риск-менеджерам и топ-менеджерам в 🅰️-Банке повышении эффектности и сохранении стабильности при использовании нейронных сетей в кредитном скоринге на ретро данных. Затем, внедрили решения в продакшн и подтвердили практическим результатом на протяжении нескольких лет.
🙏 Верим, что шеринг опыта, поможет дата сайентистам в других компаниях пройти наш путь быстрее и простимулирует развитие новых подходов в этой консервативной области. В ближайшее время предпринимаем следующие шаги:
✍️ Выпустим статью «Нейросетевой подход к кредитному скорингу на последовательных данных» в журнале «Риск-менеджмент в кредитной организации». Она вас будет ждать в комментариях к этому посту после выхода.
🗣 Выступим на профильной конференции Scoring Day 29 сентября «Нейронные сети в кредитном скоринге: выгоды внедрения и особенности реализации. Ноу-хау Альфа банка по борьбе со смещением распределения». Возможно участие как в офлайн, так и в онлайн форматах.
✍️ Опубликовали интервью по теме «Эволюция моделей в кредитном скоринге, или Зачем нужны нейронные сети в этой консервативной области?» на futurebanking.ru в качестве анонса к выступлению.
👊 Поделитесь информацией со знакомыми риск-менеджерами и топ-менеджерами в банках. Надеюсь, эти активности помогут в развитии нейронных сетей в кредитном скоринге и, в частности, в ваших командах.
#статьи #dl_in_finance
🗣 Лаборатория активно рассказывает в паблике про применение нейронных сетей в кредитном скоринге DS-сообществу: три публикации на хабре, три соревнования, порядка десяти видео с выступлениями на онлайн и офлайн конференциях.
👀 Наша работа не осталась незамеченной в смежном сообществе и с нами связался редактор журнала «Риск-менеджмент в кредитной организации». Скорее всего, вы тоже об этом издании раньше не слышали, тем не менее, его читали и хорошо отзывались все моих коллеги, построившие успешную карьеру в этой области.
🤔 Недостаточно убедительно? 🌟 Александр Дъяконов (@smalldatascience) входит в экспертный совет журнала и публикуется в нем. Теперь достаточно?)
✔️ Мы уже показали риск-менеджерам и топ-менеджерам в 🅰️-Банке повышении эффектности и сохранении стабильности при использовании нейронных сетей в кредитном скоринге на ретро данных. Затем, внедрили решения в продакшн и подтвердили практическим результатом на протяжении нескольких лет.
🙏 Верим, что шеринг опыта, поможет дата сайентистам в других компаниях пройти наш путь быстрее и простимулирует развитие новых подходов в этой консервативной области. В ближайшее время предпринимаем следующие шаги:
✍️ Выпустим статью «Нейросетевой подход к кредитному скорингу на последовательных данных» в журнале «Риск-менеджмент в кредитной организации». Она вас будет ждать в комментариях к этому посту после выхода.
🗣 Выступим на профильной конференции Scoring Day 29 сентября «Нейронные сети в кредитном скоринге: выгоды внедрения и особенности реализации. Ноу-хау Альфа банка по борьбе со смещением распределения». Возможно участие как в офлайн, так и в онлайн форматах.
✍️ Опубликовали интервью по теме «Эволюция моделей в кредитном скоринге, или Зачем нужны нейронные сети в этой консервативной области?» на futurebanking.ru в качестве анонса к выступлению.
👊 Поделитесь информацией со знакомыми риск-менеджерами и топ-менеджерами в банках. Надеюсь, эти активности помогут в развитии нейронных сетей в кредитном скоринге и, в частности, в ваших командах.
#статьи #dl_in_finance
Как организовать революцию в кредитном скоринге в вашей компании?
🧠 Благодаря треку DL in Finance вы уже отлично знаете какие именно сетки нужно строить, на каких источниках данных и как именно их нужно обучать для буста точности кредитного скоринга.
🤔 Но как протащить такую инициативу в вашей консервативной компании?
💰Научитесь оценивать финансовый эффект от улучшения модельных метрик в кредитном скоринге. Улучшение модельных метрик очень абстрактно для лиц, принимающих решения, а перспектива заработать миллиарды рублей очень конкретна. Более того, такая перспектива открывает любые двери в коммерчески направленных компаниях - никто не захочет отвечать на вопрос: "Почему он решил помешать увеличить чистую прибыль компании?".
📈 Используйте нейронные сети для обработки транзакций и данных БКИ чтобы не терять информацию при агрегации признаков и время на генерацию признаков под конкретный домен.
⚠️ Внедряйте нейронные сети в паре с проверенной SOTA для обработки плоских табличных данных - градиентным бустингом. В 2020-м нейронные сети в Альфе входили с весом 30%, сейчас входят с весом 70% 💪!
🦸♂️ Возьмите на себя ответственность за организацию наколеночной инфраструктуры и ее поддержку в течении нескольких лет, пока в вашей компании будут строится правильные процессы. Не забудьте поставить ноутбук на новогодний стол для мониторинга рядом с мандаринами.
🙅♂️ Забудьте о том, что вы только что прочитали, если вы еще не собрали команду, которая обладает не только сильными техническими навыками, но и которая также замотивирована на результат, как и вы. Если у вас уже есть такая команда, то помните о трех 🐳 развития команды.
Подробнее на слайдах, с которыми выступал на этой неделе на skill-форуме.
#mlsysdesign #личный_опыт #dl_in_finance
🧠 Благодаря треку DL in Finance вы уже отлично знаете какие именно сетки нужно строить, на каких источниках данных и как именно их нужно обучать для буста точности кредитного скоринга.
🤔 Но как протащить такую инициативу в вашей консервативной компании?
💰Научитесь оценивать финансовый эффект от улучшения модельных метрик в кредитном скоринге. Улучшение модельных метрик очень абстрактно для лиц, принимающих решения, а перспектива заработать миллиарды рублей очень конкретна. Более того, такая перспектива открывает любые двери в коммерчески направленных компаниях - никто не захочет отвечать на вопрос: "Почему он решил помешать увеличить чистую прибыль компании?".
📈 Используйте нейронные сети для обработки транзакций и данных БКИ чтобы не терять информацию при агрегации признаков и время на генерацию признаков под конкретный домен.
⚠️ Внедряйте нейронные сети в паре с проверенной SOTA для обработки плоских табличных данных - градиентным бустингом. В 2020-м нейронные сети в Альфе входили с весом 30%, сейчас входят с весом 70% 💪!
🦸♂️ Возьмите на себя ответственность за организацию наколеночной инфраструктуры и ее поддержку в течении нескольких лет, пока в вашей компании будут строится правильные процессы. Не забудьте поставить ноутбук на новогодний стол для мониторинга рядом с мандаринами.
🙅♂️ Забудьте о том, что вы только что прочитали, если вы еще не собрали команду, которая обладает не только сильными техническими навыками, но и которая также замотивирована на результат, как и вы. Если у вас уже есть такая команда, то помните о трех 🐳 развития команды.
Подробнее на слайдах, с которыми выступал на этой неделе на skill-форуме.
#mlsysdesign #личный_опыт #dl_in_finance
Что вы выберете для табличных данных: бустинг или MLP?
🤖 Большой пласт задач машинного обучения на практике - задачи на табличных данных, которые чаще всего решаются при помощи градиентного бустинга. Стандартная для табличных данных MLP-архитектура обычно имеет хуже качество и требует больше ресурсов для обучения и тюнинга.
🤔 Можно ли применять глубокое обучение более эффективно?
🔍 Yandex Research активно занимается исследованиями в этой области. ИМХО, лучшие статьи на эту тему, прошедшие на NeurIPS c 90+ цитированиями:
[1] - Revisiting Deep Learning Models for Tabular Data, 2021
[2] - On Embeddings for Numerical Features in Tabular Deep Learning, 2022
💪 Сетки рвут бустинг несмотря на то, что работы фокусируются на изначально сложных для глубокого обучения задачах, на которых доминируют бустинги традиционно доминируют. Более того, в статье идет сравнение с хорошо натюненными бустингами.
👀 Взляните на ключевые результаты из статьи. В списке ниже указаны модели и их среднее места по задачам в бенчмарке (меньше - лучше).
- Классический MLP - 8.5
- XGBoost - 4.6
- Transformer и кусочно-линейные эмбеддинги - 3.7
- CatBoost - 3.6
- MLP и эмбеддинги с периодическими активациями - 3.0
Рассмотрим основные идеи и техники, помогающие улучшить качество ваших нейронок:
🌟 Архитектурные модификации. Простая модификация MLP c добавлением BatchNorm и пробросных связей подобно ResNet уже показывает существенные улучшения по сравнению с базовым вариантом и является хорошим бейзлайном. Однако, системные приросты показывает предложенная в [1] трансформер-архитектура, изначально использующая эмбеддинги фичей и механизм внимания.
🌟 Эмбеддинги для числовых фичей. Обычно числовые фичи передаются в MLP напрямую, но можно добиться буста качества за счет расширения их размерность, применяя для этого эмбеддинги. Любые варианты эмбеддингов числовых фичей существенно бустят табличные модели и снижают разницу между архитектурными конфигурациями. Для максимального улучшения в работе [2] выделяются две более сложные схемы организации эмбеддингов - с использованием кусочно-линейных функций и периодических активаций.
🅰️ В практике Лаборатории табличные данные появляются в разных форматах: как в виде структурированных фичей, так и в виде сырых последовательностей. Наибольший интерес вызывает применение глубокое обучение там, где оно изначально имеет преимущества - это могут быть чисто неструктурированные данные, или же объединение их с табличными фичами для получения одной сильной модели.
🤔 Отметим следующий интересный факт - чем больше данных имеется, тем менее сильно влияют различные архитектурные модификации и другие техники. Это особенно относятся к табличным данным - зачастую задачи на них и общая структура самих данных куда более простые, чем на неструктурированных доменах вроде картинок или текстов, и возможность полностью описать задачу большим числом данных становится абсолютно реальной на практике.
Потестить различные техники из статей можно в песочнице нашего соревнования на Boosters, причем как на чисто табличных агрегатах, так и на последовательных данных. У двух статей есть открытый исходный код, так что с реализациями мучиться не придется.
🤔 Слово "бустинг" в этом посте оказалось популярнее множества слов {"mlp", "сетка"}.
💬 Автор поста @oasidorshin ответит на ваши вопросы про сравнение сеток с бустингами в комментариях.
#mlsysdesign #dl_in_finance
🤖 Большой пласт задач машинного обучения на практике - задачи на табличных данных, которые чаще всего решаются при помощи градиентного бустинга. Стандартная для табличных данных MLP-архитектура обычно имеет хуже качество и требует больше ресурсов для обучения и тюнинга.
🤔 Можно ли применять глубокое обучение более эффективно?
🔍 Yandex Research активно занимается исследованиями в этой области. ИМХО, лучшие статьи на эту тему, прошедшие на NeurIPS c 90+ цитированиями:
[1] - Revisiting Deep Learning Models for Tabular Data, 2021
[2] - On Embeddings for Numerical Features in Tabular Deep Learning, 2022
💪 Сетки рвут бустинг несмотря на то, что работы фокусируются на изначально сложных для глубокого обучения задачах, на которых доминируют бустинги традиционно доминируют. Более того, в статье идет сравнение с хорошо натюненными бустингами.
👀 Взляните на ключевые результаты из статьи. В списке ниже указаны модели и их среднее места по задачам в бенчмарке (меньше - лучше).
- Классический MLP - 8.5
- XGBoost - 4.6
- Transformer и кусочно-линейные эмбеддинги - 3.7
- CatBoost - 3.6
- MLP и эмбеддинги с периодическими активациями - 3.0
Рассмотрим основные идеи и техники, помогающие улучшить качество ваших нейронок:
🌟 Архитектурные модификации. Простая модификация MLP c добавлением BatchNorm и пробросных связей подобно ResNet уже показывает существенные улучшения по сравнению с базовым вариантом и является хорошим бейзлайном. Однако, системные приросты показывает предложенная в [1] трансформер-архитектура, изначально использующая эмбеддинги фичей и механизм внимания.
🌟 Эмбеддинги для числовых фичей. Обычно числовые фичи передаются в MLP напрямую, но можно добиться буста качества за счет расширения их размерность, применяя для этого эмбеддинги. Любые варианты эмбеддингов числовых фичей существенно бустят табличные модели и снижают разницу между архитектурными конфигурациями. Для максимального улучшения в работе [2] выделяются две более сложные схемы организации эмбеддингов - с использованием кусочно-линейных функций и периодических активаций.
🅰️ В практике Лаборатории табличные данные появляются в разных форматах: как в виде структурированных фичей, так и в виде сырых последовательностей. Наибольший интерес вызывает применение глубокое обучение там, где оно изначально имеет преимущества - это могут быть чисто неструктурированные данные, или же объединение их с табличными фичами для получения одной сильной модели.
🤔 Отметим следующий интересный факт - чем больше данных имеется, тем менее сильно влияют различные архитектурные модификации и другие техники. Это особенно относятся к табличным данным - зачастую задачи на них и общая структура самих данных куда более простые, чем на неструктурированных доменах вроде картинок или текстов, и возможность полностью описать задачу большим числом данных становится абсолютно реальной на практике.
Потестить различные техники из статей можно в песочнице нашего соревнования на Boosters, причем как на чисто табличных агрегатах, так и на последовательных данных. У двух статей есть открытый исходный код, так что с реализациями мучиться не придется.
🤔 Слово "бустинг" в этом посте оказалось популярнее множества слов {"mlp", "сетка"}.
💬 Автор поста @oasidorshin ответит на ваши вопросы про сравнение сеток с бустингами в комментариях.
#mlsysdesign #dl_in_finance
🧑🎓 Довольно просто объяснить студентам как работает анализ данных, ведь они уже сдали экзамены по статистике, матану и проге. Особенно продвинутым анализ данных может показаться даже недонаукой.
💸 В разговоре с бизнесом уже гораздо тщательнее приходится подбирать слова и аналогии чтобы убеждать в потенциальной пользе Data Science. К счастью, у большинства из них есть мотивация оптимизировать свои процессы, зашитая в KPI.
👩👦 Но как рассказать подробно про анализ данных маме? Как рассказать об этом тем, кто не обладает нужным техническим бэкграундом или его мотивация разобраться не зашита в KPI?
👎 Сказать, что вы айтишник - удел слабых.
💪 Выпустить статью на РБК - удел мудрых.
💪💪💪 Сняться в кринжовом сериале Data Sapiens - удел отважных.
В этом раз выбран путь мудрых. Читайте в РБК "Скоринг за секунды: как нейросети изменили выдачу кредитов".
💬 Как вы рассказываете маме про вашу работу?
#статьи #dl_in_finance
👩👦 Но как рассказать подробно про анализ данных маме? Как рассказать об этом тем, кто не обладает нужным техническим бэкграундом или его мотивация разобраться не зашита в KPI?
👎 Сказать, что вы айтишник - удел слабых.
💪 Выпустить статью на РБК - удел мудрых.
💪💪💪 Сняться в кринжовом сериале Data Sapiens - удел отважных.
В этом раз выбран путь мудрых. Читайте в РБК "Скоринг за секунды: как нейросети изменили выдачу кредитов".
💬 Как вы рассказываете маме про вашу работу?
#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
Обрабатываем терабайты данных в кредитном скоринге
🥱 Все знают, что в кредитном скоринге мы используем нейросетевые модели, которые трансформируют терабайты сырых данных в оценку благонадежности наших клиентов.
В предыдущих выступлениях делал акцент только на модели, на Saint HighLoad дал больше акцента на инфраструктуру. Основные тезисы выступления:
1️⃣ Построить инфраструктуру для обучения таких моделей довольно просто - достаточно купить отдельный мощный сервер.
2️⃣ Убедить бизнес инвестировать в железо чуть сложнее - необходимо научиться считать экономический эффект.
3️⃣ Внедрить решение на коленке и приносить пользу компании уже сейчас, пока не готовы все интеграции еще сложнее - необходимо взять на себе ответственность и передавать на протяжении полутора лет результаты через почту. Не просто передавать, а делать это вовремя, таким образом чтобы промышленный процесс ни разу не лег.
4️⃣ Построить целевую инфраструктуру, так чтобы бизнес получал эффекты, а дата сайентисты спали спокойно - тоже нелегкая задача. @andriazol прошел этот путь со своей командой MLOPs и подробно рассказал, как устроена наша инфраструктура для обучения и инференса моделей. Рекомендую прочитать, если вы все еще запускаете прод на коленке.
P.S. на этот раз в отзывах на доклад не было комментариев про интимные поцелуи DSов)
#митап #dl_in_finance #видео
🥱 Все знают, что в кредитном скоринге мы используем нейросетевые модели, которые трансформируют терабайты сырых данных в оценку благонадежности наших клиентов.
В предыдущих выступлениях делал акцент только на модели, на Saint HighLoad дал больше акцента на инфраструктуру. Основные тезисы выступления:
P.S. на этот раз в отзывах на доклад не было комментариев про интимные поцелуи DSов)
#митап #dl_in_finance #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Как повысить качество модели кредитного скоринга, не добавляя новые источники данных?
🤔 Источников данных в кредитном скоринге становится все больше, и возникает вопрос: почему бы не попробовать смешивать их не на уровне предсказаний, а на некотором более низком уровне?
🔖 В статье от @nickimpark вы узнаете:
1️⃣ Как построить единую нейросетевую модель, работающую на нескольких источниках последовательных данных?
2️⃣ Как получить из модели эмбеддинг клиента по источнику данных?
3️⃣ Почему смешивание моделей на уровне эмбеддингов позволяет повысить итоговое качество?
4️⃣ Какой эффект в задаче кредитного скоринга можно получить с использованием такого подхода?
📺 Лень читать длинные статьи? Смотрите видео-выступление от автора по этой теме на DataFest 2023
💬 А как вы объединяете нейронные сети на различных источниках данных?
#статьи #dl_in_finance
🤔 Источников данных в кредитном скоринге становится все больше, и возникает вопрос: почему бы не попробовать смешивать их не на уровне предсказаний, а на некотором более низком уровне?
🔖 В статье от @nickimpark вы узнаете:
📺 Лень читать длинные статьи? Смотрите видео-выступление от автора по этой теме на DataFest 2023
💬 А как вы объединяете нейронные сети на различных источниках данных?
#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросети для скоринга: хайп или реальный инструмент
Убежден, что вы наслышаны о том, как мы применяем нейронные сети в кредитном скоринге.
🐌 Смотрите DL in Finance, если были в спячке последние три года.
Как обстоят дела в других компаниях?
Пообщались с @NikitaZelinskiy, CDS MTS, и @LetiArti, руководителем корпоративного моделирования ВТБ.
🚀 Спешу поделиться с вами топ-инсайтами:
💪 В корпоративных рисках тоже заходят нейронки.
💪💪💪 В MTS уже во всю применяют графовые нейронки, причем в мульти-таргет режиме.
Хотите узнать больше деталей?
🎙 Слушайте наш подкаст.
P.S. Нашу дискуссию не так было просто закончить, поэтому мы ее остановили.
Ставьте 🐳, если хотите услышать продолжение.
#подкасты #dl_in_finance
Убежден, что вы наслышаны о том, как мы применяем нейронные сети в кредитном скоринге.
Как обстоят дела в других компаниях?
Пообщались с @NikitaZelinskiy, CDS MTS, и @LetiArti, руководителем корпоративного моделирования ВТБ.
💪 В корпоративных рисках тоже заходят нейронки.
💪💪💪 В MTS уже во всю применяют графовые нейронки, причем в мульти-таргет режиме.
Хотите узнать больше деталей?
🎙 Слушайте наш подкаст.
P.S. Нашу дискуссию не так было просто закончить, поэтому мы ее остановили.
Ставьте 🐳, если хотите услышать продолжение.
#подкасты #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
ANNA – сервис для автоматической разработки нейронных сетей
🤖 Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.
😫 Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.
📈 Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.
#статьи #dl_in_finance #автоматизация_ds
🤖 Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.
😫 Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.
📈 Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.
#статьи #dl_in_finance #автоматизация_ds
Конференция Beetech Conf стала идеальным pre-party перед майскими праздниками в Казахстане, в отличной компании и шикарной природой. Гостеприимство в этой стране на особом уровне, которому нам стоит поучиться. Спасибо @BeeTech_meetup, Каспи Банк, @alexdral, @HumanoidRobot, @Rychko
Доклады с конференции выложили в открытый доступ.
Рекомендую посмотреть весь плейлист, в особенности следующих спикеров:
#митап #dl_in_finance #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🤔 Табличные данные являются основной Data Science на практике и присутствуют в абсолютном большинстве задач. Несмотря на прорывы нейросетей в компьютерном зрении и NLP, в табличном домене нейросети показывают слабые результаты, проигрывая классическим моделям градиентного бустинга.
🎬 Смотрите доклад @fullyconnected, где он рассказывает про наше исследование State of the art табличных нейросетей: рассмотрим актуальные тенденции, покажем лучшие найденные техники и дадим практические советы. Дополнительно вы узнаете, как мы первыми в финтехе покрыли табличными нейросетями ряд важных бизнес-задач, принося существенный финансовый эффект и открывая новые горизонты моделирования.
#dl_in_finance #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
🔎 Навигация по каналу Нескучный Data Science
🚀 Нескучный Data Science читают уже больше 10000 человек. В канале уже опубликовано порядка 200 постов и уверен, новичкам сложно ориентироваться в нем, поэтому настало время структуризировать контент.
О чем этот канал?
1️⃣ #карьера - полезные советы по построению и развития карьеры в Data Science.
2️⃣ #статьи, #курсы, #митапы, #соревнования, #видео - образовательные материалы для развития ваших hard-скиллов.
3️⃣ #личный_опыт, #подкасты, #мини_интервью - жизненные опыт меня в текстовом, аудио и видео-форматах.
4️⃣ #mlsysdesign - особенности разработки и внедрения Data Science на практике.
5️⃣ #dl_in_finance - посты про применения нейронных сетей в задачах финтеха.
7️⃣ #nlp - посты про решения задач по обработке естественного языка.
8️⃣ #ML_Lab - про команду Лаборатории машинного обучения.
🤝 Спасибо каждому из вас за подписку, буду стараться делиться с вами и дальше полезным контентом!
💬 Напишите, пожалуйста, в комментариях какого контента вам хотелось бы побольше, какие тематики стоит добавить, а от чего лучше отказаться.
🚀 Нескучный Data Science читают уже больше 10000 человек. В канале уже опубликовано порядка 200 постов и уверен, новичкам сложно ориентироваться в нем, поэтому настало время структуризировать контент.
О чем этот канал?
🤝 Спасибо каждому из вас за подписку, буду стараться делиться с вами и дальше полезным контентом!
💬 Напишите, пожалуйста, в комментариях какого контента вам хотелось бы побольше, какие тематики стоит добавить, а от чего лучше отказаться.
Please open Telegram to view this post
VIEW IN TELEGRAM