Нескучный Data Science
10.5K subscribers
269 photos
12 videos
154 links
Нюансы работы в Data Science, о которых ты не узнаешь в школе
👨‍💻 Head of Machine Learning Laboratory @smirnovevgeny
https://www.linkedin.com/in/smirnov-evgeny/

Регистрации в Роскомнадзор № 5278866657
Download Telegram
Во время презентации первой версии нейронной сети на карточных транзакциях, у продуктовой команды возник один вопрос: «Учитываете ли вы в модели платежи за коммунальные услуги и крупные покупки: автомобили и недвижимость?». Перечисленные типы транзакций в представленную модель не входили, так как клиенты их совершают по расчетному счету, а не по карте. Отличительной особенностью этого типа транзакций является отсутствие их структуризации по mcc. К счастью, это с лихвой компенсируется текстовым полем с назначением платежа. Мы адаптировали наш подход под новый источник данных, модели на этом источнике уже стабильно работают в продакшне более полутора лет, а значит настало время поделиться накопленным опытом. Благо, мне достаточно прикрепить ссылку, ведь @meacca уже рассказал об этом на хабре. https://habr.com/ru/company/alfa/blog/657577/
#статьи #dl_in_finance
Последний штрих про соревнование от Head Hunter
Выпустили статью на habr с подробным описанием решения для тех, кому лень смотреть часовой ролик ⬆️
Подробно рассказали про данные отзывов о работодателях и их предобработку, бейзлайны и особенности файнтюнинга BERTа и конечно же про неудачные эксперименты.

P.S. как же классно, что теперь статьи на хабр необязательно писать самому) Спасибо @edyanakov

#соревнования #статьи
Семантический анализ коллекций текстовых документов

💬 «Это было очень больно читать» - честный отзыв научрука на мою бакалаврскую работу. Так случилось, что на тему «Суммаризация тем в вероятностных тематических моделях» никто не закупает трафик, поэтому вы сможете найти слайды с защиты по первой ссылке в гугле. Спасибо поисковику, что текст диплома не запомнил.

💬 «Это первая статья на Хабр, которую я прочитал от начала и до конца))) Спасибо, Эдик!» - честный отзыв на новую публикацию от Лаборатории на Хабре. В основе статьи лежит все тот же подход, разработанный более шести лет назад. Думаю, теперь этим можно смело поделиться, расскажу подробнее об этой работе.

🤔 Тематические модели на практике чаще всего используются для ответа на вопрос: «Какая информация содержится в этой коллекции документов?». В этом помогает модель, которая получает на вход множество документов, а на выходе выплевывает список тематик, по которому пользователю предлагается составить свое представление о семантике документов. В этот момент остро встает вопрос интерпретации результата.

🤔 Все пакеты тематического моделирования, по умолчанию, предлагают семантический анализ по топ-словам из тематик. Некоторые идут чуть дальше и строят модели на коллокациях. Этого недостаточно, судя по личному опыту. Разработчик и одновременно пользователь может очень сильно упороться переобучиться после пары дней попыток интерпретации результатов и начинать придумывать сложные правила, объединяющие топ-слова в семантические группы. Достаточно обременённые таким опытом, в этой работе мы пошли еще дальше и отобрали топ-предложений из документов для каждой из тематик и накинули поверх алгоритм выделения спектра для повышения репрезентативности результата. Метрика интерпретируемости тематик выросла в дипломной работе, но рабочая задача на этом не закончилась.

👨‍💼 «Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения» - название статьи точно передает бизнес-задачу. Сначала дата сайентист применял алгоритм тематической суммаризации самостоятельно в jupyter-ноутбуке. После пары десятков однотипных задач, его терпению пришел конец. Он написал сервис и научил аналитика им пользоваться. В результате, оба стали выполнять более интересную работу: аналитик – начал проводить семантический анализ в вэб-сервисе вместо чтения отзывов в эксельке, дата сайенстист - улучшать мозги сервиса. Так, например, недавно в сервис заехал BertTopic, который помог лучше с текстами, содержащими опечатки.

📈 Новые задачи по семантическому анализу текстов стали приводть к нам новых пользователей в сервис. Наш проект позволил избавится от рутины Альфе, ускорил поиск инсайтов и 🚀 попал в топ лучших проектов за 2021 год. Подробнее читайте на Хабре.

P.S. на Хабре все-таки есть ссылка на текст дипломной работы 😩

#статьи #nlp
Популяризация нейронных сетей среди риск-менеджеров

🗣 Лаборатория активно рассказывает в паблике про применение нейронных сетей в кредитном скоринге DS-сообществу: три публикации на хабре, три соревнования, порядка десяти видео с выступлениями на онлайн и офлайн конференциях.
👀 Наша работа не осталась незамеченной в смежном сообществе и с нами связался редактор журнала «Риск-менеджмент в кредитной организации». Скорее всего, вы тоже об этом издании раньше не слышали, тем не менее, его читали и хорошо отзывались все моих коллеги, построившие успешную карьеру в этой области.
🤔 Недостаточно убедительно? 🌟 Александр Дъяконов (@smalldatascience) входит в экспертный совет журнала и публикуется в нем. Теперь достаточно?)

✔️ Мы уже показали риск-менеджерам и топ-менеджерам в 🅰️-Банке повышении эффектности и сохранении стабильности при использовании нейронных сетей в кредитном скоринге на ретро данных. Затем, внедрили решения в продакшн и подтвердили практическим результатом на протяжении нескольких лет.
🙏 Верим, что шеринг опыта, поможет дата сайентистам в других компаниях пройти наш путь быстрее и простимулирует развитие новых подходов в этой консервативной области. В ближайшее время предпринимаем следующие шаги:
✍️ Выпустим статью «Нейросетевой подход к кредитному скорингу на последовательных данных» в журнале «Риск-менеджмент в кредитной организации». Она вас будет ждать в комментариях к этому посту после выхода.
🗣 Выступим на профильной конференции Scoring Day 29 сентября «Нейронные сети в кредитном скоринге: выгоды внедрения и особенности реализации. Ноу-хау Альфа банка по борьбе со смещением распределения». Возможно участие как в офлайн, так и в онлайн форматах.
✍️ Опубликовали интервью по теме «Эволюция моделей в кредитном скоринге, или Зачем нужны нейронные сети в этой консервативной области?» на futurebanking.ru в качестве анонса к выступлению.

👊 Поделитесь информацией со знакомыми риск-менеджерами и топ-менеджерами в банках. Надеюсь, эти активности помогут в развитии нейронных сетей в кредитном скоринге и, в частности, в ваших командах.

#статьи #dl_in_finance
Как правильно выбирать место работы?

🍿 Дорога на первое место работы в Тинькофф была физическим испытанием в тесной маршрутке и переполненном метро. Нередко приходилось в поту догонять уходящий микроавтобус, но уровень дохода ее водителя, указанный на рекламном плакате, так и не удалось за первый год работы. Московский метрополитен подливал масла в огонь и вовсе предлагал всем желающим пройти альтернативные курсы по машинному обучению с гарантированным доходом в баснословные сто тысяч рублей.
🤔 Неужели автор поста не знал, что можно пройти собеседование в другую компанию с рыночной зарплатой?

🤦 К сожалению, сейчас нередко всё, кроме размера вашей зарплаты считается полным булшитом и публично высмеивается.
🤔 Однако, компенсация вашего труда складывается из опыта выполнения релевантных для рынка проектов, навыков, полученных от ваших менторов, ценностей, повышающих вашу продуктивность, конечно, зарплаты и комфортных бытовых условий труда.

👇Продолжение

Ставь 👍, если формат telegraph-статьи удобнее четырех отдельных постов.
#карьера

#статьи #карьера
Десять важных вопросов перед трудоустройством в Data Science

Собеседование в компании, где будет вам честью поработать бесплатно, может отнимать до пяти часов вашего времени. Вас попросят порешать гномиков и другие задачи во время интервью, а после него вы скорее всего будете заниматься менее интеллектуальным трудом и ботать гномиков к следующему собесу, посматривая в сторону леса вакансий.

Как определить будет ли ваша работа нескучным Data Science? Очень просто, нужно всего лишь очень подробно опросить своего будущего работодателя и поискать о нем информацию в сети. Никогда на это не жалейте времени, например, в последний раз лично потратил на это мероприятие четыре месяца.

Подготовил для вас десять важных вопросов, ответы на которые обязательно нужно знать до трудоустройства на новое место работы. Простым перечислением статья не ограничивается — подробно аргументирую, почему считаю ответ на каждый из вопросов обязательным до принятия решения. Не остался в стороне и рассказал, как обстоят дела в Лаборатории.

💬 А какие вопросы вы задаете работодателю перед трудоустройством?

🙏 Прочитав статью, вы надеюсь поймете, что для автора значит "Нескучный Data Science" и, наконец, почему этот канал называется именно так. Однако, не переживайте, в одном из будущих юбилейных постов дам более явное объяснение.

Если вы в поиске места работа, то желаю вам найти свой "Нескучный Data Science Jobs". Если вы в поисках команды, то приложите все усилия, чтобы создать его.

#статьи #карьера
Как стать Kaggle competition master?

🤔 Хотите стать Kaggle Master, но не знаете с чего начать?
Начните со статьи @oasidorshin, который уже успешно прошел этот путь.

Потратьте 14 минут вашего драгоценного времени, и вы узнаете:

⁃ Зачем нужно участвовать в соревнованиях, особенно если ищите работу в индустрии?
⁃ Сколько времени занял путь автора до заветного титула?
⁃ Как правильно валидироваться и подняться на 400+ мест на private leaderboard?
⁃ Как побеждать в соревнование без серьезных инвестиций в железо?
⁃ Какие методы ансамблирования заходят?

🧐 Не хотите становиться Kaggle Master?
Все равно прочтите статью и узнаете:

⁃ Как анализ данных помогает питомникам животных найти хозяев?
⁃ Какой пайплайн зашел в задаче регрессии на данных изображений?
⁃ Как трансформеры можно использовать в задачах компьютерного зрения?

🎯 Мы стараемся привлекать первоклассных игроков в Лабораторию, ведь они так любят работать вместе с другими первоклассными игроками.
🙏 Очень рады, что автор статьи из всех вариантов выбрал стажировку именно у нас. Как вы могли догадаться, он станет постоянным членом нашей команды в ближайшее время.

💬 Задавайте ваши вопросы автору статьи в комментариях и плюсуйте его достижение 💪 на habr.

#статьи #карьера #соревнования
🧑‍🎓 Довольно просто объяснить студентам как работает анализ данных, ведь они уже сдали экзамены по статистике, матану и проге. Особенно продвинутым анализ данных может показаться даже недонаукой.

💸 В разговоре с бизнесом уже гораздо тщательнее приходится подбирать слова и аналогии чтобы убеждать в потенциальной пользе Data Science. К счастью, у большинства из них есть мотивация оптимизировать свои процессы, зашитая в KPI.

👩‍👦 Но как рассказать подробно про анализ данных маме? Как рассказать об этом тем, кто не обладает нужным техническим бэкграундом или его мотивация разобраться не зашита в KPI?

👎 Сказать, что вы айтишник - удел слабых.
💪 Выпустить статью на РБК - удел мудрых.
💪💪💪 Сняться в кринжовом сериале Data Sapiens - удел отважных.

В этом раз выбран путь мудрых. Читайте в РБК "Скоринг за секунды: как нейросети изменили выдачу кредитов".

💬 Как вы рассказываете маме про вашу работу?

#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
Как повысить качество модели кредитного скоринга, не добавляя новые источники данных?

🤔 Источников данных в кредитном скоринге становится все больше, и возникает вопрос: почему бы не попробовать смешивать их не на уровне предсказаний, а на некотором более низком уровне?

🔖 В статье от @nickimpark вы узнаете:

1️⃣ Как построить единую нейросетевую модель, работающую на нескольких источниках последовательных данных?
2️⃣ Как получить из модели эмбеддинг клиента по источнику данных?
3️⃣ Почему смешивание моделей на уровне эмбеддингов позволяет повысить итоговое качество?
4️⃣ Какой эффект в задаче кредитного скоринга можно получить с использованием такого подхода?

📺 Лень читать длинные статьи? Смотрите видео-выступление от автора по этой теме на DataFest 2023

💬 А как вы объединяете нейронные сети на различных источниках данных?

#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
#️⃣1️⃣ Первая научная статья от Альфа-Банка родилась в Лаборатории

🏆 Этой весной ребята из нашей команды победили в соревновании Data Fusion, забрав себе 325 000р.

📝 А сейчас, скооперировавшись со Сколтехом, Иннотехом и ВТБ стали соавторами научной статьи, посвященной анализу adversarial атак и защиты банковских моделей. Работа была сделана на основе проведенного соревнования, новый формат которого позволил раскопать большое количество интересных инсайтов.

🔬 В подготовке статьи мы приняли очень активное участие - распланировали и провели множество экспериментов, готовили модели и датасеты, ревьюили и улучшали текст.

Мы уже подались на топовую конференцию и ждем процедуры ревью, а до публикации вы можете прочитать статью на архиве.

В статье вы найдете:
⚔️ Как слитую нейронку можно полностью "убить" заменой нескольких транзакций
🛡 Как защищаться от подобных сценариев и сделать модели более устойчивыми от любых подозрительных транзакций
🏅 Как МЛ соревнования позволяют эффективно найти самые сильные подходы и протестировать их в реальных условиях

Благодарим всех коллег за предоставленную возможность и успешную кооперацию, и будем рады будущим совместным проектам)

🙏 Отдельное спасибо @fullyconnected, что залидировал эту активность с нашей стороны.

Ставьте 🔥, если хотите больше научных статей от нашей команды.

P.S. на хабр писать не бросим)

#статьи #соревнования
Please open Telegram to view this post
VIEW IN TELEGRAM
Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

🤔 Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.

Лаборатория уже начала бороться с рутиной во внутренних процессах Data Science Альфа-Банка, а сейчас постараемся увлечь за собой и вас:

👨‍🏫 Сначала погрузимся в причину возникновения рутины, рассмотрев как видят индустрию пользователи, бизнес и дата сайентисты.
💪 Далее, разберем пять процессов, в которых мы побеждаем рутину внутри Data Science Альфа-Банка.
📈 Напоследок поговорим как трансформируется область, какие новые вызовы это готовит для бизнеса и, главное, как с ними справиться.

🤞 Буду счастлив, если наш опыт поможет сделать работу дата сайентистов более эффективной, что в свою очередь позволит повысить эффективность бизнес-процессов в компаниях за счет повышения доли принимаемых решений на основе данных.

#статьи #автоматизация_ds
ANNA – сервис для автоматической разработки нейронных сетей

🤖 Нейросетевые модели уже несколько лет успешно применяются в Альфа-Банке для решения ключевых задач, таких как кредитный скоринг, прогнозирование склонности клиентов к продуктам и определение оттока. Модели глубокого обучения демонстрируют высокое качество и стабильно улучшают метрики при добавлении к традиционным бустинговым моделям, что приносит Банку сотни миллионов рублей ежегодно.

😫 Однако со временем процесс переобучения моделей под новые целевые переменные становится рутиной: используемые архитектуры почти не меняются, данные собираются по стандартным алгоритмам, по стандартным же алгоритмам обучаются модели и внедряются в продакшен.

📈 Как продолжать успешно внедрять нейросетевые модели в основные бизнес-задачи, не тратя время на неэффективные рутинные процессы – в нашей новой статье.

#статьи #dl_in_finance #автоматизация_ds