NoML Digest
1.98K subscribers
76 photos
1 video
2 files
629 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Сегодня в CH немного затронули тему RL (а точнее Q-learning) для выбора оптимальных маркетинговых коммуникаций, по этому поводу апну статью коллег
https://habr.com/ru/company/glowbyte/blog/514514/
А для тех, кто хочет погрузиться в продвинутые темы A/B тестирования, еще раз рекомендуем интенсив коллег из EXPF: https://expf.ru/ab_course, ближайший старт в начале июня.
На следующей неделе приказано отдыхать, поэтому проведем оффтоп мероприятие: Not Only ML и Not Only Work=)

Поговорим про наши спортивные увлечения: велоспорт, бег и триатлон, и в целом про корпоративный любительский спорт.
Пока призвал на дискуссию коллег из Яндекса, Мегафона, Банка Открытие и GlowByte. Поделимся опытом о том, как устроена поддержка любительского спорта в разных компаниях и зачем все это надо. Обсудим наши спортивные планы на этот год и запланируем встретиться на соревнованиях!

Дискуссия состоится в голосовом чате Telegram во вторник, 4 мая, в 21:00 по Москве.

Основных спикеров и модераторов напишу чуть позже. Если вам тоже есть чем поделиться про устройство корпоративного любительского спорта в вашей организации, пишите и приходите!
Небольшая подборка статей про анализ данных в велоспорте (и беге)
- Пример как поанализировать свои данные Strava, с кодом на питоне
- Пост про попытки построения моделей предсказывающих беговые PR/PB по данным Strava, правда без кода
- История о том, как в профессиональной велокоманде Qhubeka Assos (экс NTT, экс Dimension Data) используют AI/ML (как Moneyball только Moneywheel=))
- И про еще один Moneywheel
- А тут кто-то предсказывает с помощью LSTM пульс велосипедистов во время интервальных тренировок
- И статья про байкфит (настройка посадки на велосипеде), а именно про субъективность экспертов-байкфиттеров и необходимость анализа данных в байкфите
Напоминаем, что завтра, 4 мая, в 21:00 по Москве у нас not-only-work мероприятие про корпоративный спорт, на котором поделимся опытом о своих спортивных увлечениях и о том, как устроена поддержка любительского спорта в разных организациях.

Во-первых, ссылка на голосовой чат.

Во-вторых, наши активные спикеры
- Алёна Дробышевская, Яндекс, бегунья полумарафонов и марафонов
- Руслан Искяндяров, Московская Биржа, лидер бегового клуба
- Кантемир Кармоков, Мегафон, велосипедист-триатлет-непловец
- Олег Семеко, Сбербанк, велогонщик
- Евгений Степанов, Банк Открытие, начинающий велосипедист-горняк и триатлонец

Модерировать будет
Павел Снурницын, GlowByte Consulting, велосипедист тяжеловес и спортивный затейник

Ставьте напоминания в календари и присоединяйтесь к дискуссии!
Во вторник, 11 мая, в 21:00 по Москве поговорим про задачи продвинутой аналитики и моделирования в кредитных, операционных и в целом финансовых рисках.

Обсудим применение DS/ML в таких бизнес задачах как
- Кредитный скоринг;
- Расчет достаточности капитала;
- Антифрод (противодействие мошенничеству);
- AML (противодействие отмыванию денег).

Область моделирования финансовых рисков не ограничивается применением в банках и кредитных организациях, разберем также кросс-индустриальные кейсы применения из промышленности, ритейла и телекома.

Помимо перечисленных бизнес задач обсудим также следующие темы:
- Важность процессов валидации моделей и вообще особенности управления жизненным циклом моделей в области финансовых рисков;
- Тренды и вызовы такие как: графовая аналитика, интерпретируемость сложных моделей, переход от аналитических предиктивных моделей к оптимизационным задачам;
- Карьера специалиста по анализу данных в области моделирования финансовых рисков, почему это интересно и какие навыки и знания необходимы.

В дискуссии участвуют
- Евгений Степанов, Банк Открытие, Управляющий директор в департаменте анализа розничных рисков;
- Александр Бородин, GlowByte Advanced Analytics, Руководитель направления моделирования финансовых рисков.

Встречаемся в голосовом чате в телеграм (от CH пока решили отказаться).
Небольшой список рекомендуемой литературы по теме моделирования кредитных рисков

1️⃣ Хорошее введение в тему оценки кредитных рисков и построения скоринговых моделей:
Bart Baesens, Daniel Roesch, Harald Scheule. Credit Risk Analytics (2016).
В книге примеры даны на SAS, но есть дополнение на R:
Credit Risk Analytics: The R Companion

2️⃣ Более глубокое погружение в тему оценки ожидаемых кредитных убытков:
Bellini Tiziano. IFRS 9 and CECL Credit Risk Modelling and Validation (2019).

3️⃣ А также более глубокое погружение в тему стресс-тестирования:
Bellini Tiziano. Stress Testing and Risk Integration in Banks (2016).
Цикл статей про моделирование компонент кредитного риска от коллег из GlowByte Advanced Analytics:

1) Введение
2) Компоненты PD, LGD, EAD
3) EAD или деньги в дефолте
4) LGD или жизнь после дефолта
Во вторник, 18 мая, в 21:00 МСК поговорим не только про BI=)

В приложениях на базе ML и продвинутой аналитики важной составляющей является визуализация и интерактивный анализ результатов на стороне бизнес пользователей этих приложений. Эта задача может решаться средствами BI инструментов, но иногда функционала классических дашбордов может оказаться недостаточно, особенно если речь идет про интерактивные перерасчеты с новыми параметрами, сценарный анализ и совсем нестандартные принципы визуализации.

В нашей экспертной комнате поговорим о том, как такие инструменты как R Shiny и Dash/plotly позволяют достаточно быстро и просто строить интерактивные аналитические приложения, которые раскрывают всю мощь продвинутой аналитики данных и машинного обучения перед бизнес пользователям.

На примерах индустриальных кейсов возникающих в банках, страховых компаниях, ритейле и промышленности разберем когда можно и нужно использовать BI, а когда лучше посмотреть в сторону аналитических приложений на R Shiny и/или Dash.

В дискуссии участвуют
- Андрей Макеев, Бизнес архитектор по аналитике, Комус;
- Александр Собенников, Руководитель направления прогнозной аналитики и оптимизации в промышленности, GlowByte Advanced Analytics;
- Андрей Иванов, Руководитель направления Supply Chain Intelligence, GlowByte Advanced Analytics.

Встречаемся в голосовом чате в Telegram.
Небольшая подборка статей из блога компании Appsilon по теме завтрашней экспертной комнаты:

Почему R Shiny
Dash vs Shiny
PowerBI vs Shiny
Tableau vs Shiny
Статья про R Shiny 2018 года, если оставить за скобками недостатки предыдущих версий R Shiny и утверждение, что для Python нет аналогов, то достаточно актуально

Насколько open-source экосистема R хороша для решения бизнес-задач?
И еще в тему, 26 мая планируется вебинар от RStudio на тему реализации отчетности средствами R: Rethink Reporting with Automation.
И напоследок, прежде чем перейдем к следующей теме, несколько туториалов по Python Dash:
1️⃣ Develop Data Visualization Interfaces in Python With Dash
2️⃣ How to Build a Reporting Dashboard using Dash and Plotly
3️⃣ Introducing JupyterDash
Во вторник, 25 мая, в 21:00 МСК встречаемся в войс чате в Telegram обсуждать продвинутую графовую аналитику 🚀🚀🚀.

В качестве интро позволю себе процитировать наш старый пост:
Графовая аналитика - это набор методов, которые ориентированы на анализ структуры связей между сущностями, а не на свойства сущностей. Примеры графов: связи между людьми в социальных сетях, связи банковских счетов через проходящие по ним переводы, структура владения группы компаний.

Методами графовой аналитики мы анализируем структуру связей и выявляем неочевидные связи.

В задачах машинного обучения графовая аналитика прежде всего позволяет строить более сильные предикторы — переменные, которые описывают окрестности интересующей нас сущности. Например мы можем получить ответы на вопросы: «Как влияет на кредитный рейтинг компании рейтинг её контрагентов или контрагентов контрагентов или в принципе всей цепочки поставок?».

Благодаря методам графовой аналитики мы можем ограничиваться не только прямыми связями, но и окрестностями по связям различной длины.


В повестке экспертной комнаты:
🔹Что дает взгляд на бизнес задачи через призму графовой парадигмы?
🔹Зачем нужны специализированные графовые движки, такие как Neo4j или ArangoDB?
🔹Что и когда работает лучше: бизнес правила на интерпретируемых графовых атрибутах или нейросети на графах?

Эксперты-спикеры:
😎 Юлия Чехлова, ВТБ
😎 Владимир Дашковский, Газпромбанк
😎 Евгений Вилков, GlowByte
(список пока не окночательный, возможно кто-то еще присоединится)

Модератор:
🧐 Наталья Тоганова, GlowByte Advanced Analytics
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята привет,
Майские "не рабочие" закончились и мы снова начинаем организовывать доклады по DataScience тематикам 👍 Скоро будет анонс 🥳
А пока можете ознакомиться с видео последних докладов:

Сергей Лавриков - Трэкинг экспериментов в MLFlow
Обсудили:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Александр Пономаренко - Поиск перекрывающихся кластеров на графах
На докладе обсуждали метод поиска перекрывающихся кластеров в графе (Link Partitioning Around Mediods) https://arxiv.org/abs/1907.08731, https://github.com/aponom84/lpam-clustering
Суть метода: кластеризуются рёбра, а не вершины. Мы считаем, что вершина принадлежит нескольким сообществам, если она смежна с рёбрами из разных кластеров. Для кластеризации рёбер строится линейный графа, и на нём решается задача о p-медианах (facility location problem). Мы изучили как работает этот метод главным образом с двумя функциями расстояния: commute distance и с одиним из вариантов её коррекции – amplified commute distance.
Одно из преимущество метода – интуитивно понятный результат. Рёбра группируются вокруг некоторых центров.

Антон Костин - Философия на графах
Разбирали блокнот с кодом построения графа поверх текстовых эмбеддингов (fasttext).
На примере Louvain посмотрим, как алгоритмы модульности находят философские школы.
В задаче Link Prediction подумаем над неочевидными связями между разными школами и философами.
А также обсудим, будут ли студенты ВУЗов делать домашку по философии с использованием NLP
и дискретной математики (спойлер: на Физтехе уже начали)? Рассказывает преподаватель философии.
Ноутбуки и данные доступы на каггле:
https://www.kaggle.com/visualcomments/philosophy-ru-large

Курс Knowledge Graphs - Обсуждение Лекции 6 часть 2
Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича)

@sberloga