NoML Digest
1.89K subscribers
76 photos
1 video
2 files
610 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
Напоминаем, что завтра, 4 мая, в 21:00 по Москве у нас not-only-work мероприятие про корпоративный спорт, на котором поделимся опытом о своих спортивных увлечениях и о том, как устроена поддержка любительского спорта в разных организациях.

Во-первых, ссылка на голосовой чат.

Во-вторых, наши активные спикеры
- Алёна Дробышевская, Яндекс, бегунья полумарафонов и марафонов
- Руслан Искяндяров, Московская Биржа, лидер бегового клуба
- Кантемир Кармоков, Мегафон, велосипедист-триатлет-непловец
- Олег Семеко, Сбербанк, велогонщик
- Евгений Степанов, Банк Открытие, начинающий велосипедист-горняк и триатлонец

Модерировать будет
Павел Снурницын, GlowByte Consulting, велосипедист тяжеловес и спортивный затейник

Ставьте напоминания в календари и присоединяйтесь к дискуссии!
Во вторник, 11 мая, в 21:00 по Москве поговорим про задачи продвинутой аналитики и моделирования в кредитных, операционных и в целом финансовых рисках.

Обсудим применение DS/ML в таких бизнес задачах как
- Кредитный скоринг;
- Расчет достаточности капитала;
- Антифрод (противодействие мошенничеству);
- AML (противодействие отмыванию денег).

Область моделирования финансовых рисков не ограничивается применением в банках и кредитных организациях, разберем также кросс-индустриальные кейсы применения из промышленности, ритейла и телекома.

Помимо перечисленных бизнес задач обсудим также следующие темы:
- Важность процессов валидации моделей и вообще особенности управления жизненным циклом моделей в области финансовых рисков;
- Тренды и вызовы такие как: графовая аналитика, интерпретируемость сложных моделей, переход от аналитических предиктивных моделей к оптимизационным задачам;
- Карьера специалиста по анализу данных в области моделирования финансовых рисков, почему это интересно и какие навыки и знания необходимы.

В дискуссии участвуют
- Евгений Степанов, Банк Открытие, Управляющий директор в департаменте анализа розничных рисков;
- Александр Бородин, GlowByte Advanced Analytics, Руководитель направления моделирования финансовых рисков.

Встречаемся в голосовом чате в телеграм (от CH пока решили отказаться).
Небольшой список рекомендуемой литературы по теме моделирования кредитных рисков

1️⃣ Хорошее введение в тему оценки кредитных рисков и построения скоринговых моделей:
Bart Baesens, Daniel Roesch, Harald Scheule. Credit Risk Analytics (2016).
В книге примеры даны на SAS, но есть дополнение на R:
Credit Risk Analytics: The R Companion

2️⃣ Более глубокое погружение в тему оценки ожидаемых кредитных убытков:
Bellini Tiziano. IFRS 9 and CECL Credit Risk Modelling and Validation (2019).

3️⃣ А также более глубокое погружение в тему стресс-тестирования:
Bellini Tiziano. Stress Testing and Risk Integration in Banks (2016).
Цикл статей про моделирование компонент кредитного риска от коллег из GlowByte Advanced Analytics:

1) Введение
2) Компоненты PD, LGD, EAD
3) EAD или деньги в дефолте
4) LGD или жизнь после дефолта
Во вторник, 18 мая, в 21:00 МСК поговорим не только про BI=)

В приложениях на базе ML и продвинутой аналитики важной составляющей является визуализация и интерактивный анализ результатов на стороне бизнес пользователей этих приложений. Эта задача может решаться средствами BI инструментов, но иногда функционала классических дашбордов может оказаться недостаточно, особенно если речь идет про интерактивные перерасчеты с новыми параметрами, сценарный анализ и совсем нестандартные принципы визуализации.

В нашей экспертной комнате поговорим о том, как такие инструменты как R Shiny и Dash/plotly позволяют достаточно быстро и просто строить интерактивные аналитические приложения, которые раскрывают всю мощь продвинутой аналитики данных и машинного обучения перед бизнес пользователям.

На примерах индустриальных кейсов возникающих в банках, страховых компаниях, ритейле и промышленности разберем когда можно и нужно использовать BI, а когда лучше посмотреть в сторону аналитических приложений на R Shiny и/или Dash.

В дискуссии участвуют
- Андрей Макеев, Бизнес архитектор по аналитике, Комус;
- Александр Собенников, Руководитель направления прогнозной аналитики и оптимизации в промышленности, GlowByte Advanced Analytics;
- Андрей Иванов, Руководитель направления Supply Chain Intelligence, GlowByte Advanced Analytics.

Встречаемся в голосовом чате в Telegram.
Небольшая подборка статей из блога компании Appsilon по теме завтрашней экспертной комнаты:

Почему R Shiny
Dash vs Shiny
PowerBI vs Shiny
Tableau vs Shiny
Статья про R Shiny 2018 года, если оставить за скобками недостатки предыдущих версий R Shiny и утверждение, что для Python нет аналогов, то достаточно актуально

Насколько open-source экосистема R хороша для решения бизнес-задач?
И еще в тему, 26 мая планируется вебинар от RStudio на тему реализации отчетности средствами R: Rethink Reporting with Automation.
И напоследок, прежде чем перейдем к следующей теме, несколько туториалов по Python Dash:
1️⃣ Develop Data Visualization Interfaces in Python With Dash
2️⃣ How to Build a Reporting Dashboard using Dash and Plotly
3️⃣ Introducing JupyterDash
Во вторник, 25 мая, в 21:00 МСК встречаемся в войс чате в Telegram обсуждать продвинутую графовую аналитику 🚀🚀🚀.

В качестве интро позволю себе процитировать наш старый пост:
Графовая аналитика - это набор методов, которые ориентированы на анализ структуры связей между сущностями, а не на свойства сущностей. Примеры графов: связи между людьми в социальных сетях, связи банковских счетов через проходящие по ним переводы, структура владения группы компаний.

Методами графовой аналитики мы анализируем структуру связей и выявляем неочевидные связи.

В задачах машинного обучения графовая аналитика прежде всего позволяет строить более сильные предикторы — переменные, которые описывают окрестности интересующей нас сущности. Например мы можем получить ответы на вопросы: «Как влияет на кредитный рейтинг компании рейтинг её контрагентов или контрагентов контрагентов или в принципе всей цепочки поставок?».

Благодаря методам графовой аналитики мы можем ограничиваться не только прямыми связями, но и окрестностями по связям различной длины.


В повестке экспертной комнаты:
🔹Что дает взгляд на бизнес задачи через призму графовой парадигмы?
🔹Зачем нужны специализированные графовые движки, такие как Neo4j или ArangoDB?
🔹Что и когда работает лучше: бизнес правила на интерпретируемых графовых атрибутах или нейросети на графах?

Эксперты-спикеры:
😎 Юлия Чехлова, ВТБ
😎 Владимир Дашковский, Газпромбанк
😎 Евгений Вилков, GlowByte
(список пока не окночательный, возможно кто-то еще присоединится)

Модератор:
🧐 Наталья Тоганова, GlowByte Advanced Analytics
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята привет,
Майские "не рабочие" закончились и мы снова начинаем организовывать доклады по DataScience тематикам 👍 Скоро будет анонс 🥳
А пока можете ознакомиться с видео последних докладов:

Сергей Лавриков - Трэкинг экспериментов в MLFlow
Обсудили:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Александр Пономаренко - Поиск перекрывающихся кластеров на графах
На докладе обсуждали метод поиска перекрывающихся кластеров в графе (Link Partitioning Around Mediods) https://arxiv.org/abs/1907.08731, https://github.com/aponom84/lpam-clustering
Суть метода: кластеризуются рёбра, а не вершины. Мы считаем, что вершина принадлежит нескольким сообществам, если она смежна с рёбрами из разных кластеров. Для кластеризации рёбер строится линейный графа, и на нём решается задача о p-медианах (facility location problem). Мы изучили как работает этот метод главным образом с двумя функциями расстояния: commute distance и с одиним из вариантов её коррекции – amplified commute distance.
Одно из преимущество метода – интуитивно понятный результат. Рёбра группируются вокруг некоторых центров.

Антон Костин - Философия на графах
Разбирали блокнот с кодом построения графа поверх текстовых эмбеддингов (fasttext).
На примере Louvain посмотрим, как алгоритмы модульности находят философские школы.
В задаче Link Prediction подумаем над неочевидными связями между разными школами и философами.
А также обсудим, будут ли студенты ВУЗов делать домашку по философии с использованием NLP
и дискретной математики (спойлер: на Физтехе уже начали)? Рассказывает преподаватель философии.
Ноутбуки и данные доступы на каггле:
https://www.kaggle.com/visualcomments/philosophy-ru-large

Курс Knowledge Graphs - Обсуждение Лекции 6 часть 2
Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича)

@sberloga
Небольшая подборка бизнес кейсов использования графовой аналитики. Список не полный, вошло только то, с чем сами хоть как-то сталкивались. Материалы подобраны простые и не технические, с целью просто дать намек, в чем суть применения графовой аналитики в этих бизнес задачах.

В качестве введения, почему надо преклоняться перед графовой аналитикой: Top 5 Graph Analytics Takeaways from Gartner’s Data & Analytics Summit =)

Бизнес кейсы:
1️⃣ Анти-фрод
2️⃣ Противодействие отмыванию денег
3️⃣ Real-time рекомендательные системы
4️⃣ Профиль клиента 360
5️⃣ Логистика
6️⃣ Анализ ведомости материалов
7️⃣ Графы атак в кибербезопасности
8️⃣ Data Governance & Data Lineage
9️⃣ Анализ ИТ инфраструктуры

Делитесь бизнес задачами, с которыми вы сталкивались и считаете интересными, и приходите завтра на обсуждение!


P.S.: И еще один интересный кейс, но к своему удивлению не нашел нормального текста на эту тему: применение графовой аналитики для анализа клиентских путей (Customer Journey Analytics), по этой теме есть запись вебинара Neo4j.

P.P.S.: А еще много графовых задач есть в такой области как Process Mining, но про это когда нибудь потом...
Сегодня небольшая вводная подборка про технологии графовой аналитики.

Во-первых, в качестве ответа на вопрос “зачем вообще нужны специальные графовые движки”, пример расчета центральности на NetworkX и Neo4j.

Во-вторых, немного про сравнение различных графовых БД:
Comparing Graph Databases
Part I TigerGraph, Neo4j, Amazon Neptune
Part II ArangoDB, OrientDB, AnzoGraph

В-третьих, пара практических примеров
Neo4j Graph Data Science Library
Spark GraphFrames (будьте внимательны, немного старая статья)

И в-четвертых, есть книга Needham M., Hodler A., Graph Algorithms: Practical Examples in Apache Spark and Neo4j, 2020, O’Reilly, в которой подробно описаны и Neo4j и Spark GraphX.
Сегодня небольшая подборка про графы знаний:
🔸 Кратко: Knowledge Graphs: The Third Era of Computing (есть перевод)
🔸 Подробно, от введения в графы и до приложений таких, как концепция Data Fabric в управлении данными, можно почитать в отчёте O’Reily The Rise of the Knowledge Graph (правда нужен аккаунт)
🔸 Еще есть свежая книга по теме, сам пока не читал, но выглядит интересно: Kejriwal M., Knoblock C.A., Szekely P., Knowledge Graphs: Fundamentals, Techniques, and Applications

И в качестве перехода к нашей следующей теме, пара кейсов про графы знаний и чат-боты:
🔹 Knowledge Graphs For Successful Customer Service Automation
🔹 Knowledge Graph-based ChatBot
Во вторник, 1 июня, в 21:00 МСК встречаемся в голосовом чате в Telegram и обсуждаем последние тренды в области голосовых технологий и решений.

Поговорим про задачи в анализе и синтезе речи вообще и про возможности и последние достижения сервиса Yandex SpeechKit.

Эксперты-спикеры:
😎 Игорь Куралёнок, Руководитель подразделения AI&ML, Яндекс.Облако
😎Павел Егоров, Руководитель направления Deep Learning, GlowByte Advanced Analytics
Кстати, в ближайший понедельник, 31 мая будет митап about:cloud, на котором тоже будет про SpeechKit. Регистрация еще открыта.
А еще в следующий четверг, 3 июня у нас планируется вебинар про НЛП в СХ. И речь пойдет не про НейроЛингвистическое Программирование в Сельском Хозяйстве, как вы подумали, а про Natural Language Processing в Customer eXperience)