Reliable ML

Митап DataPeople

Для управления жизненным циклом любого продукта полезно понимать риски, возникающие на каждом этапе его развития - чтобы вырабатывать меры по митигации этих рисков. Не менее полезно думать и о глобальных рисках внедрения продвинутой аналитики и управлять ими.

В дальнейшем в нашем канале планируем об этом серию постов.

А пока можно посмотреть материалы офлайн-митапа DataPeople, который прошел 12 апреля. Вот тут можно посмотреть запись трансляции и видеоотчет.

Темы, которые обсуждались на митапе:

- инструменты импортозамещения в Marketing Management и в направлении Risk Management & Compliance;
- система принятия решений для управления данными и мониторинга ML-моделей (разработка kolmogorov.ai).

👍5

1.3K viewsedited 14:18

Reliable ML

Causal Inference как ключ к балансу классического ML и эконометрики

На мой взгляд, который озвучивала еще в 2019 г., data science можно определить через сближение дисциплин эконометрики и машинного обучения.

Основой моделирования для классического машинного обучения является качество прогноза. Вопросы интерпретируемости модели при этом вторичны. В начале развития ML стремление к интерпретируемости модели воспринималось, скорее, негативно – как упрощение модели в жертву способности ее интерпретировать.

Эконометрика – статистическая наука, основой которой является интерпретируемость. При этом во время становления дисциплины машинного обучения, когда в моду вошли слова data mining, эконометристы воспринимали их также с негативным окрасом. Те, кто занимаются data mining, добиваются роста метрик качества, используя любые преобразования данных, отодвигая на второе место логику модели – то, как она в реальном мире будет принимать решения/выдавать результат.

При этом постепенно происходило сближение этих дисциплин в науку о данных – data science. Можно обозначить ее как гармонию принципов классического ML и эконометрики. Интерпретируемость здесь трактуется как необходимость принятия моделей бизнесом, но она не должна быть абсолютной и не должна снижать качество прогноза.

В 2021 г. вышла статья Judea Pearl с более глубокой проработкой идеи роли Causal Inference в ML. В ней автор определяет data science как объединение дисциплины машинного обучения как школы радикального эмпиризма (когда только данные генерируют модель реальности) и эконометрики как школы интерпретации данных (когда модель процессов/реальности генерирует данные). Методы causal inference в данном случае выступают ключом к балансу эмпиризма и интерпретируемости в DS.

Этот баланс достигается с помощью трех ключевых принципов:

- Целесообразности. Модели реальности и Causal Inference помогают ускорить эволюцию ML-моделей. Так при резком появлении в нашей жизни COVID-19 отсутствие фактических исторических данных не дало бы возможность строить модели машинного обучения с прогнозами развития и принимать какие-либо решения. Развитию моделей помогли теоретические модели о принципах развития пандемии, которые объединялись с доступными историческими данными. Таким образом, модели быстро эволюционировали.

- Прозрачности. Использование инструментов и принципов причинно-следственного анализа критически полезно для управления процессами исследования и интерпретации данных.

- Объяснимости. Модель должна быть полезна конечному пользователю.

#business #causal_inference

👍6❤3🔥2

1.49K viewsedited 08:57

Reliable ML

#business #causal_inference

👍10

1.53K viewsedited 08:58

Reliable ML

Data Fest 3.0 - Reliable ML - Call for presentations

В этом году - 4 июня 2022 г. - состоится Data Fest 3.0 - крупнейшая конференция крупнейшего русскоязычного сообщества Open Data Science в области анализа данных.
Конференция будет онлайн, о деталях проведения скоро будет известно.

А сейчас хотелось бы объявить сбор заявок на доклады по теме Reliable ML.
О том, что такое Reliable ML можно почитать тут. Форма для заявок вот тут.

Будем рады, если сможете рассказать об интересных теоретических аспектах, или о кейсах применения в бизнесе по следующим темам:

- Планирование исследований и развития продукта – #planning
- Причинно-следственный анализ в машинном обучении – #causal_inference
- АБ-тестирование – #ab_testing
- Управление рисками инвестиционных инициатив – #investment_process
- Интерпретация моделей – #interpretable_ml
- Выбор технических и бизнес-метрик для оценки качества моделей - #metrics

👍8🔥7

4.85K viewsedited 11:54

Reliable ML

Reliable ML pinned a photo

08:13

Reliable ML

На Хабре была опубликована статья "Причинно-следственный анализ в машинном обучении", собранная из постов в этом канале.
Особо внимательные читатели даже найдут там новую информацию, которая тут еще не постилась 🙂.

Лучи добра за лайк, шер, репост статьи!

Хабр

Причинно-следственный анализ в машинном обучении

Что появилось первым: курица или яйцо? Статистики давно уже нашли ответ на этот вопрос . Причем несколько раз. И каждый раз ответ был разным. А если серьезно, то для машинного обучения становятся все...

👍28

1.85K viewsedited 11:07

Reliable ML

Causal Inference в ML
Для тех, кто не читал статью на Хабре (1/3)

В 2020 году в отчете State of AI впервые в явном виде была обозначена необходимость интеграции классического ML c методами Causal Inference.

Yoshua Bengio и Yann LeCun отметили, что ML-системы, построение которых основано на корреляциях, часто не справляются с задачами в реальном мире. Это происходит вследствие того, что реальный мир отличается от данных для обучения модели:

- Мир не является статичным. Условия, в которых работает модель, постоянно меняются. Если модель опирается на причинно-следственные связи, а не на корреляции, она будет более устойчива к изменениям.

- Параметры модели могут влиять на изменение целевой переменной, а целевая переменная, в свою очередь, может влиять на параметры модели. Так, цены влияют на спрос на товар, а спрос влияет на цены. С таким явлением также помогают бороться методы причинно-следственного анализа. Например, инструментальные переменные.

- Работа модели в продуктиве/реальном мире может менять закономерности, которые были выучены на исторических данных. Особенно уязвимы к этому системы, основанные на корреляциях. Так, в примере про высокую корреляцию вероятности умереть от пневмонии и наличия астмы, если в продуктиве мы будем меньше лечить тех, кто болен астмой, то вскоре кардинально поменяем ситуацию.

Решением указанных выше проблем ученые считают применение методов Causal Inference в ML. В State of AI 2020 тема causal inference была обозначена как путь к новому витку усиления ML-алгоритмов за счет повышения обобщающей способности моделей, их устойчивости и применимости для процесса принятия решений.

#business #causal_inference

👍17🔥2

1.42K viewsedited 10:17

Reliable ML

Causal Inference в ML: материалы
Для тех, кто не читал статью на Хабре (2/3)

Пост с главной литературой по Causal Inference в ML в 2020-2021 гг.

Материалы, систематизирующие методы causal inference в ML:

- Causal Inference Book. Это очередное обновленное издание замечательной фундаментальной книги по causality от Hernan & Robins. На Data Fest 2020 Антон Лебедевич в своем докладе разбирал основные интересные примеры из этой книги.

- A Survey on Causal Inference - Liuyi Yao et al. (2020). В этой статье авторы сравнивают по единому фреймворку ключевые существующие (и главное, применяемые на практике) методы Causal Inference, обсуждают тонкости их применения в R/Python.

Материалы по обобщающим Causal Inference фреймворкам:

- Библиотека DoWhy для python с различными датасетами, специально собранными или разработанными для тестирования, сравнения и бенчмаркинга различных методов causal inference. Если вы утром за чашечкой чая вдруг придумали новый метод причинно-следственного анализа, то вам дорога к этой библиотеке, чтобы понять, насколько ваш метод конкурентоспособен среди остальных. Подробнее про библиотеку и ее возможности можно почитать тут.

- Auto Causal Inference. Попытка создания AutoCI - один из трендов, возникших в рамках интеграции Causal Inference c машинным обучением. Можно ли, только загрузив датасет в библиотеку, понять структуру данных, существующие взаимосвязи и выбрать наилучший метод для из анализа, или для коррекции предсказаний модели, чтобы были учтены необходимые causal inference взаимосвязи? Пока исследования в данном направлении далеки от финальной стадии, но одна из его важных вех этого процесса – публикация от Netflix 2020 г. по Computational Causal Inference.

- Proximal Causal Inference – о возможностях непараметрической и полупараметрической оценки причинно-следственного эффекта, на примере медицинских исследований.

- Spatial Causal Inference – обзор методов для выявления причинно-следственных эффектов на пространственных данных.

- Causal Inference using DL – фреймворк для выявления причинно-следственного эффекта с помощью DL.

#tech #causal_inference

🔥5👍3❤1

1.69K views10:23

Reliable ML

Causal Inference в ML: инструменты
Для тех, кто не читал статью на Хабре (3/3)

Tool Boxes для Python:

- Dowhy - Propensity-based Stratification, PSM, IPW, Regression
- Causal ML - Tree-based algorithms, X/T/X/R-learner
- CausalNex - Structural Causal Models based on Bayesian Networks
- EconML - Doubly Robust Learner, Orthogonal Random Forests, Meta-Learners, Deep Instrumental Variables
- causalImpact - Bayesian structural time-series model (сейчас активна реализация c бекендом на tensorflow-probability вместо pystan)

Tool Boxes для R:

- causalToolbox - BART, Causal Forest, T/X/S-learner with BART/RF as base learner
- causalImpact - Bayesian structural time-series model
- did - Classical Difference-in-Difference (group-time average treatment effects)
- synthdid - Synthetic difference in difference estimator (SDID) for the average treatment effect in panel data, Arkhangelsky et al (2019) – доклад на Causal Inference in ML Track 2020
- causalweight - Inverse probability weighting (IPW)

Если вы считаете, что стоит пополнить этот список - пишите в комментариях!

#tech #causal_inference

❤8👍6👏2🔥1

1.88K viewsedited 11:41

Reliable ML

Causal Inference in ML в тренде

С 2019 г. мы с Димой Колодезевым в рамках конференций Data Fest проводим секции по Interpretable ML и Causal Inference in ML. И с 2019 г. эти треки признаются лучшими по итогам голосования участников конференции.
Многие из докладов этих секций также оказываются в списке лучших.

Interpretable ML Track - 2019, 2020
Causal Inference in ML Track - 2020
Interpretable & Causal ML Track 2021

Сегодня получила посылку с наградами от организаторов Data Fest - сообщества Open Data Science и компании Data Souls. Доехали награды за 2020-2021 гг.

Очень рады видеть такое признание.
Это вдохновляет двигаться дальше!

Всем хорошего вхождения в трудовые будни после майских праздников!
Скоро будут интересные анонсы и новости от Reliable ML.

Stay tuned!

❤23🔥15👍13👎1

1.94K views15:08

Reliable ML

Reliable ML Интервью

Вчера в новом выпуске подкаста "Дайте данных" сообщества NoML была опубликована запись беседы со мной. Поговорили про влияние академического прошлого на работу в бизнесе. Как опыт работы в науке может помочь добиться успехов в бизнесе, какой багаж знаний и навыков можно взять с собой в коммерческое настоящее - и в чем придется переучиваться. Какие тренды в развитии ML ждать в ближайшие годы? Кто такой сегодня дата сайентист, и чем можно покорить работодателя при приеме на работу.

А если у вас есть еще какие-либо вопросы ко мне, по Reliable ML и не только, их можно будет задать сегодня в 20:00 в новом выпуске подкаста "Данные люди".

❤7👍6🔥2😁2

1.49K views08:18

Reliable ML

Data Fest 3.0 - Reliable ML - Программа

Секция Reliable ML состоится 5 июня онлайн.
Планируем провести 3 круглых стола по актуальным темам.

Тема 1: Interpretable ML.

Про стандартные алгоритмы интерпретируемости много докладов сказано, много книг и статей написано. Обсудим вопросы, которые встречаются на практике и не имеют однозначного решения.

Вот несколько примеров из нашей практики:

- Агрегация результата интерпретации множества однотипных моделей
- Интерпретация результатов оптимизации
- Учет качества модели при интерпретации
- Объяснение логики работы модели конечным пользователям
- Использование интерпретируемости при расследовании инцидентов
- Интерпретация по внешним данным
- Конфликт этики и простоты оптимизации

Обсуждение пройдет намного лучше, если вы добавите свои вопросы по интерпретации моделей. Это можно сделать вот тут.

Эксперты:

Кирилл Быков, PhD student, TU Berlin – Understandable Machine Intelligence Lab
Данила Савенков, Senior ML Engineer, Yandex
Вадим Борисов Research Fellow / Ph.D. Student, University of Tübingen, Germany
Юрий Бабуров, CTO ApRbot

Эксперты-модераторы:

Дмитрий Колодезев, директор Promsoft
Ирина Голощапова, Head of Data Science, Lenta

👍13❤1

1.97K viewsedited 08:21

Reliable ML

Data Fest 3.0 - Reliable ML - Программа
Продолжаем анонсы

Секция Reliable ML состоится 5 июня онлайн.
Планируем провести 3 круглых стола по актуальным темам.

Тема 2: Causal Inference in ML

За последние пару лет осознание того, что причинно-следственный анализ - это важно и нужно в ML системах, довольно прочно пришло в бизнес. А где же бизнес все-таки использует causal inference?

Поговорим об известных кейсах, обсудим ваши вопросы по использованию causal inference в работе.

Если вы хотели бы добавить свои вопросы для обсуждения - welcome. Пишите здесь.

Эксперты:

Иван Комаров, Chief Data Scientist, ЦФТ
Григорий Чернов, экономист, аспирант лаборатории экспериментальной и поведенческой экономики Высшей школы экономики, приглашенный исследователь департамента принятия решения Тюбингенского университета
Иван Горбань, Senior Data Scientist, Careem

Эксперты-модераторы:

Дмитрий Колодезев, директор Promsoft
Ирина Голощапова, Head of Data Science, Lenta

***
Тема 1: Interpretable ML.
В круглом столе по Interpretable ML, кстати, серьезно обогатился состав экспертов.

👍6❤1

1.72K views08:02

Reliable ML

По мотивам постов в канале опубликована новая статья на Хабр: Интерпретируемость в машинном обучении: итоги 2021 г.

А уже 5 июня, на секции Reliable ML Data Fest 3.0, Дима Колодезев, директор Promsoft, расскажет доклад о том, что нового появилось в интерпретируемости в последнее время.

Хабр

Интерпретируемость в машинном обучении: итоги 2021 г

В наши дни уже ни для кого не секрет, что понимать логику работы моделей машинного обучения важно и нужно. Иначе можно насобирать множество проблем: от того, что модель не будет принята конечным...

👍8👏2

1.54K views12:11

Reliable ML

Data Fest 3.0 - Reliable ML - Программа
Продолжаем анонсы

Секция Reliable ML состоится 5 июня онлайн.
Планируем провести 3 круглых стола по актуальным темам.

Тема 3: ML System Design

Компетенции в области ML System Design крайне востребованы на рынке. Однако понимание этого термина многими компаниями разное. Обсудим, что же это вообще такое ML System Design, как его структурировать и применять.

Если вы хотели бы добавить свои вопросы для обсуждения - welcome. Пишите здесь.

Эксперты:

Валерий Бабушкин, Head of Data Science, Blockchain.com, автор книги Principles of ML Design (2023)
Алексей Натекин, CEO, Data Souls, Founder, Open Data Science Community, Organizer, Data Fest
Александр Бородин, руководитель направления аналитики и моделирования в финансах и рисках, GlowByte

Эксперты-модераторы:

Дмитрий Колодезев, директор Promsoft
Ирина Голощапова, Head of Data Science, Lenta

***
Тема 1: Interpretable ML
Тема 2: Causal Inference in ML

🔥18👍2

2.92K views10:33

Reliable ML

Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 10:00 по Мск нашу секцию откроет Полина Окунева, ведущий аналитик Glowbyte, с докладом "Causal Inference. Advanced методы моделирования".

Полина расскажет об усовершенствованных методах моделирования причинно-следственного эффекта с опорой на библиотеки causalML и EconML : X-, R-, DR-learner, Domain Adaptation Learner, Doubly Robust Instrumental Variable learner, Tree-based algorithms (DDP, CTS). Рассмотрит основные плюсы и минусы методов и особенности их применения.

👍21🔥6👏1

3.1K views11:05

Reliable ML

Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 12:15 по Мск состоится доклад от команды моделирования жизненного цикла клиента ВТБ - Василия Сизова, тимлида команды, и Анастасии Григорьевой, руководителя направления - "От look-alike до uplift в моделировании для Жизненного Цикла Клиента".

Василий и Анастасия расскажут о том, как машинное обучение помогает в Жизненном Цикле Клиента, в частности, для предложения клиентам новых продуктов. В докладе будут затронуты темы банка данных для моделей look-alike, response и uplift, а также сложностей при использовании sklift. В конце коллеги поделятся результатом применения моделей.

🔥11👍1

1.37K viewsedited 09:31

Reliable ML

Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 13:00 по Мск будем слушать доклад "Introduction to structured learning and causal discovery" от Григория Чернова, экономиста, аспиранта лаборатории экспериментальной и поведенческой экономики НИУ ВШЭ, приглашенного исследователя департамента принятия решения Тюбингенского университета.

Что данные могут рассказать о причинности? Григорий познакомит с введением в structured learning и causal discovery. В докладе будет рассмотрена интуиция, стоящая за графическими вероятностными моделями, а также возможность компромисса между количеством предположений и устойчивостью выводов на примере constrain-based (PC, FCI), scoring based (GIES) и иных (LiNGAM) базовых подходов, реализованных в py библиотеках "Causal Discovery Toolbox" и "Causal-learn".

🔥14👍3❤1

1.8K views07:21

Reliable ML

Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 10:45 по Мск выступит международная команда - Егор Кобылкин (Abbrivia GmbH, Германия), Иван Комаров и Глеб Соснин (ЦФТ, Россия). В докладе коллеги обсудят, а можно ли на общедоступных данных увидеть связь между вакцинацией и смертностью, или действуют ли вакцины (в нужном направлении)? Этой задачей занимались Иван и Глеб в рамках ODS LAB и 5 июня покажут результаты исследования "прямо из печки".

Используя метод Difference-In-Difference, коллеги проведут сравнение похожих стран до и после вакцинации с разными режимами вакцинирования, а затем построят предсказательную модель избыточной смертности и оценят роль вакцинации в этой модели.

👍18🔥2

1.46K viewsedited 14:42

Reliable ML

Data Fest 3.0 - Открыта регистрация

Встречайте — Data Fest Online 3.0.
Долгожданная регистрация открыта!

Уже в эту субботу начнётся трехнедельный онлайн Фест, по уже сложившейся формуле youtube + spatial.chat.

В субботу, 4 июня, в эфире организаторы Data Fest 3.0 расскажут про секции Reliable ML, NLP, RecSys, PyData + MLOps, DL in Finance, ML Trainings и другие.

В эфире 4 июня организаторы ODS также расскажут обо всех самых важных вопросы про новый ODS:

- Как устроен новый ODS + backstage про ODS текущий
- Как будет проходить переезд, что это вообще за [Matrix], и как первыми туда попасть
- Как участвовать в новом ODS
… а также планы, новые фишки, и многое другое.

Далее, с 5 июня в течение 3х недель будут проводиться различные тематические секции Data Fest 3.0.

Всех ждем!

👍11🔥5❤1

2.67K views06:56

Reliable ML

Data Fest 3.0 - Reliable ML - 5 июня 2022 г. - Программа
Продолжаем анонсы

В 11:30 по Мск выступит Наталья Тоганова, к.э.н, старший бизнес-аналитик Glowbyte, с докладом "Что такое p-value? Достаточно ли одного показателя? При чем тут мощность и доверительные интервалы?".

Рандомизированные контролируемые эксперименты или А/Б тесты хотя и называются "золотым стандартом", но все же методика их проведения и интерпретации остаётся дискуссионной. Наталья расскажет о том:

- почему практика, когда повышенное внимание уделяется p-value, и тому, был преодолел ли p-value определенный порог, подвергаются критике;
- как предлагают исправить ситуацию и чем дополнить p-value (немного о мощности и доверительных интервалах);
- как научная дискуссия связана с буднями обычного аналитика.

Регистрация на Data Fest 3.0 - тут.

👍5🔥2

2.39K views08:00

About

Blog

Apps

Platform