Reliable ML
6.26K subscribers
93 photos
1 file
186 links
Reliable ML - фреймворк о том, как управлять внедрением и развитием аналитики и data science/machine learning/AI, чтобы результат был применим в бизнес-процессах и приносил компании финансовую пользу.

Admin: @irina_goloshchapova @promsoft
Download Telegram
Больше практических кейсов в России
Разбираем подробнее итоги года в Causal Inference

В 2021 г. авторам канала удалось узнать о существенно большем, чем в 2020 г., числе практических кейсов применения CI методов в бизнес-задачах разных компаний в России.

Среди них выделим две категории: отдельные кейсы применения CI методов, а также развитие АБ-тестирования в офлайне. Кейсы опишем верхнеуровнево, а в 2022 г. попробуем разобрать их детальнее на митапах/конференциях.

Отдельные кейсы

- Мегафон, Data Fest 2021, Causal Methods in Dynamic Pricing – И. Горбань, Д. Пятых. В этом докладе авторы обсуждают методы causal inference и динамической оптимизации применительно к установке цен на товары в сети МегаФон Ритейл.
- Промсофт: анализ влияния рекламы на продажи с помощью interrupted time-series подхода.
- Glowbyte: EDA по оценке отдельных промо-активностей на основе библиотеки EconML, о которой коллеги рассказывали на Data Fest 2021.
- Лента: оценка гало-эффекта установки прилавков в магазинах с помощью causal impact, доработанным в сторону робастности.
- Промсофт: отладка и тюнинг моделей с использованием априорных знаний в доменной области на базе causal shapley values.

Тренды для АБ-тестирования в офлайн-бизнесе

Говорим именно про офлайн, поскольку для онлайн-бизнесов АБ-тесты уже достаточно давно являются базовой гигиеной для принятия решений о развитии бизнеса / оптимизации инвестиционного процесса. А вот офлайн в последние 2-3 года переживает активное развитие АБ.

- Х5 Group, Лента, М.Видео, Промсофт: единая методика АБ-тестирования для оценки эффективности пилотов в офлайне.
- Лента, Сбер: оценка эффекта пилотов для малого числа объектов на основе подхода synthetic controls.
- Лента: оценка причинно-следственного эффекта, когда АБ-тестирование невозможно (robust causal impact).

Если вам известны и другие бизнес-кейсы применения методов CI – пишите в комментариях, или @irina_goloshchapova. Сделаем дополненную подборку! И запишем вас в авторов выступлений на ближайших мероприятиях по Reliable ML 😊

Этим постом мы завершаем серию публикаций про итоги 2021 г. в causal inference. Далее расскажем про итоги в interpretable ml.

#tech #causal_inference #practice
Итоги года в XAI (Explainable AI) за 2021 г.
Сначала поговорим обобщенно, а затем детальнее раскроем наиболее интересные пункты

- DARPA подвели итоги 4хлетней программы по объяснимому ИИ, которую сформулировали в 2015 году и стартовали в 2017м. Цель программы - дать конечным пользователям возможность лучше понимать системы с ИИ, доверять им и эффективно управлять ими. Ключевые итоги, которые сформулировала DARPA можно прочитать по ссылке, или в следующем нашем посте.

- Мы научились интерпретировать модели, но как узнать, какой метод объяснения лучше?
Пожалуй, самое пристальное внимание в области XAI в 2021 г. было направлено на оценку качества методов интерпретации – для возможности сравнения методов между собой. В основном, работы посвящены созданию методик с конкретными количественными метриками для локальной интерпретации black-box моделей. При этом в январе 2022 г. на arxiv появилась знаковая работа, в которой авторы систематизируют около 300 работ в области XAI, опубликованных на CS конференциях в 2014-2020 гг. и предлагают набор из метрик, которые могут стать универсальными для оценки различных методов интерпретируемости: как для локальной интерпретации (как объяснить каждое отдельное предсказание), так и для глобальной (как работает модель в целом). Об этом также напишем далее более подробно.

- Актуальность темы XAI только растет. Но хороших и доступных системных обзоров, учитывающих проблематику внедрения методов в бизнес-процессы все еще единицы. Так, и в 2021 г. в разных бизнес-источниках продолжили ссылаться на отчет PwC по Explainable AI от 2018 г. В обзоре достаточно простым языком сделан обзор проблематики XAI, структурированы подходы к объяснению моделей, а также обоснована необходимость инвестиций в сферу XAI и применения интерпретации в бизнес-процессах.

- Прорывы и заслуживающие внимания достижения в отдельных областях ML. На эту тему планируем серию постов в дальнейшем – от гуру DS-ODS) Если вы хотели бы поделиться своим взглядом на достижения XAI в отдельных типов задач или алгоритмов, пишите @irina_goloshchapova для обсуждения.

- Применение методов интерпретируемости алгоритмов для бизнеса уже давно не является чем-то прорывным. Поэтому наиболее интересными являются либо проблемы применения этих методов, с которыми бизнес сталкивается на практике: в техническом решении какого-либо вопроса объяснения ML, или в вопросе внедрения методов интерпретируемости в бизнес-процессы компании.
Для меня, например, одной из таких проблем стала задача агрегированного вывода об устойчивой значимости и знаке влияния факторов множества однотипных предсказательных моделей. Если мы строим множество black-box моделей с похожим набором факторов на ряд близких по содержанию таргетов, то можно ли научным подходом сделать вывод о робастном влиянии того или иного фактора на них?
Если вы готовы рассказать о своем опыте и/или болях, связанных с интерпретируемостью ML моделей, welcome также для обсуждения к @irina_goloshchapova. Решим как представить ваш кейс и соберем агрегированные данные о бизнес-проблематике XAI.

#tech #interpretable_ml
Тема оценки качества методов XAI становится все более актуальной

#tech #interpretable_ml
Итоги XAI программы DARPA за 2017-2021 гг.
Разбираем подробно итоги года в XAI (Explainable AI) за 2021 г.

DARPA завершила и подвела итоги 4хлетней программы по объяснимому ИИ, которую сформулировало в 2015 году и стартовало в 2017м.

По мнению DARPA 2015 г. стал переломным в значимости темы Interpretable ML. С этого года активизировались исследования по интерпретируемости в 3х направлениях: интерпретируемость в области DL, усиление точности более интерпретируемых моделей, таких как Bayesian Rule Lists, а также развитие универсальных методов интерпретируемости (model-agnostic techniques), где превалировали методы, наподобие LIME.

Программа XAI DARPA подчеркивала, что ее целью является конечный пользователь, который зависит от решений или рекомендаций системы ИИ, и поэтому должен понимать, почему она предлагает то или иное решение. В итоге хотели предложить новые методы/упорядочить существующие, чтобы для каждой задачи предлагать оптимальный метод, исходя из противоречия точности алгоритма и возможности его интерпретировать.

Содержание XAI DARPA было разделено на три основные технические области: (а) разработка новых методов XAI; (б) понимание психологии объяснения; (c) оценка качества новых методов XAI – для возможности их объективного сравнения между собой.

Методы, рассмотренные в рамках программы, концентрируются на интерпретации DL алгоритмов и возможности оценки эффективности методов локальной интерпретации (объяснение конкретного/локального предсказания модели). Здесь можно посмотреть таблицу с краткими тезисами про все рассмотренные методы и ссылки на детальные разборы/статьи.

Все технические результаты XAI DARPA были интегрированы в репозиторий, содержание которого можно изучить на сайте https://xaitk.org/ . Методы, проработанные в рамках программы собраны в 2 раздела: ML-алгоритмы, направленные на прогноз (Analytics) и автономные системы (Autonomy).

Верхнеуровневые ключевые выводы, которые сформулировали в DARPA XAI:

- Пользователи предпочитают системы, которые предоставляют решения с объяснениями, а не системы, которые предоставляют только решения.
- Чтобы объяснение модели улучшали конечный результат использования модели, задача, решаемая моделью, должна быть достаточно сложной (Позиция PARC, UT Dallas)
- Когнитивная нагрузка пользователя для интерпретации объяснений может снизить производительность пользователя. В сочетании с предыдущим пунктом, объяснения и сложность задач должны быть откалиброваны, чтобы повысить производительность пользователя (UCLA, штат Орегон)
- Объяснения более полезны, когда ИИ неверен, и особенно ценны в пограничных случаях (UCLA, Rutgers)
- Показатели эффективности объяснения могут меняться со временем (Raytheon, BBN)
- Рекомендации могут значительно повысить доверие пользователей по сравнению с одними только объяснениями (Калифорнийский университет в Беркли)

#tech #interpretable_ml
Усиление акцента на оценке эффективности методов XAI
Разбираем подробно итоги года в XAI (Explainable AI) за 2021 г.

В январе 2022 г. на arxiv появилась знаковая работа, в которой авторы систематизируют около 300 работ в области XAI, опубликованных на CS конференциях в 2014-2020 гг. Отдельным разделом в ней приведен обзор исследований, посвященных оценке эффективности методов XAI.

Основным результатом статьи является предложение универсального фреймворка для оценки эффективности методов как локальной, так и глобальной интерпретируемости. Авторы предлагают 12 стандартизированных метрик для универсальной оценки XAI методов, подчеркивая, что важность метрик варьируется в зависимости от целей интерпретации модели в каждом случае.

Метрики разбиты на три категории, в зависимости от того, на чем они делают акцент:

(1) Ориентированные на содержание объяснения:

- Корректность (Correctness) - насколько точны объяснения в сравнении с «истинным» поведением объясняемой модели.
- Полнота (Completeness) - насколько полно объяснение отражает разные аспекты поведения модели.
- Консистентность (Consistency) - объяснения должны зависеть от входов и выходов модели, а не от конкретной реализации метода XAI.
- Непрерывность (Continuity) - для похожих входных данных должны генерироваться похожие объяснения.
- Контрастность (Contrastivity) - объяснение должно указывать на факторы, необходимые и достаточные для принятия моделью именно такого решения, какое она приняла.
- Ковариатная сложность (Covariate complexity) - взаимодействия между факторами, которыми оперирует объяснение, должны быть достаточно простыми для понимания, даже если исходный алгоритм включает сложные взаимодействия.

(2) Ориентированные на форму объяснения:

- Компактность объяснения (Compactness) - чем короче объяснение, тем оно лучше.
- Композиция (Compositionality) - насколько выразительны и понятны формат и структура интерпретации.
- Уверенность (Confidence) - предоставляет ли метод XAI вероятностную оценку своей уверенности в предложенном объяснении.

(3) Ориентированные на потребности пользователя:

- Контекст (Context) - насколько метод учитывает потребности и уровень экспертизы конечного пользователя.
- Согласованность (Coherence) - до какой степени интерпретация согласуется с опытом, знаниями и убеждениями пользователей.
- Контролируемость (Controllability) - насколько пользователь может взаимодействовать с объяснением и настраивать его под свои нужды.

Стоит ли говорить о том, что в статье также в прекрасном структурированном виде приводятся и предложения конкретных количественных метрик для указанных выше разделов – на основе обзора статей за 2014-2020 гг.

#tech #interpretable_ml
Усиление акцента на оценке эффективности методов XAI - Часть 2
Разбираем подробно итоги года в XAI (Explainable AI) за 2021 г.

В 2021 г. многие работы в XAI были посвящены созданию методик с конкретными количественными метриками для локальной интерпретации black-box моделей.

Хотелось бы также рассказать про одну из статей как пример структурированного подхода к количественному сравнению между собой методов локальной интерпретации для конкретной задачи:

- Оценка качества XAI для решения задачи мультиклассовой классификации с помощью DL. Авторы сравнивают 10 популярных методов интерпретации DL-алгоритмов: Saliency, Input × Gradient, Integrated Gradients, Guided Backpropagation, Grad-CAM, Guided Grad-CAM, Lime, Occlusion, DeepLift, SmoothGrad. В качестве алгоритмов взяты DenseNet и ResNet на известном наборе данных BigEarthNet (изображения с воздуха со спутника Sentinel-2).

Для количественного сравнения предложены метрики:

- Max-Sensitivity. Показывает устойчивость XAI метода путем измерения максимального изменения результата интерпретации при небольших изменениях значений признаков с помощью Монте-Карло симуляций. Метрика минимизируется.

- Area Under the Most Relevant First perturbation curve. Оценивает, насколько быстро качество модели будет убывать, если мы начнем скрывать от нее информацию признаков (например, перемешивая пиксели), начиная с самых “важных”. Мы хотели бы, чтобы самыми “важными” считались признаки, действительно определяющие решение модели. Таким образом, хорошее объяснение минимизирует AUC-MoRF.

- File Size. Размер результирующего файла метода XAI: чем меньше файл, тем проще и понятнее он, скорее всего, будет для конечного пользователя.

- Computational Time. Вычислительная сложность метода XAI. Минимизируем.

По результатам исследования наибольшую успешность показали LIME и Grad-CAM. При этом LIME значительно уступает Grad-CAM по скорости.

Кстати, если вы хотели разобраться в Grad-CAM и не знали с чего начать, то в 2019 г. на секции Data Fest по Interpretable ML был прекрасный доклад Кости Лопухина - “Объяснение предсказаний нейросетей: Grad-CAM is all you need”.

А для более детального погружения в возможности и недостатки LIME можно посоветовать вот эту статью 2021 г.

#tech #interpretable_ml
Учебник «Дружелюбная эконометрика»

Филипп Картаев, д.э.н., зав. кафедрой математических методов анализа экономики в МГУ им. М.В. Ломоносова, опубликовал интерактивный учебник по основам эконометрики.

Если вам интересно познакомиться с тем, как экономисты смотрят на данные и почему считают, что правильное выявление причинно-следственных связей может быть важнее качества прогноза, то эта книга может стать отличным началом.

Филипп умеет объяснять простыми словами сложные вещи, рассказывать понятно и в то же время интересно. Многие, вероятно, уже это знают, поскольку смотрели его доклад по инструментальным переменным на треке Causal Inference in ML на Data Fest Online 2020.

Вот что сам Филипп говорит о своей книге:

«В этом учебнике я постарался собрать три ингредиента, нужных для знакомства с эконометрикой:
Во-первых, тут есть основы теории, изложенные не только в виде текста, но и в формате видеолекций.

Во-вторых, в учебнике содержится детальное обсуждение применения эконометрики на практике. При рассказе о разных методах я стараюсь пояснить, для чего каждый из них может быть полезен в ваших собственных изысканиях, и показать, как их можно реализовать в специальных эконометрических программах.

В-третьих, в конце глав предложены задания для самостоятельной работы. Формат электронного учебника позволил обеспечить для них автоматическую проверку. Поэтому после прохождения теста вы можете сразу получить обратную связь и узнать, сколько заданий вы решили верно.

Некоторое время я размышлял, с каким из эконометрических пакетов знакомить читателя в этой книге. В итоге я не смог выбрать единственную программу, так что в учебнике содержатся видеофрагменты, показывающие, как проводить расчеты сразу в двух пакетах на выбор: в Gretl и в R. Каждый из них распространяется бесплатно.

После простой регистрации вам откроется личный кабинет с возможностью делать закладки и заметки, а также решать задачи.

Работа над проектом продолжается, так что я буду рад вашей обратной связи. Берегите себя!»

#tech #causal_inference
Correlation doesn’t imply causation

Главный тезис эконометрики, который в последние 5 лет прочно пришел и в ML: «Корреляция не подразумевает причинно-следственную связь».

Корреляция - статистическая взаимосвязь двух показателей. Например, вес и рост скоррелированы - обычно более высокие люди весят больше. Но если человек наберет вес или похудеет, его рост не изменится - изменение веса не является причиной изменения роста. При этом если человек вырастет, вес, скорее всего, изменится - изменение роста будет являться причиной изменения веса.

Таким образом, корреляция - это линейная взаимосвязь двух показателей. Если меняется X, то обычно меняется и Y. А причинно-следственная связь показывает, что показатель X вызывает изменение Y или, другими словами, изменение Х является причиной изменения Y.

Вроде все просто и понятно, но, тем не менее, и сейчас, как и многие годы назад, мы продолжаем встречать неожиданные примеры, когда отсутствие внимания к этому тезису приводит к неожиданным проблемам.

Ниже наша подборка примеров.

Знаю, что в нашем канале много профессиональных эконометристов, DS-ов, биостатистиков, и других очень уважаемых людей. Дополняйте подборку и вашими примерами, пожалуйста!

1. Пример, который обычно приводится в лекциях на тему correlation doesn’t imply causation – это взаимосвязь покупок мороженого и солнцезащитных очков (иногда очки заменяют печальным показателем - числом утонувших людей). Эти показатели значимо скоррелированы, но говорить о причинно-следственной связи нельзя – если мы намеренно начнем есть мороженого больше, покупки солнцезащитных очков не увеличатся. Фактор, который определяет динамику этих показателей – погодные условия. Когда тепло, мы больше едим мороженого, и нам больше нужна защита от солнца.

2. В 90-х в рамках осуществлялась оценка применимости ML моделей для снижения издержек на здравоохранение (Cost-Effective HealthCare). По итогам программы нейронные сети значительно превзошли обычные модели (в основном, логрег) по качеству. Но невозможность интерпретировать предсказания нейронных сетей и системно анализировать причинно-следственные связи привело к отказу от их применения для этих задач (на тот момент).

Одной из важнейших задач программы было предсказание вероятности смерти от пневмонии. Цель – госпитализировать только людей с повышенным риском, остальных – лечить амбулаторно, снижая издержки. Rule-based системы для этой задачи показывали, что наличие у человека астмы значительно снижает риск смерти от пневмонии – такая закономерность явно наблюдалась в обучающем датасете. Причиной корреляции этих факторов являлось наличие регулярной врачебной помощи. Люди с астмой находились под особым медицинским наблюдением, следовательно, при заболевании пневмонией, были меньше подвержены осложнениям.

Наличие в проде неинтерпретируемой ML-модели, выучившей подобную закономерность, привело бы к большим проблемам, чего, к счастью, удалось избежать.

3. Результаты знаменитого Стенфордского Зефирного эксперимента долгие годы гласили: сила воли ребенка определяет его успешность в будущем (Walter, Shoda, Peake, 1990). Сила воли в эксперименте понималась как способность ребенка удержаться от съедения запретной зефирки на какое-то время, чтобы в итоге получить большее вознаграждение.

Как выяснилось не так давно (Watts, Dunkan, 2018), в этом эксперименте было критическим влияние третьего фактора – успешности и благополучия родителей. Именно этот фактор в данном эксперименте оказывал влияние как на успешность ребенка в будущем, так и на то, способен ли он был удержаться от сладкого. В более благополучных семьях зефир не являлся для ребенка диковинкой, поэтому и удержаться от того, чтобы его съесть, было проще.

Надо сказать, что научный спор вокруг Зефирного эксперимента еще продолжается – если кто-то заинтересовался темой, ключевые вехи дискуссии можно посмотреть тут (2019 г.) и тут (2020 г.).

#tech #causal_inference #practice
4. Серия Смешариков о борьбе с холодом замечательно показывает отличие корреляции от причинно-следственной связи на примере связи примет и изменения погоды. Придет ли весна к тебе быстрее, если прогнать из своего двора всех зябликов, вырубить черемуху и изменить направление дыма из трубы?

5. Немецкое издание Gawker.com в 2013 г. вольно проинтерпретировало выводы статьи «The Effect of Sexual Activity on Wages». В статье автор нашел значительную корреляцию частоты сексуальных контактов для домохозяйств в Греции и величиной их дохода, но явно уточнил, что исследования на наличие causal взаимосвязи не проводилось. Однако немецкому изданию это не помешало выйти с большими выводами о том, как прийти к высокому доходу в Германии.

#tech #causal_inference #practice
Causal Inference в динамическом ценообразовании

Иван Горбань и Денис Пятых начали публикацию серии статей о методах причинно-следственного анализа в динамическом ценообразовании.

Статьи являются развитием доклада Вани и Дениса на Data Fest Online 2021 - Causal methods in dynamic pricing, где они рассказали о методах causal inference и динамической оптимизации, применительно к установке цен на товары в сети МегаФон.

Первая статья посвящена мотивации применения методов causal inference в задачах ML, гармонично дополняя предыдущий пост нашего канала о том что correlation doesn’t imply causation. В тексте Ваня разбирает этот тезис, ключевые причины, почему корреляция не предполагает причинно-следственную связь, а затем переходит к применению этих знаний для ML задач и конкретно кейса про ценообразование.

Кстати, Ваня Горбань – соавтор подкаста «Данные люди», где тимлиды DS (Ваня и Артём Глазунов) в формате войс-чата в телеграм-канале @bigdatapeople общаются с интересными людьми из сферы анализа данных. Они обсуждают, какое влияние большие данные оказывают на развитие мира, говорят о науке, бизнесе, философии и этике. Ребята вместе с гостями разбираются, где люди применяют анализ данных, как этому научиться, зачем это нужно и что ждет нас в будущем.

#tech #causal_inference #practice
Что такое Reliable ML?

Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.

Что для этого нужно?

- Уметь составлять грамотный план исследования и развития продукта, учитывающий дальнейшее применение модели. Для таких постов вводим тег #planning

- Различать подходы, направленные на прогноз и на управление параметрами модели в дальнейшем для изменения ее результата (например, управление периодом и форматом проведения промо-активностей для максимизации выручки компании). Для второй цели – которая на практике встречается гораздо чаще просто прогноза – важно ориентироваться в подходах причинно-следственного анализа. О том, что такое причинно-следственный анализ, чем он отличается от простой корреляции, зачем и как его применять в DS-задачах, мы рассказываем вам под тегом #causal_inference

- Принимать взвешенные решения о дальнейшем развитии проекта и его потенциальном финансовом эффекте. Для этого необходимо не только проработать качественный дизайн пилотного эксперимента для вашей модели, но и затем сделать корректную статистическую оценку эффекта пилота, а также расчет ожидаемого финансового эффекта. О технической составляющей этого процесса мы будем рассказывать вам под тегом #ab_testing, о выстраивании процесса управления рисками инвестиционных инициатив – под тегами #investment_process

- Уметь интерпретировать работу и результат модели как для технической команды, так и для конечного пользователя (бизнеса). Для этого мы рассказываем вам об интерпретируемости. Теперь все посты по Interpretable ML будут помечены тегом #interpretable_ml

- Уметь выбрать не только корректные технические метрики качества для решаемой задачи, но и сформулировать правильные бизнес-метрики, связанные с процессом применения модели, связать их с техническими метриками и итоговым финансовым результатом применения модели. Тут тег довольно очевидный - #metrics

Итак, концепция Reliable ML охватывает не только технические особенности ML (#tech), но и построение процессов работы DS и взаимодействия с бизнесом (#business) для достижения максимального финансового эффекта.

Stay tuned!
Какие темы Reliable ML освещать больше?
Anonymous Poll
50%
#interpretable_ml
58%
#causal_inference
23%
#planning
42%
#ab_testing
17%
#investment_process
38%
#metrics
Reliable ML pinned «Что такое Reliable ML? Настало время объяснить, что было задумано при создании данного канала. Концепция Reliable ML – это о том, что делать, чтобы результат работы data science/big data команд был, во-первых, применим в бизнес-процессах компании-заказчика…»
Почему Correlation != Causation

В недавнем посте мы поговорили о том, что корреляция не подразумевает причинно-следственную связь.

Давайте теперь обсудим, почему это может быть так.
Общепринято выделять 4 причины.

1. Пропущенная переменная (Omitted variable). В случае, если Х и Y скоррелированы, причиной их изменения может быть другой, третий фактор F, воздействие которого и заставляет X и Y двигаться вместе (сонаправленно). Поэтому, если цель нашего исследования – изменить Y, изменение Х нам с этим не поможет. К изменению Y приведет только изменение F.

В нашем недавнем посте можно найти ряд примеров, когда корреляция не означает причинно-следственной связи, именно по причине пропущенного фактора. Так, в корреляции наличия астмы и низкой вероятности смерти от пневмонии третьим фактором оказалось регулярное врачебное наблюдение, необходимое при астме и оказывающее значительное влияние на снижение смерти от пневмонии. А для корреляции ЗП и сексуальной активности третьим фактором, по мнению автора исследования, является состояние здоровья.

2. Обратная причинность (Reverse Causality). Корреляция X и Y не подразумевает, что Х влияет на Y, поскольку влияние может быть обратным – Y влияет на Х. Самым известным примером reverse causality считается взаимосвязь курения и депрессии. Здесь возможна как прямая взаимосвязь (курение способствует депрессии), так и обратная (подавленное состояние способствует курению). Другие примеры из экономической теории: уровень дохода и счастье, бедность и безработица, сексуальная активность и уровень ЗП.

3. Смещение выборки (Selection bias). Третья возможная причина, почему корреляция не подразумевает причинно-следственной связи – нерепрезентативность выборки, на основе которой мы делаем выводы, для генеральной совокупности. Пример – исследование факторов роста заработной платы. При проведении подобного исследования мы неизбежно рассматриваем только работающих и, следовательно, получающих ЗП на текущий момент людей и делаем выводы о факторах, влияющих на их доход. При этом в выборку не попадают неработающие люди (потерявшие работу, матери в декрете, официально безработные, и др.), данные о которых могут значимо повлиять на результат.

4. Ошибка измерения (Measurement error). Способ получения данных и его уязвимости также могут влиять на результат. Самый распространенный пример – систематическое искажение данных в опросах. Так, пациенты могут систематически приукрашивать данные о регулярности приема лекарств и занижать – о приеме алкоголя. В опросах про доходы также часто встречается завышение низкого дохода и занижение высокого. При этом не каждая ошибка измерения приводит к неверным выводам о причинно-следственной связи. В некоторых случаях она может быть вполне безобидной.

#tech #causal_inference
Что такое Causal Inference? Определение

Поговорили о том, что существует корреляция, а существует причинно-следственная связь, а также почему так бывает. Давайте теперь сформулируем определения причинно-следственной связи и эффекта.

Есть два типа определений для causal inference: определение через воздействие (Intervention – Что случится с Y, если я сделаю Х?) и контрфактическое определение (Counterfactual – Давайте представим мир с Y таким, в котором мы сделали или не сделали Х).

- В intervention определении X является причиной Y тогда и только тогда, когда изменение Х влечет за собой изменение Y. Эффектом считается масштаб изменения Y после изменения Х на 1 единицу.

- В counterfactual логике X является причиной Y тогда и только тогда, когда мир Y, где присутствует/сделано X, отличается от мира Y без Х. Эффектом считается масштаб отличия мира Y в случае присутствия Х от мира Y без Х.

#tech #causal_inference
Методы Causal Inference. Часть 1.

В различных докладах и статьях по причинно-следственному анализу мне всегда не хватало систематизации методов. Многие причисляют отдельные методы к каким-то категориям, подкатегориям, но общей классификации не дают, и в итоге возникает путаница. Непонятно, как собрать воедино все, что разрабатывается в этой области. Когда начинаешь прицельно искать систематизацию, то оказывается, что их очень много. И каждая, конечно, несовершенна.

Расскажу вам про лучшую, на мой взгляд, систематизацию – Evidence Ladder от A.Rebecq (2020).

Методы Causal Inference можно упорядочить с помощью так называемой доказательной лестницы (Evidence Ladder). От нижней ступени к верхней будет расти, во-первых, доказательная сила метода, во-вторых, простота применения, или, другими словами, снижаться число необходимых проверок на устойчивость результата применения метода (robustness checks).

На вершине этой лестницы находятся естественные эксперименты (Natural Experiments). Это, например, классические лабораторные эксперименты в физике и химии, когда мы можем создать полностью одинаковые условия для двух вариантов Y, отличающихся только наличием Х. Можно представить себе две одинаковые пробирки в химии (Y), где в одну добавлено какое-либо вещество (X), а в другую – нет. Тогда отличие Y где нет Х от Y с Х и будет выявленным причинно-следственным эффектом. Мы будем абсолютно уверены, что изменение состояния Y вызвано участием Х.

Следующая ступень – статистические эксперименты (Statistical Experiments) aka рандомизированные контролируемые эксперименты (Randomized Controlled Trials) aka АБ-тестирование (AB Testing). Здесь мы не можем обеспечить идеально одинаковые Y, но можем случайным образом собрать выборки объектов Y в пилотную (вводим событие Х) и контрольную (не вводим событие Х) группы таким образом, что размер этих выборок компенсирует различия Y между собой. То есть, пилотная и контрольная выборки должны быть достаточно объемны и однородны, чтобы статистический тест был корректным с точки зрения статистической мощности и значимости. На практике подобные тесты чаще всего возможны в e-commerce, где объектов (клиентов магазина, посетителей сайтов) много.

Если случайный отбор не работает, мы вынуждены спускаться еще на ступень ниже – к квази-экспериментам (Quasi-Experiments). На практике категории статистических экспериментов и квази-экспериментов чаще всего смешиваются, и называются просто АБ-тестами. В квази-экспериментах объекты Y могут существенно отличаться и их общего количества недостаточно, чтобы обеспечить однородные выборки и корректный статистический эксперимент. Поэтому в таких АБ-тестах мы вынуждены прибегать к дополнительным мерам снижения дисперсии типа CUPED и линеаризации, и другим танцам с бубном типа проверок репрезентативности выборки для генеральной совокупности и созданию синтетического контроля при критически малом количестве объектов. В АБ-тестах для офлайн-бизнеса чаще всего возможно применение только квази-экспериментов, вследствие малого количества объектов, на которых мы можем позволить себе проведение пилота (долго, дорого, трудно).

#tech #causal_inference #ab_testing
Методы Causal Inference. Часть 2.

Иногда бизнес-ограничения не позволяют добиться корректной оценки даже с помощью квази-экспериментов. В таком случае, мы вынуждены спуститься в самый низ нашей доказательной лестницы – к контрфактическим методам (Counterfactuals). Тут мы отказываемся от идеи пилотной и контрольной групп (на самом деле, не совсем), и, по сути, моделируем временной ряд Y по историческим данным без участия Х в будущее, где Х уже вступает в игру. Таким образом, в период проведения эксперимента мы сможем сравнить фактические данные Y (где Х участвовал) с модельными (прогноз Y без участия Х) и предположить размер эффекта. Однако, чтобы это предположение оказалось близким к правде, нам нужно сделать наибольшее количество тестов на устойчивость метода. Результирующий эффект будет критически зависеть от корректности применения выбранного метода CI категории Counterfactuals: от выбора самого метода до подбора гиперпараметров и учета при моделировании всех необходимых ковариатов (факторов, помимо Х).

На практике необходимость в counterfactual методах возникает совсем не редко. Например, построили mvp по какому-то проекту (не обязательно ML), прикинули в уме, что вроде норм, взяли и раскатали в прод сразу на все объекты Y. Как теперь оценить эффект от внедрения, если контрольной группы нет в принципе, а на объекты Y ежедневно воздействует миллион внешних факторов: от макроэкономических трендов до внутренних изменений в бизнес-процессах? Знакомо?

Или другой случай: бюджета проекта хватает только на один объект Y, а эффект оценить хочется. Как ни мучайся, подбирая синтетический контроль из множества других объектов Y, сделать это почти невозможно.

Ну и третий случай: мы хотим на исторических данных, там, где никакого эксперимента не проводили, понять, а был ли эффект от какого-то действия/события Х на целевую переменную Y. В последнем случае, мы чаще всего не можем собрать корректные контрольную и тестовую группы. Историческое событие Х чаще всего распределено сложно, внедрялось либо во всех объектах, либо в малом количестве и в разное время.

#tech #causal_inference #ab_testing
Систематизация методов Causal Inference. Более детальное описание каждой ступени можно найти в моем докладе тут.

#tech #causal_inference #ab_testing
Применение методов Causal Inference

Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.

Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.

В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.

#business #causal_inference #practice