Больше практических кейсов в России
Разбираем подробнее итоги года в Causal Inference
В 2021 г. авторам канала удалось узнать о существенно большем, чем в 2020 г., числе практических кейсов применения CI методов в бизнес-задачах разных компаний в России.
Среди них выделим две категории: отдельные кейсы применения CI методов, а также развитие АБ-тестирования в офлайне. Кейсы опишем верхнеуровнево, а в 2022 г. попробуем разобрать их детальнее на митапах/конференциях.
Отдельные кейсы
- Мегафон, Data Fest 2021, Causal Methods in Dynamic Pricing – И. Горбань, Д. Пятых. В этом докладе авторы обсуждают методы causal inference и динамической оптимизации применительно к установке цен на товары в сети МегаФон Ритейл.
- Промсофт: анализ влияния рекламы на продажи с помощью interrupted time-series подхода.
- Glowbyte: EDA по оценке отдельных промо-активностей на основе библиотеки EconML, о которой коллеги рассказывали на Data Fest 2021.
- Лента: оценка гало-эффекта установки прилавков в магазинах с помощью causal impact, доработанным в сторону робастности.
- Промсофт: отладка и тюнинг моделей с использованием априорных знаний в доменной области на базе causal shapley values.
Тренды для АБ-тестирования в офлайн-бизнесе
Говорим именно про офлайн, поскольку для онлайн-бизнесов АБ-тесты уже достаточно давно являются базовой гигиеной для принятия решений о развитии бизнеса / оптимизации инвестиционного процесса. А вот офлайн в последние 2-3 года переживает активное развитие АБ.
- Х5 Group, Лента, М.Видео, Промсофт: единая методика АБ-тестирования для оценки эффективности пилотов в офлайне.
- Лента, Сбер: оценка эффекта пилотов для малого числа объектов на основе подхода synthetic controls.
- Лента: оценка причинно-следственного эффекта, когда АБ-тестирование невозможно (robust causal impact).
Если вам известны и другие бизнес-кейсы применения методов CI – пишите в комментариях, или @irina_goloshchapova. Сделаем дополненную подборку! И запишем вас в авторов выступлений на ближайших мероприятиях по Reliable ML 😊
Этим постом мы завершаем серию публикаций про итоги 2021 г. в causal inference. Далее расскажем про итоги в interpretable ml.
#tech #causal_inference #practice
Разбираем подробнее итоги года в Causal Inference
В 2021 г. авторам канала удалось узнать о существенно большем, чем в 2020 г., числе практических кейсов применения CI методов в бизнес-задачах разных компаний в России.
Среди них выделим две категории: отдельные кейсы применения CI методов, а также развитие АБ-тестирования в офлайне. Кейсы опишем верхнеуровнево, а в 2022 г. попробуем разобрать их детальнее на митапах/конференциях.
Отдельные кейсы
- Мегафон, Data Fest 2021, Causal Methods in Dynamic Pricing – И. Горбань, Д. Пятых. В этом докладе авторы обсуждают методы causal inference и динамической оптимизации применительно к установке цен на товары в сети МегаФон Ритейл.
- Промсофт: анализ влияния рекламы на продажи с помощью interrupted time-series подхода.
- Glowbyte: EDA по оценке отдельных промо-активностей на основе библиотеки EconML, о которой коллеги рассказывали на Data Fest 2021.
- Лента: оценка гало-эффекта установки прилавков в магазинах с помощью causal impact, доработанным в сторону робастности.
- Промсофт: отладка и тюнинг моделей с использованием априорных знаний в доменной области на базе causal shapley values.
Тренды для АБ-тестирования в офлайн-бизнесе
Говорим именно про офлайн, поскольку для онлайн-бизнесов АБ-тесты уже достаточно давно являются базовой гигиеной для принятия решений о развитии бизнеса / оптимизации инвестиционного процесса. А вот офлайн в последние 2-3 года переживает активное развитие АБ.
- Х5 Group, Лента, М.Видео, Промсофт: единая методика АБ-тестирования для оценки эффективности пилотов в офлайне.
- Лента, Сбер: оценка эффекта пилотов для малого числа объектов на основе подхода synthetic controls.
- Лента: оценка причинно-следственного эффекта, когда АБ-тестирование невозможно (robust causal impact).
Если вам известны и другие бизнес-кейсы применения методов CI – пишите в комментариях, или @irina_goloshchapova. Сделаем дополненную подборку! И запишем вас в авторов выступлений на ближайших мероприятиях по Reliable ML 😊
Этим постом мы завершаем серию публикаций про итоги 2021 г. в causal inference. Далее расскажем про итоги в interpretable ml.
#tech #causal_inference #practice
Correlation doesn’t imply causation
Главный тезис эконометрики, который в последние 5 лет прочно пришел и в ML: «Корреляция не подразумевает причинно-следственную связь».
Корреляция - статистическая взаимосвязь двух показателей. Например, вес и рост скоррелированы - обычно более высокие люди весят больше. Но если человек наберет вес или похудеет, его рост не изменится - изменение веса не является причиной изменения роста. При этом если человек вырастет, вес, скорее всего, изменится - изменение роста будет являться причиной изменения веса.
Таким образом, корреляция - это линейная взаимосвязь двух показателей. Если меняется X, то обычно меняется и Y. А причинно-следственная связь показывает, что показатель X вызывает изменение Y или, другими словами, изменение Х является причиной изменения Y.
Вроде все просто и понятно, но, тем не менее, и сейчас, как и многие годы назад, мы продолжаем встречать неожиданные примеры, когда отсутствие внимания к этому тезису приводит к неожиданным проблемам.
Ниже наша подборка примеров.
Знаю, что в нашем канале много профессиональных эконометристов, DS-ов, биостатистиков, и других очень уважаемых людей. Дополняйте подборку и вашими примерами, пожалуйста!
1. Пример, который обычно приводится в лекциях на тему correlation doesn’t imply causation – это взаимосвязь покупок мороженого и солнцезащитных очков (иногда очки заменяют печальным показателем - числом утонувших людей). Эти показатели значимо скоррелированы, но говорить о причинно-следственной связи нельзя – если мы намеренно начнем есть мороженого больше, покупки солнцезащитных очков не увеличатся. Фактор, который определяет динамику этих показателей – погодные условия. Когда тепло, мы больше едим мороженого, и нам больше нужна защита от солнца.
2. В 90-х в рамках осуществлялась оценка применимости ML моделей для снижения издержек на здравоохранение (Cost-Effective HealthCare). По итогам программы нейронные сети значительно превзошли обычные модели (в основном, логрег) по качеству. Но невозможность интерпретировать предсказания нейронных сетей и системно анализировать причинно-следственные связи привело к отказу от их применения для этих задач (на тот момент).
Одной из важнейших задач программы было предсказание вероятности смерти от пневмонии. Цель – госпитализировать только людей с повышенным риском, остальных – лечить амбулаторно, снижая издержки. Rule-based системы для этой задачи показывали, что наличие у человека астмы значительно снижает риск смерти от пневмонии – такая закономерность явно наблюдалась в обучающем датасете. Причиной корреляции этих факторов являлось наличие регулярной врачебной помощи. Люди с астмой находились под особым медицинским наблюдением, следовательно, при заболевании пневмонией, были меньше подвержены осложнениям.
Наличие в проде неинтерпретируемой ML-модели, выучившей подобную закономерность, привело бы к большим проблемам, чего, к счастью, удалось избежать.
3. Результаты знаменитого Стенфордского Зефирного эксперимента долгие годы гласили: сила воли ребенка определяет его успешность в будущем (Walter, Shoda, Peake, 1990). Сила воли в эксперименте понималась как способность ребенка удержаться от съедения запретной зефирки на какое-то время, чтобы в итоге получить большее вознаграждение.
Как выяснилось не так давно (Watts, Dunkan, 2018), в этом эксперименте было критическим влияние третьего фактора – успешности и благополучия родителей. Именно этот фактор в данном эксперименте оказывал влияние как на успешность ребенка в будущем, так и на то, способен ли он был удержаться от сладкого. В более благополучных семьях зефир не являлся для ребенка диковинкой, поэтому и удержаться от того, чтобы его съесть, было проще.
Надо сказать, что научный спор вокруг Зефирного эксперимента еще продолжается – если кто-то заинтересовался темой, ключевые вехи дискуссии можно посмотреть тут (2019 г.) и тут (2020 г.).
#tech #causal_inference #practice
Главный тезис эконометрики, который в последние 5 лет прочно пришел и в ML: «Корреляция не подразумевает причинно-следственную связь».
Корреляция - статистическая взаимосвязь двух показателей. Например, вес и рост скоррелированы - обычно более высокие люди весят больше. Но если человек наберет вес или похудеет, его рост не изменится - изменение веса не является причиной изменения роста. При этом если человек вырастет, вес, скорее всего, изменится - изменение роста будет являться причиной изменения веса.
Таким образом, корреляция - это линейная взаимосвязь двух показателей. Если меняется X, то обычно меняется и Y. А причинно-следственная связь показывает, что показатель X вызывает изменение Y или, другими словами, изменение Х является причиной изменения Y.
Вроде все просто и понятно, но, тем не менее, и сейчас, как и многие годы назад, мы продолжаем встречать неожиданные примеры, когда отсутствие внимания к этому тезису приводит к неожиданным проблемам.
Ниже наша подборка примеров.
Знаю, что в нашем канале много профессиональных эконометристов, DS-ов, биостатистиков, и других очень уважаемых людей. Дополняйте подборку и вашими примерами, пожалуйста!
1. Пример, который обычно приводится в лекциях на тему correlation doesn’t imply causation – это взаимосвязь покупок мороженого и солнцезащитных очков (иногда очки заменяют печальным показателем - числом утонувших людей). Эти показатели значимо скоррелированы, но говорить о причинно-следственной связи нельзя – если мы намеренно начнем есть мороженого больше, покупки солнцезащитных очков не увеличатся. Фактор, который определяет динамику этих показателей – погодные условия. Когда тепло, мы больше едим мороженого, и нам больше нужна защита от солнца.
2. В 90-х в рамках осуществлялась оценка применимости ML моделей для снижения издержек на здравоохранение (Cost-Effective HealthCare). По итогам программы нейронные сети значительно превзошли обычные модели (в основном, логрег) по качеству. Но невозможность интерпретировать предсказания нейронных сетей и системно анализировать причинно-следственные связи привело к отказу от их применения для этих задач (на тот момент).
Одной из важнейших задач программы было предсказание вероятности смерти от пневмонии. Цель – госпитализировать только людей с повышенным риском, остальных – лечить амбулаторно, снижая издержки. Rule-based системы для этой задачи показывали, что наличие у человека астмы значительно снижает риск смерти от пневмонии – такая закономерность явно наблюдалась в обучающем датасете. Причиной корреляции этих факторов являлось наличие регулярной врачебной помощи. Люди с астмой находились под особым медицинским наблюдением, следовательно, при заболевании пневмонией, были меньше подвержены осложнениям.
Наличие в проде неинтерпретируемой ML-модели, выучившей подобную закономерность, привело бы к большим проблемам, чего, к счастью, удалось избежать.
3. Результаты знаменитого Стенфордского Зефирного эксперимента долгие годы гласили: сила воли ребенка определяет его успешность в будущем (Walter, Shoda, Peake, 1990). Сила воли в эксперименте понималась как способность ребенка удержаться от съедения запретной зефирки на какое-то время, чтобы в итоге получить большее вознаграждение.
Как выяснилось не так давно (Watts, Dunkan, 2018), в этом эксперименте было критическим влияние третьего фактора – успешности и благополучия родителей. Именно этот фактор в данном эксперименте оказывал влияние как на успешность ребенка в будущем, так и на то, способен ли он был удержаться от сладкого. В более благополучных семьях зефир не являлся для ребенка диковинкой, поэтому и удержаться от того, чтобы его съесть, было проще.
Надо сказать, что научный спор вокруг Зефирного эксперимента еще продолжается – если кто-то заинтересовался темой, ключевые вехи дискуссии можно посмотреть тут (2019 г.) и тут (2020 г.).
#tech #causal_inference #practice
4. Серия Смешариков о борьбе с холодом замечательно показывает отличие корреляции от причинно-следственной связи на примере связи примет и изменения погоды. Придет ли весна к тебе быстрее, если прогнать из своего двора всех зябликов, вырубить черемуху и изменить направление дыма из трубы?
5. Немецкое издание Gawker.com в 2013 г. вольно проинтерпретировало выводы статьи «The Effect of Sexual Activity on Wages». В статье автор нашел значительную корреляцию частоты сексуальных контактов для домохозяйств в Греции и величиной их дохода, но явно уточнил, что исследования на наличие causal взаимосвязи не проводилось. Однако немецкому изданию это не помешало выйти с большими выводами о том, как прийти к высокому доходу в Германии.
#tech #causal_inference #practice
5. Немецкое издание Gawker.com в 2013 г. вольно проинтерпретировало выводы статьи «The Effect of Sexual Activity on Wages». В статье автор нашел значительную корреляцию частоты сексуальных контактов для домохозяйств в Греции и величиной их дохода, но явно уточнил, что исследования на наличие causal взаимосвязи не проводилось. Однако немецкому изданию это не помешало выйти с большими выводами о том, как прийти к высокому доходу в Германии.
#tech #causal_inference #practice
Causal Inference в динамическом ценообразовании
Иван Горбань и Денис Пятых начали публикацию серии статей о методах причинно-следственного анализа в динамическом ценообразовании.
Статьи являются развитием доклада Вани и Дениса на Data Fest Online 2021 - Causal methods in dynamic pricing, где они рассказали о методах causal inference и динамической оптимизации, применительно к установке цен на товары в сети МегаФон.
Первая статья посвящена мотивации применения методов causal inference в задачах ML, гармонично дополняя предыдущий пост нашего канала о том что correlation doesn’t imply causation. В тексте Ваня разбирает этот тезис, ключевые причины, почему корреляция не предполагает причинно-следственную связь, а затем переходит к применению этих знаний для ML задач и конкретно кейса про ценообразование.
Кстати, Ваня Горбань – соавтор подкаста «Данные люди», где тимлиды DS (Ваня и Артём Глазунов) в формате войс-чата в телеграм-канале @bigdatapeople общаются с интересными людьми из сферы анализа данных. Они обсуждают, какое влияние большие данные оказывают на развитие мира, говорят о науке, бизнесе, философии и этике. Ребята вместе с гостями разбираются, где люди применяют анализ данных, как этому научиться, зачем это нужно и что ждет нас в будущем.
#tech #causal_inference #practice
Иван Горбань и Денис Пятых начали публикацию серии статей о методах причинно-следственного анализа в динамическом ценообразовании.
Статьи являются развитием доклада Вани и Дениса на Data Fest Online 2021 - Causal methods in dynamic pricing, где они рассказали о методах causal inference и динамической оптимизации, применительно к установке цен на товары в сети МегаФон.
Первая статья посвящена мотивации применения методов causal inference в задачах ML, гармонично дополняя предыдущий пост нашего канала о том что correlation doesn’t imply causation. В тексте Ваня разбирает этот тезис, ключевые причины, почему корреляция не предполагает причинно-следственную связь, а затем переходит к применению этих знаний для ML задач и конкретно кейса про ценообразование.
Кстати, Ваня Горбань – соавтор подкаста «Данные люди», где тимлиды DS (Ваня и Артём Глазунов) в формате войс-чата в телеграм-канале @bigdatapeople общаются с интересными людьми из сферы анализа данных. Они обсуждают, какое влияние большие данные оказывают на развитие мира, говорят о науке, бизнесе, философии и этике. Ребята вместе с гостями разбираются, где люди применяют анализ данных, как этому научиться, зачем это нужно и что ждет нас в будущем.
#tech #causal_inference #practice
Применение методов Causal Inference
Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.
Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.
В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.
#business #causal_inference #practice
Потребность в применении методов причинно-следственного анализа развивается со временем. В начале она была сконцентрирована, в основном, в науках: социальных науках, экономике, медицине, биологии, генетике. В последние пять лет наблюдается резкий рост этой потребности для бизнеса. Основными отраслями применения методов являются IT-компании, игровая индустрия, ритейл и e-commerce.
Ключевыми используемыми методами являются АБ-тесты, но с каждым годом встречается все больше отдельных интересных кейсов. Часто эти кейсы возникают из проблем применения классического ML для задач, когда мы хотим управлять параметрами моделей, тем самым, меняя целевую переменную Y. К этой категории можно отнести истории про исключение эффекта эндогенности при исследовании эффекта изменения цен на выручку при динамическом ценообразовании, оценку реального причинно-следственного эффекта изменения параметров персональной промо-кампании на выручку, которую она генерирует (uplift-модели), повышение эффективности работы прокатного стана за счет управления параметрами его работы, оценка эффекта генерации дополнительного спроса от установки различных видов прилавков (мясо, рыба, хлеб, и др.) в продуктовых магазинах.
В целом, о кейсах бизнес-применения causal inference 2021 г. я рассказывала в одном из постов @Reliable_ML еще в начале года.
#business #causal_inference #practice