Секция Reliable ML - Data Fest 3.0 - Ждем всех к 10:00
Допиваем кофе и в 10:00 по Мск стартуем нашу секцию!
К нам можно присоединиться через спатиал.чат (инструкция), или просто смотреть трансляцию на youtube.
В спатиале нужно найти комнату Reliable ML, а там уже все свои)
Допиваем кофе и в 10:00 по Мск стартуем нашу секцию!
К нам можно присоединиться через спатиал.чат (инструкция), или просто смотреть трансляцию на youtube.
В спатиале нужно найти комнату Reliable ML, а там уже все свои)
🔥5👍4
Reliable ML - Пост для вопросов 5 июня 2022 г.
В комментариях к этому посту сегодня можно задавать вопросы докладчикам и экспертам круглых столов.
Итого, текстом вопросы можно задать:
- в spatial.chat (лучше всего)
- в комментах к этому посту
- в трансляции на youtube
Еще мега-вариант - написать в spatial.chat организаторам (Ирина Голощапова, Дмитрий Колодезев), что вы хотели бы задать свой вопрос докладчику, выйдя на сцену, и тогда мы вас подключим после доклада.
В комментариях к этому посту сегодня можно задавать вопросы докладчикам и экспертам круглых столов.
Итого, текстом вопросы можно задать:
- в spatial.chat (лучше всего)
- в комментах к этому посту
- в трансляции на youtube
Еще мега-вариант - написать в spatial.chat организаторам (Ирина Голощапова, Дмитрий Колодезев), что вы хотели бы задать свой вопрос докладчику, выйдя на сцену, и тогда мы вас подключим после доклада.
👍2
Reliable ML - Data Fest 3.0 - Мы сделали это!
Вчера с 10 утра и почти до 8 вечера нон-стоп шла трансляция нашей секции Reliable ML.
Огромное спасибо всем спикерам, экспертам круглых столов и участникам! 🥳
Отличные доклады, детальные вопросы, крутая дискуссия.
Мы очень старались сделать мероприятие интересным и надеемся, что у нас получилось.
Для тех, кто вчера не успел присоединиться, доступна полная запись трансляции.
Презентации спикеров - по мере получения - пока будем выкладывать в комментариях к этому посту. Далее добавим их на страницу трека - вместе с отдельными видео докладов (с хорошим звуком 😄).
Вчера с 10 утра и почти до 8 вечера нон-стоп шла трансляция нашей секции Reliable ML.
Огромное спасибо всем спикерам, экспертам круглых столов и участникам! 🥳
Отличные доклады, детальные вопросы, крутая дискуссия.
Мы очень старались сделать мероприятие интересным и надеемся, что у нас получилось.
Для тех, кто вчера не успел присоединиться, доступна полная запись трансляции.
Презентации спикеров - по мере получения - пока будем выкладывать в комментариях к этому посту. Далее добавим их на страницу трека - вместе с отдельными видео докладов (с хорошим звуком 😄).
YouTube
ODS Data Fest Online 3.0, June 5 - Reliable ML
Эфир 5 июня - секция Reliable ML:
10:00 - Полина Окунева - Causal Inference. Advanced методы моделирования.
10:45 - Егор Кобылкин, Иван Комаров и Глеб Соснин - Эффективны ли вакцины?
11:30 - Наталья Тоганова - Что такое p-value? Достаточно ли одного показателя?…
10:00 - Полина Окунева - Causal Inference. Advanced методы моделирования.
10:45 - Егор Кобылкин, Иван Комаров и Глеб Соснин - Эффективны ли вакцины?
11:30 - Наталья Тоганова - Что такое p-value? Достаточно ли одного показателя?…
🔥33👍6
Где внедрение ML даст наибольшую отдачу?
На секции Reliable ML 5 июня было много технических дискуссий. Давайте немного переключимся и обсудим бизнес-аспекты этой концепции.
Инвестируя в построение продвинутой аналитики, компании сталкиваются с проблемой выбора направления развития. Необходимо учесть не только уровень и масштаб самой компании, но и специфику рынка и уровень погружения компании в технологии.
Концепция Reliable ML предлагает начать с составления карты возможных инициатив (списка всех возможных направлений для инвестиций). Для этого предлагается проанализировать международный и отраслевой опыт и провести интервью с подразделениями компании, заинтересованными во внедрении продвинутой аналитики. По каждой инициативе желательно понимать: цель, ожидаемый результат, необходимый состав данных, функционал итогового решения, регулярность обновления результата и требования к актуальности данных, ожидаемые эффект и издержки, приоритет задачи от бизнеса, а также ожидаемые сроки реализации MVP и, верхнеуровнево, дальнейшей продуктивизации.
На основе карты возможных инициатив мы можем ранжировать возможные инвестиции, используя набор универсальных критериев. Это может быть скоринг, в котором конкретные веса задаются с учетом специфики компании, либо общее понимание возможных направлений развития.
Ключевые принципы ранжирования
Actionable:
- Сложность реализации инициативы средствами ML/DS
- Применимость инициативы для текущих бизнес-процессов
Measurable:
- Возможность проведения пилотного эксперимента для тестирования данной инициативы и корректной оценки ее эффекта на ключевые бизнес-показатели компании
Impact:
- Возможность рассчитать ожидаемый эффект от внедрения инициативы на ключевые бизнес-показатели компании
- Является ли ожидаемый эффект материальным с точки зрения PnL компании
- Является ли ожидаемый эффект достижимым в ближайшие 12 месяцев (Quick-Wins First)
Business Priority:
- Оценка приоритетности выполнения инициативы со стороны вовлеченных во внедрение инициативы бизнес-подразделений
Positive Business Case:
- Превышает ли ожидаемый эффект от реализации инициативы затраты на проект
- Инициатива может быть встроена в бизнес-процессы в ближайшие 12 месяцев (Quick-Wins First)
#business #planning
На секции Reliable ML 5 июня было много технических дискуссий. Давайте немного переключимся и обсудим бизнес-аспекты этой концепции.
Инвестируя в построение продвинутой аналитики, компании сталкиваются с проблемой выбора направления развития. Необходимо учесть не только уровень и масштаб самой компании, но и специфику рынка и уровень погружения компании в технологии.
Концепция Reliable ML предлагает начать с составления карты возможных инициатив (списка всех возможных направлений для инвестиций). Для этого предлагается проанализировать международный и отраслевой опыт и провести интервью с подразделениями компании, заинтересованными во внедрении продвинутой аналитики. По каждой инициативе желательно понимать: цель, ожидаемый результат, необходимый состав данных, функционал итогового решения, регулярность обновления результата и требования к актуальности данных, ожидаемые эффект и издержки, приоритет задачи от бизнеса, а также ожидаемые сроки реализации MVP и, верхнеуровнево, дальнейшей продуктивизации.
На основе карты возможных инициатив мы можем ранжировать возможные инвестиции, используя набор универсальных критериев. Это может быть скоринг, в котором конкретные веса задаются с учетом специфики компании, либо общее понимание возможных направлений развития.
Ключевые принципы ранжирования
Actionable:
- Сложность реализации инициативы средствами ML/DS
- Применимость инициативы для текущих бизнес-процессов
Measurable:
- Возможность проведения пилотного эксперимента для тестирования данной инициативы и корректной оценки ее эффекта на ключевые бизнес-показатели компании
Impact:
- Возможность рассчитать ожидаемый эффект от внедрения инициативы на ключевые бизнес-показатели компании
- Является ли ожидаемый эффект материальным с точки зрения PnL компании
- Является ли ожидаемый эффект достижимым в ближайшие 12 месяцев (Quick-Wins First)
Business Priority:
- Оценка приоритетности выполнения инициативы со стороны вовлеченных во внедрение инициативы бизнес-подразделений
Positive Business Case:
- Превышает ли ожидаемый эффект от реализации инициативы затраты на проект
- Инициатива может быть встроена в бизнес-процессы в ближайшие 12 месяцев (Quick-Wins First)
#business #planning
👍19🔥1
Страница трека Reliable ML для Data Fest 3.0 полностью оформлена
На странице трека для каждого доклада добавлены:
- Видео доклада с хорошим звуком
- Презентация
- Видео обсуждения доклада
Список докладов:
1. П. Окунева. Causal Inference. Advanced методы моделирования.
2. Е. Кобылкин, И. Комаров, Г. Соснин. Эффективны ли вакцины?
3. Н. Тоганова. Что такое p-value? Достаточно ли одного показателя? Причем тут мощность и доверительные интервалы?
4. В. Сизов, А. Григорьева. От look-alike до uplift в моделях для жизненного цикла клиента.
5. Г. Чернов. Intro in structural learning and causal discovery.
6. И. Комаров, Г. Чернов, И. Горбань, Д. Колодезев, И. Голощапова. Круглый стол. Causal Inference in ML.
7. Д. Колодезев. Что нового в интерпретируемости ML-моделей.
8. В. Борисов. Сравнение алгоритмов интерпретации.
9. К. Быков, Д. Савенков, В. Борисов, Д. Колодезев, И. Голощапова. Круглый стол. Interpretable ML.
10. В. Бабушкин, А. Натекин, А. Бородин, Д. Колодезев, И. Голощапова. Круглый стол. ML System Design
На странице трека для каждого доклада добавлены:
- Видео доклада с хорошим звуком
- Презентация
- Видео обсуждения доклада
Список докладов:
1. П. Окунева. Causal Inference. Advanced методы моделирования.
2. Е. Кобылкин, И. Комаров, Г. Соснин. Эффективны ли вакцины?
3. Н. Тоганова. Что такое p-value? Достаточно ли одного показателя? Причем тут мощность и доверительные интервалы?
4. В. Сизов, А. Григорьева. От look-alike до uplift в моделях для жизненного цикла клиента.
5. Г. Чернов. Intro in structural learning and causal discovery.
6. И. Комаров, Г. Чернов, И. Горбань, Д. Колодезев, И. Голощапова. Круглый стол. Causal Inference in ML.
7. Д. Колодезев. Что нового в интерпретируемости ML-моделей.
8. В. Борисов. Сравнение алгоритмов интерпретации.
9. К. Быков, Д. Савенков, В. Борисов, Д. Колодезев, И. Голощапова. Круглый стол. Interpretable ML.
10. В. Бабушкин, А. Натекин, А. Бородин, Д. Колодезев, И. Голощапова. Круглый стол. ML System Design
🔥19👍3
Разбор статьи от автора - DORA: Exploring outlier representations in Deep Neural Networks
Недавно в arxiv была опубликована статья по проблеме обнаружения аномальных репрезентаций в предобученных нейронных сетях. Кирилл Быков, PhD student в TU Berlin – Understandable Machine Intelligence Lab, участник нашего недавнего круглого стола по Interpretable ML, соавтор статьи, рассказал о главных выводах исследования:
"Популярность и эффективность глубоких нейронных сетей обусловлена их способностью к обучению сложных высокоуровневых абстракций. Последние исследования показывают, что достаточно часто на практике нейронные сети склонны к выучиванию различных артефактов и вредоносных стереотипов из-за пагубных корреляций, присущих обучающей выборке, что в дальнейшем может привести к ошибкам в работе алгоритма. В статье представляется первый автоматический метод для диагностики нейронных сетей для обнаружения потенциально "зараженных" репрезентаций в глубоких нейронных сетях – DORA (Data-agnOstic Representation Analysis). Зараженные репрезентации, найденные с помощью DORA, могут быть использованы для выявления зараженных данных — например с последующим удалением из обучающей выборки и ре-тренировкой сети.
Метод основан на идее "самообъяснения" нейронных сетей путем извлечения семантической информации, содержащейся в синтетических сигналах, которые максимально активизируют репрезентации(s-AMS), и дальнейшего использования этой информации для выявления аномальных (и потенциально зараженных) репрезентаций.
В статье демонстрируется проблема репрезентаций-детекторов-водяных знаков в популярных предобученных сетях на ImageNet, и впервые идентифицируются, в каких конкретно репрезентациях этот эффект изолирован. Дополнительно демонстрируется, что даже после finetuning'а предобученных сетей этот эффект может оставаться, что может быть опасно при использовании таких сетей в critical-safety областях, таких как медицина.
В качестве метрики "инфицированности" репрезентаций вредными абстракциями используется метрика AUC ROC для задачи бинарной классификации между изображениями с и без добавленным на изображения артефактом — например, латинскими или китайскими водяными знаками. Так, в статье показано, что DORA хорошо справляется с детектированием подобных "инфицированных" репрезентаций.
DORA делает первый шаг к автоматическому анализу репрезентаций в глубоких нейронных сетях — в эпоху large-scale моделей, локальных методов объяснения (отвечающие на вопрос о том, почему было принято решение на конкретном примере) может быть недостаточно, чтобы полностью понять механизм принятия решений. Так, в статье DORA применяется к CLIP — популярной модели от OpenAI для генерации описания изображений. Удалось автоматически выявить репрезентации, отвечающие за распознавание порнографического контента, наркотиков, агрессии и др."
Ссылка на статью: https://arxiv.org/abs/2206.04530
Гитхаб: https://github.com/lapalap/dora
#tech #interpretable_ml
Недавно в arxiv была опубликована статья по проблеме обнаружения аномальных репрезентаций в предобученных нейронных сетях. Кирилл Быков, PhD student в TU Berlin – Understandable Machine Intelligence Lab, участник нашего недавнего круглого стола по Interpretable ML, соавтор статьи, рассказал о главных выводах исследования:
"Популярность и эффективность глубоких нейронных сетей обусловлена их способностью к обучению сложных высокоуровневых абстракций. Последние исследования показывают, что достаточно часто на практике нейронные сети склонны к выучиванию различных артефактов и вредоносных стереотипов из-за пагубных корреляций, присущих обучающей выборке, что в дальнейшем может привести к ошибкам в работе алгоритма. В статье представляется первый автоматический метод для диагностики нейронных сетей для обнаружения потенциально "зараженных" репрезентаций в глубоких нейронных сетях – DORA (Data-agnOstic Representation Analysis). Зараженные репрезентации, найденные с помощью DORA, могут быть использованы для выявления зараженных данных — например с последующим удалением из обучающей выборки и ре-тренировкой сети.
Метод основан на идее "самообъяснения" нейронных сетей путем извлечения семантической информации, содержащейся в синтетических сигналах, которые максимально активизируют репрезентации(s-AMS), и дальнейшего использования этой информации для выявления аномальных (и потенциально зараженных) репрезентаций.
В статье демонстрируется проблема репрезентаций-детекторов-водяных знаков в популярных предобученных сетях на ImageNet, и впервые идентифицируются, в каких конкретно репрезентациях этот эффект изолирован. Дополнительно демонстрируется, что даже после finetuning'а предобученных сетей этот эффект может оставаться, что может быть опасно при использовании таких сетей в critical-safety областях, таких как медицина.
В качестве метрики "инфицированности" репрезентаций вредными абстракциями используется метрика AUC ROC для задачи бинарной классификации между изображениями с и без добавленным на изображения артефактом — например, латинскими или китайскими водяными знаками. Так, в статье показано, что DORA хорошо справляется с детектированием подобных "инфицированных" репрезентаций.
DORA делает первый шаг к автоматическому анализу репрезентаций в глубоких нейронных сетях — в эпоху large-scale моделей, локальных методов объяснения (отвечающие на вопрос о том, почему было принято решение на конкретном примере) может быть недостаточно, чтобы полностью понять механизм принятия решений. Так, в статье DORA применяется к CLIP — популярной модели от OpenAI для генерации описания изображений. Удалось автоматически выявить репрезентации, отвечающие за распознавание порнографического контента, наркотиков, агрессии и др."
Ссылка на статью: https://arxiv.org/abs/2206.04530
Гитхаб: https://github.com/lapalap/dora
#tech #interpretable_ml
👍9
Разбор статьи от автора - DORA: Exploring outlier representations in Deep Neural Networks
Обнаружение аномальных репрезентаций в ResNet18, предобученной на ImageNet. DORA автоматически обнаруживает потенциально инфицированные нейроны (154, 314) — детекторы китайских водяных знаков. Соответствующие синтетические сигналы, активизирующие найденные репрезентации (и их ближайших соседей в пространстве репрезентаций) показаны в центре. Справа показана мера "инфицированности" нейронов в задаче бинарной классификации изображений с и без добавленных водяных знаков, где показатели представлены в виде ROC-кривых. Нейрон 154, найденный DORA, демонстрирует самое высокое значение AUC (зеленая кривая), за ним следуют его ближайшие соседи.
Ссылка на статью: https://arxiv.org/abs/2206.04530
Гитхаб: https://github.com/lapalap/dora
#tech #interpretable_ml
Обнаружение аномальных репрезентаций в ResNet18, предобученной на ImageNet. DORA автоматически обнаруживает потенциально инфицированные нейроны (154, 314) — детекторы китайских водяных знаков. Соответствующие синтетические сигналы, активизирующие найденные репрезентации (и их ближайших соседей в пространстве репрезентаций) показаны в центре. Справа показана мера "инфицированности" нейронов в задаче бинарной классификации изображений с и без добавленных водяных знаков, где показатели представлены в виде ROC-кривых. Нейрон 154, найденный DORA, демонстрирует самое высокое значение AUC (зеленая кривая), за ним следуют его ближайшие соседи.
Ссылка на статью: https://arxiv.org/abs/2206.04530
Гитхаб: https://github.com/lapalap/dora
#tech #interpretable_ml
👍6🔥1
Интерпретируемость ML-моделей: каждому свое
Даешь каждому пользователю по интерпретации!
Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенности задач, которые он решает.
Типичные пользователи ML-продукта:
- Заказчик ML-решения. Оплачиваетбанкет разработку ML-продукта. Главная цель - финансовый результат внедрения ML-модели. Хотел бы доверять результату работы модели и избежать неприемлемого ущерба в случае ошибки в работе модели.
- Исполнитель/разработчик ML-решения. Команда data scientist-ов, непосредственно занимающаяся исследованиями и разработкой решения. Используют техники интерпретируемости во время работы над моделью, чтобы улучшить ее качество (целевые метрики).
- Gatekeeper. Тот, кто отвечает за качество внедряемых моделей. В маленьких компаниях это может быть владелец продукта, в большой - комитет по качеству моделей, группа по анализу рисков, группа валидации моделей. Для него важны: устойчивость решения, соответствие модели требованиям пользователя и заказчика.
- Пользователь ML-решения. Непосредственно использует или поддерживает работу модели в бизнес-процессах компании. Хотел бы понимать границы применимости модели. Нуждается в способе определить, что модель "занесло", и в инструкциях - что делать в этом случае.
В качестве примера можно рассмотреть разработку системы по извлечению коммерческой информации из сканов документов. Система распознает сканы, ищет цены на кабель, определяет марку кабеля, цену, поставщика, производителя, сохраняет в базу данных и предоставляет API для нечеткого поиска по товарной номенклатуре.
Заказчику важно знать, что модель сокращает трудозатраты примерно в 10 раз при том же количестве ошибок. Финансовый результат оценивается по статистике работы менеджеров, использующих новую систему. Перед запуском системы в работу он вместе с командой разобрал 10 самых лучших и 10 самых худших примеров, дал обратную связь и спокойно пошел руководить дальше.
Исполнителю/разработчику ML-решения хочется выкрутить качество побольше. Ему интересно - куда крутить. Тепловые карты картинок с ошибками, визуализация attention нейронной сети - важнейшие инструменты в его работе над моделью.
Руководителю разработки важно понимать, что успех модели неслучаен. Его беспокоит дисперсия качества модели на кросс-валидации. Он опасается, что модель могла обучиться на случайных совпадениях в данных. Ему интересно внимательно посмотреть на топ-10 признаков модели на предмет "физичности" и непротиворечивости требованиям бизнес-заказчика.
Пользователю ML-решения важно знать, что модель часто путает отдельные символы в тексте (например, G и 6) и от этого могут случиться проблемы.
#interpretable_ml #business
Даешь каждому пользователю по интерпретации!
Интерпретируемость ML-моделей - очень широкая концепция. То, насколько интерпретация хороша, зависит не только от инструментов и отчетов, которые мы предоставляем пользователю, но и от потребностей пользователя и особенности задач, которые он решает.
Типичные пользователи ML-продукта:
- Заказчик ML-решения. Оплачивает
- Исполнитель/разработчик ML-решения. Команда data scientist-ов, непосредственно занимающаяся исследованиями и разработкой решения. Используют техники интерпретируемости во время работы над моделью, чтобы улучшить ее качество (целевые метрики).
- Gatekeeper. Тот, кто отвечает за качество внедряемых моделей. В маленьких компаниях это может быть владелец продукта, в большой - комитет по качеству моделей, группа по анализу рисков, группа валидации моделей. Для него важны: устойчивость решения, соответствие модели требованиям пользователя и заказчика.
- Пользователь ML-решения. Непосредственно использует или поддерживает работу модели в бизнес-процессах компании. Хотел бы понимать границы применимости модели. Нуждается в способе определить, что модель "занесло", и в инструкциях - что делать в этом случае.
В качестве примера можно рассмотреть разработку системы по извлечению коммерческой информации из сканов документов. Система распознает сканы, ищет цены на кабель, определяет марку кабеля, цену, поставщика, производителя, сохраняет в базу данных и предоставляет API для нечеткого поиска по товарной номенклатуре.
Заказчику важно знать, что модель сокращает трудозатраты примерно в 10 раз при том же количестве ошибок. Финансовый результат оценивается по статистике работы менеджеров, использующих новую систему. Перед запуском системы в работу он вместе с командой разобрал 10 самых лучших и 10 самых худших примеров, дал обратную связь и спокойно пошел руководить дальше.
Исполнителю/разработчику ML-решения хочется выкрутить качество побольше. Ему интересно - куда крутить. Тепловые карты картинок с ошибками, визуализация attention нейронной сети - важнейшие инструменты в его работе над моделью.
Руководителю разработки важно понимать, что успех модели неслучаен. Его беспокоит дисперсия качества модели на кросс-валидации. Он опасается, что модель могла обучиться на случайных совпадениях в данных. Ему интересно внимательно посмотреть на топ-10 признаков модели на предмет "физичности" и непротиворечивости требованиям бизнес-заказчика.
Пользователю ML-решения важно знать, что модель часто путает отдельные символы в тексте (например, G и 6) и от этого могут случиться проблемы.
#interpretable_ml #business
👍11🔥1
Интерпретируемость ML моделей для конечного пользователя: где нужна на практике и что делать
Где нужна на практике
Мы недавно рассмотрели ключевых пользователей интерпретации ML-моделей и различия в их потребностях в интерпретации.
На практике - и в рамках концепции Reliable ML - ключевой целью работы над моделью является ее итоговое применение в бизнес-процессах и финансовая польза от этого применения. Следовательно, ключевыми целями интерпретации являются цели бизнес-заказчика (финансовая польза) и пользователя ML-решения (корректное применение в бизнес-процессе).
При этом чаще всего и бизнес-заказчик и пользователь ML-решения формулируют требования и участвуют в приемке решения совместно, поэтому для простоты в некоторой литературе их называют конечными пользователями модели.
В каких блоках цикла управления продуктом продвинутой аналитики интерпретируемость моделей машинного обучения для конечного пользователя вашей модели становится важной? Поделимся своим видением.
В отдельных случаях критично думать об интерпретируемости уже на этапе разработки MVP. Особенно, когда нужно «продать» ваше решение конечному пользователю, или при очень высокой цене ошибки, когда без интерпретируемости моделей бизнес не готов идти даже на проведение пилота.
Но наиболее важное значение интерпретируемость имеет на этапах внедрения решения и мониторинга модельного риска. То есть, понятность модели конечным пользователям приобретает критическое значение именно тогда, когда модель доказала свою эффективность по итогам пилотного эксперимента и было принято решение о ролл-ауте (масштабировании модели на все целевые объекты).
Что именно становится важным?
- Доверие к результату. Принятие решений моделью должно быть понятно бизнесу как в целом (global interpretation), так и на отдельных примерах (local interpretation).
В случае низкого доверия к работе модели и к её логике принятия решений (модель позиционируется или воспринимается как черный ящик) сильно возрастают трудности с интеграцией модели в бизнес-процесс и обучением конечных пользователей ее использованию. Попросту говоря, моделью не хотят пользоваться, нарушают рекомендации, а если что-то идет не так, то виновата всегда модель. Особенно, если решение о ее ролл-ауте в итоге было принято сверху.
И наоборот, высокое доверие к модели способствует ее корректному применению и эффективной и быстрой интеграции в бизнес-процессы.
- Применимость модели в реальных условиях. Реальные условия, в которых работает модель, всегда так или иначе отличаются от тех, на которых она строилась. Кажется, что это уже ни для кого не секрет на фоне большого числа форс-мажорных событий последних лет.
Понятность модели конечному пользователю в продуктиве – как модель пришла к конкретному результату (данные, факторы, логика работы, итоговый прогноз/рекомендация) – снижает риск некорректного применения модели на новых данных, при сложных кейсах, в меняющейся среде. В случае аномального поведения модели человек, которому понятна модель, с большей вероятностью исправит или предотвратит неправильное решение. Митигации риска аномального поведения модели с технической стороны также очень помогают системы мониторинга модельного риска. О них мы поговорим в отдельных постах.
- Информативность для бизнес-процесса. Конечному пользователю должно быть понятно, что делать при виде результата работы модели. Именно это называют информативностью. То есть, для работы в боевых условиях чаще всего критически важно, чтобы результат работы был не просто красивыми сведениями, а содержал конкретную рекомендацию к действию (push to action).
#interpretable_ml #business
Где нужна на практике
Мы недавно рассмотрели ключевых пользователей интерпретации ML-моделей и различия в их потребностях в интерпретации.
На практике - и в рамках концепции Reliable ML - ключевой целью работы над моделью является ее итоговое применение в бизнес-процессах и финансовая польза от этого применения. Следовательно, ключевыми целями интерпретации являются цели бизнес-заказчика (финансовая польза) и пользователя ML-решения (корректное применение в бизнес-процессе).
При этом чаще всего и бизнес-заказчик и пользователь ML-решения формулируют требования и участвуют в приемке решения совместно, поэтому для простоты в некоторой литературе их называют конечными пользователями модели.
В каких блоках цикла управления продуктом продвинутой аналитики интерпретируемость моделей машинного обучения для конечного пользователя вашей модели становится важной? Поделимся своим видением.
В отдельных случаях критично думать об интерпретируемости уже на этапе разработки MVP. Особенно, когда нужно «продать» ваше решение конечному пользователю, или при очень высокой цене ошибки, когда без интерпретируемости моделей бизнес не готов идти даже на проведение пилота.
Но наиболее важное значение интерпретируемость имеет на этапах внедрения решения и мониторинга модельного риска. То есть, понятность модели конечным пользователям приобретает критическое значение именно тогда, когда модель доказала свою эффективность по итогам пилотного эксперимента и было принято решение о ролл-ауте (масштабировании модели на все целевые объекты).
Что именно становится важным?
- Доверие к результату. Принятие решений моделью должно быть понятно бизнесу как в целом (global interpretation), так и на отдельных примерах (local interpretation).
В случае низкого доверия к работе модели и к её логике принятия решений (модель позиционируется или воспринимается как черный ящик) сильно возрастают трудности с интеграцией модели в бизнес-процесс и обучением конечных пользователей ее использованию. Попросту говоря, моделью не хотят пользоваться, нарушают рекомендации, а если что-то идет не так, то виновата всегда модель. Особенно, если решение о ее ролл-ауте в итоге было принято сверху.
И наоборот, высокое доверие к модели способствует ее корректному применению и эффективной и быстрой интеграции в бизнес-процессы.
- Применимость модели в реальных условиях. Реальные условия, в которых работает модель, всегда так или иначе отличаются от тех, на которых она строилась. Кажется, что это уже ни для кого не секрет на фоне большого числа форс-мажорных событий последних лет.
Понятность модели конечному пользователю в продуктиве – как модель пришла к конкретному результату (данные, факторы, логика работы, итоговый прогноз/рекомендация) – снижает риск некорректного применения модели на новых данных, при сложных кейсах, в меняющейся среде. В случае аномального поведения модели человек, которому понятна модель, с большей вероятностью исправит или предотвратит неправильное решение. Митигации риска аномального поведения модели с технической стороны также очень помогают системы мониторинга модельного риска. О них мы поговорим в отдельных постах.
- Информативность для бизнес-процесса. Конечному пользователю должно быть понятно, что делать при виде результата работы модели. Именно это называют информативностью. То есть, для работы в боевых условиях чаще всего критически важно, чтобы результат работы был не просто красивыми сведениями, а содержал конкретную рекомендацию к действию (push to action).
#interpretable_ml #business
👍3👏3🔥1
Картинка к посту.
Наиболее важное значение интерпретируемость имеет на этапах внедрения решения и мониторинга модельного риска. В отдельных случаях критично думать об интерпретируемости уже на этапе разработки MVP.
#interpretable_ml #business
Наиболее важное значение интерпретируемость имеет на этапах внедрения решения и мониторинга модельного риска. В отдельных случаях критично думать об интерпретируемости уже на этапе разработки MVP.
#interpretable_ml #business
👍6🔥1
Интерпретируемость ML моделей для конечного пользователя: где нужна на практике и что делать
Что делать. Часть 1
В предыдущем посте мы разобрали, где на практике бывает нужна интерпретируемость моделей для конечного пользователя.
А теперь на каком-то примере из жизни подумаем, что можно сделать со всеми этими потребностями.
Давайте представим, что вы строите систему оптимизации ассортимента для магазинов крупной торговой сети. Результат работы вашей модели в первом приближении – это оптимальная матрица товаров для каждого магазина, или ассортиментная матрица. Конечный пользователь модели – категорийные менеджеры, управляющие жизненным циклом отдельных категорий товаров (КМ, пользователи ML-решения), и их руководство (бизнес-заказчик ML-решения).
Чаще всего, в первом приближении ваша модель машинного обучения для них – это черный ящик.
Как повысить доверие к результату?
Объяснить КМ логику работы моделей прогноза спроса, которые стоят в основе вашего решения. Наиболее популярные на практике методы global и local интерпретации моделей – это SHAP для алгоритмов на табличных данных и Grad-CAM для глубокого обучения.
Повышению доверия к модели на практике также сильно помогает возможность для конечного пользователя самому создавать локальные прогнозы спроса для отдельных товаров и видеть результат и его объяснение (возможность «потрогать инструмент руками»).
Все это хорошо, скажете вы. Но это про спрос на отдельные товары, а как объяснить КМ, почему модель в итоге предлагает именно такую комбинацию товаров для каждого магазина, а не другую? Как объяснить саму оптимизацию?
Каких-либо инструментов interpretable ml, объясняющих как модель пришла к оптимальному результату в пространстве возможных решений, пока нет. Но не все потеряно. На практике вам может помочь та же самая возможность «потрогать руками». Если дать возможность конечному пользователю вручную менять комбинации товаров для магазина на свое усмотрение и смотреть на прогноз совокупного спроса (или выигрыша относительно текущей ситуации), это значительно повышает его доверие ко всей системе в целом. Если у вас реализована и первая часть – возможность «провалиться» в прогноз и интерпретацию прогноза отдельных товаров, то это почти победа.
Как усилить применимость модели в реальных условиях?
Реализация пункта «доверие к результату» уже положительно влияет на применимость модели в реальных условиях. КМ, неуверенный в итоговых результатах работы модели сможет посмотреть отдельные прогнозы, попробовать другие варианты и принять финальное решение. Поскольку – особенно в случае моделей с длинным горизонтом принятия решения – у человека чаще всего больше контекста о бизнес-процессах, чем в данных, используемых моделью (события, связанные с политикой компании, форс-мажорными обстоятельствами, планируемые изменения инфраструктуры рядом с объектами сети и др.).
Усилить применимость модели в реальных условиях в случае модели оптимизации ассортимента может также помочь добавление доверительных интервалов прогноза для каждого товара. В таком случае у КМ будет возможность видеть уверенность модели в своем финальном решении. По сути, сетка рекомендаций будет подсвечена с точки зрения качества прогноза отдельных сегментов товаров. Тогда внимание конечного пользователя в среднем будет сконцентрировано именно на сложных кейсах.
#interpretable_ml #business
Что делать. Часть 1
В предыдущем посте мы разобрали, где на практике бывает нужна интерпретируемость моделей для конечного пользователя.
А теперь на каком-то примере из жизни подумаем, что можно сделать со всеми этими потребностями.
Давайте представим, что вы строите систему оптимизации ассортимента для магазинов крупной торговой сети. Результат работы вашей модели в первом приближении – это оптимальная матрица товаров для каждого магазина, или ассортиментная матрица. Конечный пользователь модели – категорийные менеджеры, управляющие жизненным циклом отдельных категорий товаров (КМ, пользователи ML-решения), и их руководство (бизнес-заказчик ML-решения).
Чаще всего, в первом приближении ваша модель машинного обучения для них – это черный ящик.
Как повысить доверие к результату?
Объяснить КМ логику работы моделей прогноза спроса, которые стоят в основе вашего решения. Наиболее популярные на практике методы global и local интерпретации моделей – это SHAP для алгоритмов на табличных данных и Grad-CAM для глубокого обучения.
Повышению доверия к модели на практике также сильно помогает возможность для конечного пользователя самому создавать локальные прогнозы спроса для отдельных товаров и видеть результат и его объяснение (возможность «потрогать инструмент руками»).
Все это хорошо, скажете вы. Но это про спрос на отдельные товары, а как объяснить КМ, почему модель в итоге предлагает именно такую комбинацию товаров для каждого магазина, а не другую? Как объяснить саму оптимизацию?
Каких-либо инструментов interpretable ml, объясняющих как модель пришла к оптимальному результату в пространстве возможных решений, пока нет. Но не все потеряно. На практике вам может помочь та же самая возможность «потрогать руками». Если дать возможность конечному пользователю вручную менять комбинации товаров для магазина на свое усмотрение и смотреть на прогноз совокупного спроса (или выигрыша относительно текущей ситуации), это значительно повышает его доверие ко всей системе в целом. Если у вас реализована и первая часть – возможность «провалиться» в прогноз и интерпретацию прогноза отдельных товаров, то это почти победа.
Как усилить применимость модели в реальных условиях?
Реализация пункта «доверие к результату» уже положительно влияет на применимость модели в реальных условиях. КМ, неуверенный в итоговых результатах работы модели сможет посмотреть отдельные прогнозы, попробовать другие варианты и принять финальное решение. Поскольку – особенно в случае моделей с длинным горизонтом принятия решения – у человека чаще всего больше контекста о бизнес-процессах, чем в данных, используемых моделью (события, связанные с политикой компании, форс-мажорными обстоятельствами, планируемые изменения инфраструктуры рядом с объектами сети и др.).
Усилить применимость модели в реальных условиях в случае модели оптимизации ассортимента может также помочь добавление доверительных интервалов прогноза для каждого товара. В таком случае у КМ будет возможность видеть уверенность модели в своем финальном решении. По сути, сетка рекомендаций будет подсвечена с точки зрения качества прогноза отдельных сегментов товаров. Тогда внимание конечного пользователя в среднем будет сконцентрировано именно на сложных кейсах.
#interpretable_ml #business
👍3🔥1
Интерпретируемость ML моделей для конечного пользователя: где нужна на практике и что делать
Что делать. Часть 2 (Часть 1 тут)
Как сделать результат информативным?
Если результат работы системы оптимизации ассортимента – это финальная рекомендуемая товарная матрица магазина, такой результат вряд ли можно будет назвать информативным для категорийных менеджеров сети. В таком результате нет push to action.
Рекомендацию к действию создать достаточно просто. Что нужно будет делать КМ для внедрения оптимальной ассортиментной матрицы в жизнь? Менять предшествующую матрицу. Часть товаров вывезти, часть привезти вместо них, часть ввести новых, часть оставить, как есть. Если итоговый результат работы модели рассказывает, что нужно сделать, чтобы превратить текущую товарную матрицу в оптимальную и зачем (какой будет денежный выигрыш от этого изменения), то в таком выводе ML-модели уже содержится вполне явный push to action. И ее интеграция в бизнес-процесс будет намного более быстрой.
Об основных аспектах интерпретируемости с примерами из научных статей и своей практики мы рассказывали на Data Fest 2019 г. Вот тут можно посмотреть доклад.
#interpretable_ml #business
Что делать. Часть 2 (Часть 1 тут)
Как сделать результат информативным?
Если результат работы системы оптимизации ассортимента – это финальная рекомендуемая товарная матрица магазина, такой результат вряд ли можно будет назвать информативным для категорийных менеджеров сети. В таком результате нет push to action.
Рекомендацию к действию создать достаточно просто. Что нужно будет делать КМ для внедрения оптимальной ассортиментной матрицы в жизнь? Менять предшествующую матрицу. Часть товаров вывезти, часть привезти вместо них, часть ввести новых, часть оставить, как есть. Если итоговый результат работы модели рассказывает, что нужно сделать, чтобы превратить текущую товарную матрицу в оптимальную и зачем (какой будет денежный выигрыш от этого изменения), то в таком выводе ML-модели уже содержится вполне явный push to action. И ее интеграция в бизнес-процесс будет намного более быстрой.
Об основных аспектах интерпретируемости с примерами из научных статей и своей практики мы рассказывали на Data Fest 2019 г. Вот тут можно посмотреть доклад.
#interpretable_ml #business
👍4🔥1
Выпуск подкаста "Данные Люди"
Недавно был опубликован новый выпуск подкаста "Данные люди".
Поговорили с ведущими Ваней Горбань и Артемом Глазуновым о том, что изменилось в data science с 2009 г., про роль Head of DS, взаимодействие ML Engineers и DS, и, конечно же, о causal inference и Reliable ML.
🔹Apple
🔹Castbox
🔹Google
🔹Яндекс
🔹Simplecast
#business
Недавно был опубликован новый выпуск подкаста "Данные люди".
Поговорили с ведущими Ваней Горбань и Артемом Глазуновым о том, что изменилось в data science с 2009 г., про роль Head of DS, взаимодействие ML Engineers и DS, и, конечно же, о causal inference и Reliable ML.
🔹Apple
🔹Castbox
🔹Яндекс
🔹Simplecast
#business
🔥4❤1👍1
Подборка полезных материалов по ML System Design
- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.
- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.
- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.
Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.
- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.
- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).
- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.
- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.
Материалы, которых все очень ждут:
- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)
Как выйдут – обязательно опубликуем ссылки!
#tech #ml_system_design
- Круглый стол про ML System Design секции Reliable ML 2022 г. Подойдет для знакомства с темой. Обсуждение о том, что такое ML System Design, как его структурировать и применять. Для знакомства с темой также хорошо подойдет вот эта статья и вот эта.
- Конспекты лекций Стенфорда – курс CS 329S: Machine Learning Systems Design. Самые лучшие материалы для основательного изучения дисциплины. Структурированный разбор материалов: от паттернов ресерча до деплоя моделей. Для каждой темы есть текстовые записи лекций, слайды, ссылки на полезные материалы.
- Небольшая, хорошо структурированная и, что важно, краткая электронная книга в открытом доступе от одного из преподавателей Стенфордского курса Chip Huyen - ML Systems Design (собрана из статей автора в блоге). Если хочется для начала получить представление о книге и вообще о месте ML System Design в мире DS/ML можно сначала посмотреть это видео от Chip Huyen. Кроме того, в 2022 г. Chip Huyen опубликовала книгу Designing Machine Learning Systems как расширенную и дополненную версию статей своего блога.
Chip Huyen - один из авторов, внесших наибольший вклад в развитие ML System Design как дисциплины, как можно увидеть по подборке материалов. Кроме того, она является одним из самых популярных въетнамских художественных писаталей в жанре creative non-fiction. Списки книг можно увидеть на ее персональном сайте.
- Книга Machine Learning Design Patterns. Отличные обзоры книги есть у: тг-канала Варим МЛ и на towards data science. Книга хорошо подойдет для начинающих дата саентистов и МЛ-инженеров, кто хочет структурировать информацию о паттернах дизайна систем машинного обучения.
- Grokking the Machine Learning Interview. Уроки по ML System Design на стандартных примерах: Search Ranking, Feed Based System, Recommendation System, Self-Driving Car, Entity Linking System, Ad Prediction System. Платно. Есть акцент на system design вопросах (про system design дальше сделаем отдельную подборку).
- Серия видео от Валеры Бабушкина по ML System Design собеседованиям. В них подробно разбираются дизайны МЛ-систем для: ранжирования рекламы в новостной ленте соцсети, ценообразования и матчинга в маркетплейсе.
- Miro-доска от Богдана Печёнкина (X5, AliExpress, KazanExpress) с примерами ML дизайна различных систем: динамическое ценообразование, матчинг, антифрод, рекомендашки, ранжирование рекламы. Доска постоянно дорабатывается и пополняется. Рекомендуем также видео, где Богдан рассказывает про дизайн ML ценообразования на маркетплейсе.
Материалы, которых все очень ждут:
- Материалы курса Дмитрия Колодезева по ML System Design (2022)
- Книга от Валерия Бабушкина и Арсения Кравченко Principles of ML Design (2023)
Как выйдут – обязательно опубликуем ссылки!
#tech #ml_system_design
🔥33👍8❤1
Подборка полезных материалов по ML Engineering & ML Ops
- Обзорная статья про то, что вообще такое ML Ops “Machine Learning Operations (MLOps): Overview, Definition, and Architecture”. Статья хорошо структурирована, содержит много красивых схем про разные роли, их ответственность и взаимодействие в рамках работы над ML проектом: Business, DS, DE, IT Solution Architect, SWE, DevOps, ML Engineer. Но, как правильно заметил Арсений Кравченко в своем тг-канале, такая строгая бюрократизация ролей и процесса может подойти не каждой компании. Многое зависит от уровня зрелости компании, масштаба и количества решаемых задач.
- Обзорные статьи от bigdataschool про основные шаги внедрения ML Ops и оценку уровня зрелости ML Engineering & ML Ops в вашей компании: разбор методики от Google и от GigaOm. Вообще, на ресурсе много кратких обзорных статей по ML Ops и Data Engineering: как по отдельным инструментам, так и в целом. Если хочется получить общее представление по отдельным темам, рекомендуем. Подробное описание уровней зрелости от Google можно почитать вот тут.
- Открытый курс ODS “MLOps и production подход к ML исследованиям”. Курс был высоко оценен в сообществе Open Data Science. По итогам его прохождения Юрий Кашницкий опубликовал статью на Хабр с подробным рассказом про опыт создания своего проекта в рамках курса.
- Открытый курс от DataTalks.Club: MLOps ZoomCamp. На курсе детально рассказывается про весь цикл работы MLOps: есть записи лекций, домашние задания и открытый лидерборд.
- Курс от Weights & Biases (wandb.ai): “Effective MLOps: Model Development”. Хороший бесплатный обзорный курс, где рассказывают про основные инструменты и, конечно, не забывают порекламировать проприетарные продукты Weights & Biases.
- Серия видео-семинаров Стенфорда по System Design в ML. Нам показалось, что в материалах акцент больше дается на ML Engineering & ML Ops, поэтому классифицировали ссылку в эту подборку.
- Наикрутейший инструмент - конструктор ML Ops стека на базе open-source инструментов. Позволяет посмотреть плюсы и минусы и итеративно выбрать любой из имеющихся в open-source инструментов для всех ключевых шагов MLOps (Experiment Tracking, Experimentation, Data Versioning, Code versioning, Pipeline orchestration, Runtime Engine, Artifact Tracking, Model Registry, Model Serving, Model Monitoring). Далее, получаем красивую схему архитектуры вашего MLOps стека и рекомендации по его установке.
Если считаете, что подборку стоит чем-то дополнить, welcome в комментарии!
#tech #ml_engineering #ml_ops
- Обзорная статья про то, что вообще такое ML Ops “Machine Learning Operations (MLOps): Overview, Definition, and Architecture”. Статья хорошо структурирована, содержит много красивых схем про разные роли, их ответственность и взаимодействие в рамках работы над ML проектом: Business, DS, DE, IT Solution Architect, SWE, DevOps, ML Engineer. Но, как правильно заметил Арсений Кравченко в своем тг-канале, такая строгая бюрократизация ролей и процесса может подойти не каждой компании. Многое зависит от уровня зрелости компании, масштаба и количества решаемых задач.
- Обзорные статьи от bigdataschool про основные шаги внедрения ML Ops и оценку уровня зрелости ML Engineering & ML Ops в вашей компании: разбор методики от Google и от GigaOm. Вообще, на ресурсе много кратких обзорных статей по ML Ops и Data Engineering: как по отдельным инструментам, так и в целом. Если хочется получить общее представление по отдельным темам, рекомендуем. Подробное описание уровней зрелости от Google можно почитать вот тут.
- Открытый курс ODS “MLOps и production подход к ML исследованиям”. Курс был высоко оценен в сообществе Open Data Science. По итогам его прохождения Юрий Кашницкий опубликовал статью на Хабр с подробным рассказом про опыт создания своего проекта в рамках курса.
- Открытый курс от DataTalks.Club: MLOps ZoomCamp. На курсе детально рассказывается про весь цикл работы MLOps: есть записи лекций, домашние задания и открытый лидерборд.
- Курс от Weights & Biases (wandb.ai): “Effective MLOps: Model Development”. Хороший бесплатный обзорный курс, где рассказывают про основные инструменты и, конечно, не забывают порекламировать проприетарные продукты Weights & Biases.
- Серия видео-семинаров Стенфорда по System Design в ML. Нам показалось, что в материалах акцент больше дается на ML Engineering & ML Ops, поэтому классифицировали ссылку в эту подборку.
- Наикрутейший инструмент - конструктор ML Ops стека на базе open-source инструментов. Позволяет посмотреть плюсы и минусы и итеративно выбрать любой из имеющихся в open-source инструментов для всех ключевых шагов MLOps (Experiment Tracking, Experimentation, Data Versioning, Code versioning, Pipeline orchestration, Runtime Engine, Artifact Tracking, Model Registry, Model Serving, Model Monitoring). Далее, получаем красивую схему архитектуры вашего MLOps стека и рекомендации по его установке.
Если считаете, что подборку стоит чем-то дополнить, welcome в комментарии!
#tech #ml_engineering #ml_ops
🔥27👍11❤5
Анонс AI Quality Workshop
Открытый бесплатный курс по оценке качества и надежности моделей
Компания Truera запустила серию бесплатных открытых курсов AI Quality Workshop. Ближайшая сессия стартует 25 августа, зарегистрироваться можно тут.
Курс предполагает 4 live-сессии. Одна из целей курса, конечно же, реклама проприетарных продуктов Truera. Но, кажется, что при этом состав преподавателей вполне неплох (MIT, Carnegie Mellon University, Georgia Institute of Technology, University of Maryland) и темы, которые планируются к рассказу, тоже очень достойны для расширения кругозора: ML Explainability, Accuracy and Performance Debugging, Model Drift Fairness, NLP Model Quality.
#tech
Открытый бесплатный курс по оценке качества и надежности моделей
Компания Truera запустила серию бесплатных открытых курсов AI Quality Workshop. Ближайшая сессия стартует 25 августа, зарегистрироваться можно тут.
Курс предполагает 4 live-сессии. Одна из целей курса, конечно же, реклама проприетарных продуктов Truera. Но, кажется, что при этом состав преподавателей вполне неплох (MIT, Carnegie Mellon University, Georgia Institute of Technology, University of Maryland) и темы, которые планируются к рассказу, тоже очень достойны для расширения кругозора: ML Explainability, Accuracy and Performance Debugging, Model Drift Fairness, NLP Model Quality.
#tech
👍6🔥4🤩1
АБ-тесты - это не только ценный мех… Но еще и процессы.
Цикл постов про АБ-тестирование. Пост 1.
О математических нюансах АБ-тестирования есть много замечательной литературы, подборку которой мы дадим в конце этой серии постов.
Но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема.
На первый взгляд, кажется, что достаточно отработать методику АБ-тестирования на уровне объектов тестирования (например, точек продаж для офлайн ритейла). Но на практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
С точки зрения бизнес-процессов компании АБ-тестирование - часть инвестиционного цикла проектов и продуктов, за который отвечает финансовое подразделение. Внутри инвестиционного цикла АБ-тестирование – это один из способов дизайна и оценки пилотных экспериментов компании для того, чтобы принять решение о дальнейших инвестициях в проект.
Обобщенно инвестиционный цикл можно разбить на этапы:
- Заявка на проект. Процедура отбора проектов, в которые компания готова инвестировать. Здесь АБ-тестирование может участвовать, дополняя критерии отбора проектов возможностью проведения статистически корректного АБ-теста.
На практике это, к сожалению, происходит редко, что приводит к значительным денежным потерям. Проект запустили, а вывод о том, эффективен ли он, сделать невозможно.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Разработка MVP. Разрабатывается прототип решения.
- Пилот. После разработки MVP нужно как можно дешевле (на минимальном числе объектов) оценить финансовый эффект проекта, чтобы принять решение о продолжении или прекращении инвестиций в проект.
Чтобы понять, окупятся ли дальнейшие инвестиции в проект, нам нужно быть уверенными, что мы получили достоверную оценку финансового эффекта.
Как тут помогает АБ тестирование: математически корректная методика дизайна и оценки результатов экспериментов дает возможность сделать правильные выводы о ценности разработанного MVP.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Ролл-аут. Осуществляется внедрение проекта на все целевые объекты в масштабе компании.
- Пост-инвест анализ. Чтобы отслеживать эффективность инвестиционной деятельности, компании нужно оценить итоговый финансовый эффект ролл-аута. Какие статистические инструменты доступны?
Прежде всего - контрфактические методы причинно-следственного анализа. Мы писали о них в начале года (тут, тут и тут).
Важно помнить, что АБ-тестирование – лишь часть (пусть и очень важная) методов причинно-следственного анализа. АБ-тесты - только один из способов дизайна и оценки пилотных экспериментов. Они хорошо работают в типовых случаях, а для сложных случаев помогут контрфактические методы. При использовании контрфактических методов критически важно обеспечить робастность применения моделей.
Эту структуру полезно иметь в виду при интеграции АБ-тестирования в бизнес-процессы компании.
В следующих постах цикла речь пойдет о детальном бизнес-процессе дизайна и оценки пилота, а также о том, какие этапы в нем закрывает математическая методика АБ-тестирования, а какие этапы нужно дополнительно продумать и упорядочить при ее внедрении.
#business #ab_testing
Цикл постов про АБ-тестирование. Пост 1.
О математических нюансах АБ-тестирования есть много замечательной литературы, подборку которой мы дадим в конце этой серии постов.
Но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема.
На первый взгляд, кажется, что достаточно отработать методику АБ-тестирования на уровне объектов тестирования (например, точек продаж для офлайн ритейла). Но на практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
С точки зрения бизнес-процессов компании АБ-тестирование - часть инвестиционного цикла проектов и продуктов, за который отвечает финансовое подразделение. Внутри инвестиционного цикла АБ-тестирование – это один из способов дизайна и оценки пилотных экспериментов компании для того, чтобы принять решение о дальнейших инвестициях в проект.
Обобщенно инвестиционный цикл можно разбить на этапы:
- Заявка на проект. Процедура отбора проектов, в которые компания готова инвестировать. Здесь АБ-тестирование может участвовать, дополняя критерии отбора проектов возможностью проведения статистически корректного АБ-теста.
На практике это, к сожалению, происходит редко, что приводит к значительным денежным потерям. Проект запустили, а вывод о том, эффективен ли он, сделать невозможно.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Разработка MVP. Разрабатывается прототип решения.
- Пилот. После разработки MVP нужно как можно дешевле (на минимальном числе объектов) оценить финансовый эффект проекта, чтобы принять решение о продолжении или прекращении инвестиций в проект.
Чтобы понять, окупятся ли дальнейшие инвестиции в проект, нам нужно быть уверенными, что мы получили достоверную оценку финансового эффекта.
Как тут помогает АБ тестирование: математически корректная методика дизайна и оценки результатов экспериментов дает возможность сделать правильные выводы о ценности разработанного MVP.
- Инвестиционный комитет по процедурам компании для решения о том, идет ли проект дальше по циклу.
- Ролл-аут. Осуществляется внедрение проекта на все целевые объекты в масштабе компании.
- Пост-инвест анализ. Чтобы отслеживать эффективность инвестиционной деятельности, компании нужно оценить итоговый финансовый эффект ролл-аута. Какие статистические инструменты доступны?
Прежде всего - контрфактические методы причинно-следственного анализа. Мы писали о них в начале года (тут, тут и тут).
Важно помнить, что АБ-тестирование – лишь часть (пусть и очень важная) методов причинно-следственного анализа. АБ-тесты - только один из способов дизайна и оценки пилотных экспериментов. Они хорошо работают в типовых случаях, а для сложных случаев помогут контрфактические методы. При использовании контрфактических методов критически важно обеспечить робастность применения моделей.
Эту структуру полезно иметь в виду при интеграции АБ-тестирования в бизнес-процессы компании.
В следующих постах цикла речь пойдет о детальном бизнес-процессе дизайна и оценки пилота, а также о том, какие этапы в нем закрывает математическая методика АБ-тестирования, а какие этапы нужно дополнительно продумать и упорядочить при ее внедрении.
#business #ab_testing
🔥20❤3👍3
О Hard ML и karpov.courses
Наши подборки материалов по ML System Design и ML Engineering & ML Ops были бы неполными без курсов от Анатолия Карпова.
Многие из вас, вероятно, начинали свой путь с его бесплатных курсов на Stepik по статистике и введению в data science. А если не начинали, то мы очень их рекомендуем.
Кроме того, уважаем и рекомендуем также и платные курсы от karpov.courses, в особенности, Hard ML и System Design.
По Hard ML скоро стартует новый поток. До 5 сентября по промокоду RELIABLEML можно получить скидку 10%. Есть бесплатное демо.
По ML Engineering & ML Ops: в рамках курса есть отдельный модуль про деплой ML-сервисов. В сам курс включена тема создания feature stores.
По ML System Design: разбираются дизайны систем для задач матчинга и ранжирования, ценообразования, аплифт-моделирования. Отдельно объясняются темы АБ-тестирования и выбора корректных метрик при построении ML-систем.
Одним из авторов курса является Валера Бабушкин. А Валера, как мы знаем, плохого не делает.
#tech
Наши подборки материалов по ML System Design и ML Engineering & ML Ops были бы неполными без курсов от Анатолия Карпова.
Многие из вас, вероятно, начинали свой путь с его бесплатных курсов на Stepik по статистике и введению в data science. А если не начинали, то мы очень их рекомендуем.
Кроме того, уважаем и рекомендуем также и платные курсы от karpov.courses, в особенности, Hard ML и System Design.
По Hard ML скоро стартует новый поток. До 5 сентября по промокоду RELIABLEML можно получить скидку 10%. Есть бесплатное демо.
По ML Engineering & ML Ops: в рамках курса есть отдельный модуль про деплой ML-сервисов. В сам курс включена тема создания feature stores.
По ML System Design: разбираются дизайны систем для задач матчинга и ранжирования, ценообразования, аплифт-моделирования. Отдельно объясняются темы АБ-тестирования и выбора корректных метрик при построении ML-систем.
Одним из авторов курса является Валера Бабушкин. А Валера, как мы знаем, плохого не делает.
#tech
👍30🔥1🤯1
Митап NoML по Causal Inference
На следующей неделе - 7 сентября - сообщество NoML ждет всех на очный митап по Causal Inference.
Программа кажется довольно огненной!
И меня тоже пригласили поучаствовать.
А места при этом ограничены. Так что, если интересно, не откладывайте с регистрацией! Трансляции не будет, только запись.
Темы и спикеры:
📌 Введение в методы Causal Inference
😎 Полина Окунева, 😎 Наталья Тоганова, Эксперты команды Advanced Analytics в GlowByte
📌 Кейс применения Synthetic Control для оценки инициатив
😎 Артем Александрин, Дата аналитик мобильного приложения “Моя Москва”
📌 Дискуссия: “за”, “против”, а также сложности и причины сомнений в Causal Inference
Упомянутые выше докладчики, а также:
😎 Ирина Голощапова, Head of Data Science, Лента
😎 Александр Толмачев, Head of Analytics Ozon.Fintech
😎 Антон Григорьев, Руководитель службы аналитических инструментов Яндекс Доставки
Сбор гостей в 17:30.
В конце будет фуршет. 🥂
Вроде мелочь, а когда-то в студенческие годы для меня это было чуть ли не основным критерием выбора конференций 🙂
На следующей неделе - 7 сентября - сообщество NoML ждет всех на очный митап по Causal Inference.
Программа кажется довольно огненной!
И меня тоже пригласили поучаствовать.
А места при этом ограничены. Так что, если интересно, не откладывайте с регистрацией! Трансляции не будет, только запись.
Темы и спикеры:
📌 Введение в методы Causal Inference
😎 Полина Окунева, 😎 Наталья Тоганова, Эксперты команды Advanced Analytics в GlowByte
📌 Кейс применения Synthetic Control для оценки инициатив
😎 Артем Александрин, Дата аналитик мобильного приложения “Моя Москва”
📌 Дискуссия: “за”, “против”, а также сложности и причины сомнений в Causal Inference
Упомянутые выше докладчики, а также:
😎 Ирина Голощапова, Head of Data Science, Лента
😎 Александр Толмачев, Head of Analytics Ozon.Fintech
😎 Антон Григорьев, Руководитель службы аналитических инструментов Яндекс Доставки
Сбор гостей в 17:30.
В конце будет фуршет. 🥂
Вроде мелочь, а когда-то в студенческие годы для меня это было чуть ли не основным критерием выбора конференций 🙂
👍13😁2❤1