АБ-тесты — это не только ценный мех… Но еще и процессы
Привет, из цикла статей про AB-тестирование родилась новая статья на Хабре! Будем рады вашим комментариям, вопросам, ну и лайкам, конечно ;-)
О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
В этой статье мы делимся своим опытом и советами о том, как это сделать.
P.S. ссылка на цикл постов про АБ тесты тут
Привет, из цикла статей про AB-тестирование родилась новая статья на Хабре! Будем рады вашим комментариям, вопросам, ну и лайкам, конечно ;-)
О математических нюансах АБ-тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения АБ-тестирования. За исключением отдельных отраслей (игры, интернет-коммерция), где уже сформировались зрелые практики.
При этом для офлайн-бизнеса внедрение АБ-тестирования во многом организационная, а не математическая проблема. На практике правильно выстроить бизнес-процесс применения АБ и позиционирования его внутри компании едва ли не сложнее, чем создать правильную статистическую методологию.
В этой статье мы делимся своим опытом и советами о том, как это сделать.
P.S. ссылка на цикл постов про АБ тесты тут
Хабр
АБ-тесты — это не только ценный мех… Но еще и процессы
О математических нюансах АБ‑тестирования есть много замечательной литературы, но почти нигде нет информации о том, каким образом в компаниях выстраивать сам процесс применения...
👍22❤3🔥2👌2
Чтобы получить инвайт в Матрикс, нужно зарегистрироваться на ods.ai и скинуть ссылку на свой профиль в личку @Promsoft c пометкой "Reliable ML, хочу в Матрикс". Ссылку можно увидеть, нажав на кружочек профиля в правом верхнем углу. Что-то вроде https://ods.ai/users/23aa53cc962e
Пиво пока только для членов профсоюза (читателей канала). Инвайты снова есть
👍41🤡13🔥5❤4
2 марта в Ереване пройдёт первая ML Party в 2023 году
ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.
Митап можно посетить офлайн или подключиться к онлайн-трансляции.
Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
#не_реклама_а_клевое_мероприятие
ML Party — регулярные встречи о разных применениях машинного обучения в IT. Инженеры и тимлиды Яндекса расскажут, как работают Быстрые ответы в Яндекс Поиске, как создавался визуальный поиск элементов одежды, какие вызовы приняла команда Плюс Фантех и как Яндекс Музыка рекомендует вам незнакомых исполнителей.
Митап можно посетить офлайн или подключиться к онлайн-трансляции.
Участие бесплатное, нужно зарегистрироваться, чтобы получить приглашение на площадку или прямую трансляцию.
#не_реклама_а_клевое_мероприятие
ML Party Yerevan
ML Party — регулярные встречи о самых разных применениях машинного обучения в IT. Приглашаем вас принять участие в первой ML Party в 2023 году, которая пройдет в гибридном формате — встретимся офлайн в Ереване (Армения) и онлайн на YouTube.
❤10🔥10👎3🤡2👍1🗿1
Вакансий пост
Не очень обычный для нашего канала пост, но важный
Недавно я приняла большой вызов от Райффайзен Банка по развитию подразделения продвинутой аналитики и управления данными в блоке Operations.
Зову пойти со мной! Задач много, планов - еще больше.
Ищем Middle Data Analyst / Senior Data Analyst в Райффайзен Банк
Компания: Raiffeisenbank, Operations, Advanced Analytics and Data Management Department
Город: Москва. Режим гибридный, возможна полная удаленка.
Немного о команде:
- Operations в Райффайзен Банке отвечает за работу ключевых функций: транзакции, банкоматы, поддержка кредитного процесса. По сути операции пронизывают все сферы деятельности банка и для них критически важна структурированная система аналитики: иерархия метрик, отчетность, прогнозные и оптимизационные модели. Этим и занимается команда.
- Наша команда обеспечивает домен Operations отчетностью, аналитикой и моделями для принятия правильных стратегических и операционных решений.
Какие задачи предлагаем:
- плотно работать с бизнес-заказчиком, предлагать идеи по внедрению и улучшению метрик и выводов, оптимизации процессов, автоматизации отчетности;
- проводить EDA: видеть в цифрах не “сухую статистику”, а уметь извлекать новые знания и презентовать их;
- анализировать данные из различных систем и источников внутри банка;
- сопровождать процесс разработки отчетности на всех этапах;
Что нужно знать/уметь:
- хорошо знать :sql: ;
- уметь в статистику;
- быть способным делать дизайн системы/аналитической задачи: структурировать процесс исследования, доводить задачу от постановки до логического завершения;
- иметь опыт работы с BI-инструментами (мы на Power BI, если что - научим), DWH, Data Lake;
Будет плюсом:
- норм уровень :python: и знание ключевых библиотек для аналитики;
- знания/опыт в классическом ML;
- знания принципов построения управленческой и операционной отчетности.
Что мы предлагаем:
- Достойную вилку
- Внутреннее обучение, поездки на конференции, регулярные тимбилдинги
- Сильные и активные внутренние сообщества по всем сферам работы с данными и не только
- ДМС и множество других плюшек
Кому-куда писать:
Мне
Не очень обычный для нашего канала пост, но важный
Недавно я приняла большой вызов от Райффайзен Банка по развитию подразделения продвинутой аналитики и управления данными в блоке Operations.
Зову пойти со мной! Задач много, планов - еще больше.
Ищем Middle Data Analyst / Senior Data Analyst в Райффайзен Банк
Компания: Raiffeisenbank, Operations, Advanced Analytics and Data Management Department
Город: Москва. Режим гибридный, возможна полная удаленка.
Немного о команде:
- Operations в Райффайзен Банке отвечает за работу ключевых функций: транзакции, банкоматы, поддержка кредитного процесса. По сути операции пронизывают все сферы деятельности банка и для них критически важна структурированная система аналитики: иерархия метрик, отчетность, прогнозные и оптимизационные модели. Этим и занимается команда.
- Наша команда обеспечивает домен Operations отчетностью, аналитикой и моделями для принятия правильных стратегических и операционных решений.
Какие задачи предлагаем:
- плотно работать с бизнес-заказчиком, предлагать идеи по внедрению и улучшению метрик и выводов, оптимизации процессов, автоматизации отчетности;
- проводить EDA: видеть в цифрах не “сухую статистику”, а уметь извлекать новые знания и презентовать их;
- анализировать данные из различных систем и источников внутри банка;
- сопровождать процесс разработки отчетности на всех этапах;
Что нужно знать/уметь:
- хорошо знать :sql: ;
- уметь в статистику;
- быть способным делать дизайн системы/аналитической задачи: структурировать процесс исследования, доводить задачу от постановки до логического завершения;
- иметь опыт работы с BI-инструментами (мы на Power BI, если что - научим), DWH, Data Lake;
Будет плюсом:
- норм уровень :python: и знание ключевых библиотек для аналитики;
- знания/опыт в классическом ML;
- знания принципов построения управленческой и операционной отчетности.
Что мы предлагаем:
- Достойную вилку
- Внутреннее обучение, поездки на конференции, регулярные тимбилдинги
- Сильные и активные внутренние сообщества по всем сферам работы с данными и не только
- ДМС и множество других плюшек
Кому-куда писать:
Мне
🔥32❤8👍5🥰1💩1
Опубликован пример дизайна ML системы по шаблону Reliable ML
Пишем ML System Design Doc вместе с Reliable ML
В декабре - в рамках открытого курса по ML System Design - мы опубликовали шаблон Reliable ML для дизайн документа систем машинного обучения и лекцию о том, что это такое и как с ним работать.
А в качестве вишенки на торте - объявили о готовности написать дизайн док вместе с вами (подробности в видео тут). Особенно, если вы готовы разместить ссылку на ваш итоговый дизайн док в нашем репозитории (разумеется, удалив NDA часть).
И сегодня мы рады представить вам первый опубликованный пример дизайн-документа! Это дизайн ML-системы для FMCG компании - Прогнозирование выручки в магазинах. Автор: Михаил Масагутов @Chuguevskij. Бизнес цель – замена ручной работы прогнозами модели, которые будут использоваться для: составления плана продаж в магазинах на следующие 6 месяцев и сегментации магазинов на основе продаж для применения определенной стратегии взаимодействия.
На секции Reliable ML в рамках Data Fest Online 2023 в мае Михаил обещал рассказать доклад о своем опыте работы с шаблоном и о том, чем вообще помог (или, на самом деле, нет) ему дизайн-документ в работе над проектом.
Stay tuned!
Ваш @Reliable ML
Пишем ML System Design Doc вместе с Reliable ML
В декабре - в рамках открытого курса по ML System Design - мы опубликовали шаблон Reliable ML для дизайн документа систем машинного обучения и лекцию о том, что это такое и как с ним работать.
А в качестве вишенки на торте - объявили о готовности написать дизайн док вместе с вами (подробности в видео тут). Особенно, если вы готовы разместить ссылку на ваш итоговый дизайн док в нашем репозитории (разумеется, удалив NDA часть).
И сегодня мы рады представить вам первый опубликованный пример дизайн-документа! Это дизайн ML-системы для FMCG компании - Прогнозирование выручки в магазинах. Автор: Михаил Масагутов @Chuguevskij. Бизнес цель – замена ручной работы прогнозами модели, которые будут использоваться для: составления плана продаж в магазинах на следующие 6 месяцев и сегментации магазинов на основе продаж для применения определенной стратегии взаимодействия.
На секции Reliable ML в рамках Data Fest Online 2023 в мае Михаил обещал рассказать доклад о своем опыте работы с шаблоном и о том, чем вообще помог (или, на самом деле, нет) ему дизайн-документ в работе над проектом.
Stay tuned!
Ваш @Reliable ML
❤22🔥21👍3
Проблема оценки финансовых эффектов от дата-команд стала критичной
Gartner Data & Analytics Conference 2023 - Review
В мире прекрасного будущего ИИ все только и говорят, что об ошеломительных эффектах от анализа данных и вообще деятельности дата-команд. А видели ли вы в реальности эти эффекты: конкретные потоки денег как результат внедрения проектов по анализу данных? Знаем, что многие сейчас задумаются. Ответ неоднозначен. Вот и Gartner на своей ведущей конференции по Data & Analytics в этом году задумались о проблеме оценки эффектов от дата-команд.
Согласно их исследованию, начиная с 1975 г. неуклонно снижается доля компаний, которые измеряют конкретный финансовый эффект от проектов по анализу данных (рост выручки, снижение издержек, рост производительности и снижение рисков). Уже в 2020 г. более 90% инвестиций в данные (против 17% в 1975 г.) обосновывалось так называемыми стратегическими целями: созданием инноваций, данных как актива, веса бренда.
Такой вот интересный тренд.
И дальше можно много рассуждать о том, как и почему мы к этому пришли и что же будет дальше на фоне сгущающихся туч в мировой макроэкономической конъюнктуре.
Позвольте и нам поделиться своими мыслями.
О том, почему сформировался тренд
- Светлая сторона - погоня за конкурентным преимуществом. Обосновывать эффект от анализа данных стратегическими целями во многих случаях вполне нормально. Развитие отрасли за последние годы стало очевидно уже, кажется, всем: ChatGPT здесь делает контрольный выстрел последним сомневающимся. В момент прорыва ни одна компания, которая хочет выжить, не хочет остаться в числе безнадежно отстающих, а значит, проигравших.
- Темная сторона - реальные сложности с оценкой эффекта дата-команд. Обосновывать эффект стратегическими целями иногда приходится вынужденно, когда не вкладываешься в понимание того, какие реальные финансовые эффекты могут принести инвестиции в данные и как это можно измерять. Множество компаний вкладывают колоссальные деньги в проекты по улучшению бизнес-процессов на основе данных, но при этом экономят на создании методологии оценки эффектов от этих проектов (АБ-тестирование, пост-инвест анализ дата-проектов, и др.). С каждым новым проектом такие компании всё сильнее увязают в ловушке неопределенности - для них растет риск итогового банкротства всей активности по работе с данными, или чрезмерного раздувания штата дата-команды без понимания успешности их деятельности.
При этом на нашей практике внедрение подобных методологий - всегда в итоге было сопряжено с наибольшими среди всех дата-проектов эффектами. Поскольку отсеивать миллиарды лишних инвестиций на старте или при пилотировании, как правило, довольно ценно 🙂
Что будет дальше
- Темная сторона - рост уязвимости дата-команд в условиях сложной макроэкономической ситуации на мировых рынках. Если 90% эффектов работы каких-то типов команд нельзя “пощупать руками”, поскольку они где-то в прекрасном будущем, при усилении экономического кризиса именно такие команды первыми попадают под удар. К сожалению, начало этого тренда во многом подтвердилось 2022м годом и рядом масштабных lay-offs в крупных компаниях (тут даже ссылки приводить не будем, всё на слуху).
- Светлая сторона - повышение интереса к оценкам реального финансового эффекта. На фоне всего вышеперечисленного мы ожидаем, что в 2024-2025 гг. возникнет перелом тренда - больше инвестиций будут обосновываться реальным финансовым эффектом.
А это будет означать рост интереса к методикам типа Reliable ML: к тому, как организовать работу дата-команд, чтобы эффект от их деятельности был измеримым и финансово положительным. Для этого нужно думать про: ML System Design (чтобы не попасть в заведомо неприбыльные или нереализуемые проекты), Causal Inference (чтобы не попасть в ловушку ложных закономерностей), и АБ-тестирование (чтобы корректно понять, принесет ли ваш прототип деньги при масштабировании).
Ваш @Reliable ML
Gartner Data & Analytics Conference 2023 - Review
В мире прекрасного будущего ИИ все только и говорят, что об ошеломительных эффектах от анализа данных и вообще деятельности дата-команд. А видели ли вы в реальности эти эффекты: конкретные потоки денег как результат внедрения проектов по анализу данных? Знаем, что многие сейчас задумаются. Ответ неоднозначен. Вот и Gartner на своей ведущей конференции по Data & Analytics в этом году задумались о проблеме оценки эффектов от дата-команд.
Согласно их исследованию, начиная с 1975 г. неуклонно снижается доля компаний, которые измеряют конкретный финансовый эффект от проектов по анализу данных (рост выручки, снижение издержек, рост производительности и снижение рисков). Уже в 2020 г. более 90% инвестиций в данные (против 17% в 1975 г.) обосновывалось так называемыми стратегическими целями: созданием инноваций, данных как актива, веса бренда.
Такой вот интересный тренд.
И дальше можно много рассуждать о том, как и почему мы к этому пришли и что же будет дальше на фоне сгущающихся туч в мировой макроэкономической конъюнктуре.
Позвольте и нам поделиться своими мыслями.
О том, почему сформировался тренд
- Светлая сторона - погоня за конкурентным преимуществом. Обосновывать эффект от анализа данных стратегическими целями во многих случаях вполне нормально. Развитие отрасли за последние годы стало очевидно уже, кажется, всем: ChatGPT здесь делает контрольный выстрел последним сомневающимся. В момент прорыва ни одна компания, которая хочет выжить, не хочет остаться в числе безнадежно отстающих, а значит, проигравших.
- Темная сторона - реальные сложности с оценкой эффекта дата-команд. Обосновывать эффект стратегическими целями иногда приходится вынужденно, когда не вкладываешься в понимание того, какие реальные финансовые эффекты могут принести инвестиции в данные и как это можно измерять. Множество компаний вкладывают колоссальные деньги в проекты по улучшению бизнес-процессов на основе данных, но при этом экономят на создании методологии оценки эффектов от этих проектов (АБ-тестирование, пост-инвест анализ дата-проектов, и др.). С каждым новым проектом такие компании всё сильнее увязают в ловушке неопределенности - для них растет риск итогового банкротства всей активности по работе с данными, или чрезмерного раздувания штата дата-команды без понимания успешности их деятельности.
При этом на нашей практике внедрение подобных методологий - всегда в итоге было сопряжено с наибольшими среди всех дата-проектов эффектами. Поскольку отсеивать миллиарды лишних инвестиций на старте или при пилотировании, как правило, довольно ценно 🙂
Что будет дальше
- Темная сторона - рост уязвимости дата-команд в условиях сложной макроэкономической ситуации на мировых рынках. Если 90% эффектов работы каких-то типов команд нельзя “пощупать руками”, поскольку они где-то в прекрасном будущем, при усилении экономического кризиса именно такие команды первыми попадают под удар. К сожалению, начало этого тренда во многом подтвердилось 2022м годом и рядом масштабных lay-offs в крупных компаниях (тут даже ссылки приводить не будем, всё на слуху).
- Светлая сторона - повышение интереса к оценкам реального финансового эффекта. На фоне всего вышеперечисленного мы ожидаем, что в 2024-2025 гг. возникнет перелом тренда - больше инвестиций будут обосновываться реальным финансовым эффектом.
А это будет означать рост интереса к методикам типа Reliable ML: к тому, как организовать работу дата-команд, чтобы эффект от их деятельности был измеримым и финансово положительным. Для этого нужно думать про: ML System Design (чтобы не попасть в заведомо неприбыльные или нереализуемые проекты), Causal Inference (чтобы не попасть в ловушку ложных закономерностей), и АБ-тестирование (чтобы корректно понять, принесет ли ваш прототип деньги при масштабировании).
Ваш @Reliable ML
🔥35👍20❤3
Reliable ML pinned «Опубликован пример дизайна ML системы по шаблону Reliable ML Пишем ML System Design Doc вместе с Reliable ML В декабре - в рамках открытого курса по ML System Design - мы опубликовали шаблон Reliable ML для дизайн документа систем машинного обучения и лекцию…»
Читаем статьи вместе: у кого GPT отберет работу?
Во вторник 28.03.2023 в 17:00 мск на канале DS Talks будет разбор статьи GPTs are GPTs. An Early Look at the Labor Market Impact Potential of Large Language Models.
Дмитрий Колодезев разберет - у кого языковые модели отберут работу, какую именно, и что получается, если статью пишут командой из ML-рисерчеров, экономистов и языковой модели.
Разбирать будем в Zoom, запись и слайды будут. В комментариях можно задать докладчику вопросы, обсудим их после доклада.
Во вторник 28.03.2023 в 17:00 мск на канале DS Talks будет разбор статьи GPTs are GPTs. An Early Look at the Labor Market Impact Potential of Large Language Models.
Дмитрий Колодезев разберет - у кого языковые модели отберут работу, какую именно, и что получается, если статью пишут командой из ML-рисерчеров, экономистов и языковой модели.
Разбирать будем в Zoom, запись и слайды будут. В комментариях можно задать докладчику вопросы, обсудим их после доклада.
🔥25🌚4👍3❤1👾1
Необычные значения в данных
Цикл постов о подготовке данных. Пост 1
Этой заметкой мы хотели бы начать серию постов, посвященную подготовке данных.
Качество ML-моделей определяется качеством данных, на которых они обучаются. В этой серии постов мы будем говорить о табличных данных. Хотя в целом выводы и идеи можно адаптировать не только к табличкам, но и к текстам, звукам, картинкам и последовательностям событий (логам транзакций).
Что мы имеем в виду под необычными данными
Данные могут содержать примеры, нехарактерные для исследуемого распределения: выбросы или аномалии. Выявление и последующее удаление/трансформация таких точек из набора данных позволяет повысить качество работы модели.
Чаще всего термины выброс (outlier) и аномалия (anomaly) используют взаимозаменяемо (Aggarwal, 2016). А некоторые авторы - например, в лекциях MIT 2023 г. по Data-Centric AI - разделяют задачу выявления выбросов (поиск нетипичных точек в уже имеющихся данных) и детекции аномалий (выявление нетипичных точек в новых данных). Для практики также важна детекция новизны (novelty detection) [3] [4] - выявление нового класса примеров, не представленных в обучающей выборке. О последней хорошо рассказывают в своих лекциях А. Дьяконов и Stefan Buuren.
Откуда они появляются
- Ошибки. Ошибки сенсора, отказы оборудования, ошибки фиксации данных.
- Точки из другого распределения. Например, при анализе стоимости торговой недвижимости всплыли нетипично дорогие сделки с площадью 1 кв. м. - аренда места под банкоматы. Ценообразование в этом сегменте другое, из набора данных для анализа торговой недвижимости их стоит исключить.
- Редкие случаи из интересующего нас распределения - необычные результаты, которые не похожи на остальные данные, но их нельзя игнорировать. Например, на медосмотре нам может попасться пациент с очень редким пульсом, но с совершенно здоровым сердцем.
Что с ними делать
Чаще всего необычные данные удаляют. Так поступают, если выбросы не несут важной информации. Но иногда необычные данные - просто редкие примеры интересующего нас распределения. Особенно выгодные клиенты, сложные редкие ситуации, или случаи использования, пропущенные при постановке задачи. В таких случаях можно:
- Добавить дополнительный признак - “редкий случай”
- Ограничивать значение (обрезать аномально высокие значения, увеличить аномально низкие и т.д.)
- Восстановить наиболее вероятное истинное значение (data imputation)
Удаление необычных данных решает проблему с обучением модели, но никак не помогает, когда такие необычные данные приходят на этапе инференса (предсказания). И тут ограничение значения или импутация позволяет модели выдавать более-менее осмысленный результат.
В следующих постах цикла мы поговорим о том, как выявлять и анализировать выбросы и закончим формулировкой фреймворка по работе с выбросами - на основе примеров из практики.
Ваш @Reliable ML
Цикл постов о подготовке данных. Пост 1
Этой заметкой мы хотели бы начать серию постов, посвященную подготовке данных.
Качество ML-моделей определяется качеством данных, на которых они обучаются. В этой серии постов мы будем говорить о табличных данных. Хотя в целом выводы и идеи можно адаптировать не только к табличкам, но и к текстам, звукам, картинкам и последовательностям событий (логам транзакций).
Что мы имеем в виду под необычными данными
Данные могут содержать примеры, нехарактерные для исследуемого распределения: выбросы или аномалии. Выявление и последующее удаление/трансформация таких точек из набора данных позволяет повысить качество работы модели.
Чаще всего термины выброс (outlier) и аномалия (anomaly) используют взаимозаменяемо (Aggarwal, 2016). А некоторые авторы - например, в лекциях MIT 2023 г. по Data-Centric AI - разделяют задачу выявления выбросов (поиск нетипичных точек в уже имеющихся данных) и детекции аномалий (выявление нетипичных точек в новых данных). Для практики также важна детекция новизны (novelty detection) [3] [4] - выявление нового класса примеров, не представленных в обучающей выборке. О последней хорошо рассказывают в своих лекциях А. Дьяконов и Stefan Buuren.
Откуда они появляются
- Ошибки. Ошибки сенсора, отказы оборудования, ошибки фиксации данных.
- Точки из другого распределения. Например, при анализе стоимости торговой недвижимости всплыли нетипично дорогие сделки с площадью 1 кв. м. - аренда места под банкоматы. Ценообразование в этом сегменте другое, из набора данных для анализа торговой недвижимости их стоит исключить.
- Редкие случаи из интересующего нас распределения - необычные результаты, которые не похожи на остальные данные, но их нельзя игнорировать. Например, на медосмотре нам может попасться пациент с очень редким пульсом, но с совершенно здоровым сердцем.
Что с ними делать
Чаще всего необычные данные удаляют. Так поступают, если выбросы не несут важной информации. Но иногда необычные данные - просто редкие примеры интересующего нас распределения. Особенно выгодные клиенты, сложные редкие ситуации, или случаи использования, пропущенные при постановке задачи. В таких случаях можно:
- Добавить дополнительный признак - “редкий случай”
- Ограничивать значение (обрезать аномально высокие значения, увеличить аномально низкие и т.д.)
- Восстановить наиболее вероятное истинное значение (data imputation)
Удаление необычных данных решает проблему с обучением модели, но никак не помогает, когда такие необычные данные приходят на этапе инференса (предсказания). И тут ограничение значения или импутация позволяет модели выдавать более-менее осмысленный результат.
В следующих постах цикла мы поговорим о том, как выявлять и анализировать выбросы и закончим формулировкой фреймворка по работе с выбросами - на основе примеров из практики.
Ваш @Reliable ML
👍27❤20🔥3
Секция Reliable ML на Data Fest Online 2023
Call for Papers
Друзья, рады сообщить вам, что крупнейшая русскоязычная конференция по Data Science - Data Fest от сообщества Open Data Science состоится и в 2023 г. (в конце мая).
И на ней снова будет секция от Reliable ML. Ждем ваших заявок на доклады: пишите напрямую мне или Диме.
Про секцию
Концепция Reliable ML – это о том, что делать, чтобы результат работы data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.
Для этого нужно уметь:
- правильно собрать портфель проектов (#business)
- продумать дизайн системы каждого проекта (#ml_system_design)
- преодолеть разные трудности при разработке прототипа (#tech #causal_inference #metrics)
- объяснить бизнесу, что ваш MVP заслуживает пилота (#interpretable_ml)
- провести пилот (#causal_inference #ab_testing)
- внедрить ваше решение в бизнес-процессы (#tech #mlops #business)
- настроить мониторинг решения в проде (#tech #mlops)
Если вам есть, что сказать по темам выше, пишите! Если сомневаетесь, все-равно пишите. Много крутейших докладов предыдущих треков Reliable ML появились в результате дискуссии и совместной работы над темой.
Если вы не готовы делать доклад, но послушать интересного хочется, то вы всё ещё можете помочь! Сделать репост в релевантное сообщество/переслать другу = поучаствовать в создании хорошего контента.
Регистрация и полная инфо про Data Fest 2023 тут.
Ваш @Reliable ML
Call for Papers
Друзья, рады сообщить вам, что крупнейшая русскоязычная конференция по Data Science - Data Fest от сообщества Open Data Science состоится и в 2023 г. (в конце мая).
И на ней снова будет секция от Reliable ML. Ждем ваших заявок на доклады: пишите напрямую мне или Диме.
Про секцию
Концепция Reliable ML – это о том, что делать, чтобы результат работы data команд был, во-первых, применим в бизнес-процессах компании-заказчика, а, во-вторых, приносил этой компании пользу.
Для этого нужно уметь:
- правильно собрать портфель проектов (#business)
- продумать дизайн системы каждого проекта (#ml_system_design)
- преодолеть разные трудности при разработке прототипа (#tech #causal_inference #metrics)
- объяснить бизнесу, что ваш MVP заслуживает пилота (#interpretable_ml)
- провести пилот (#causal_inference #ab_testing)
- внедрить ваше решение в бизнес-процессы (#tech #mlops #business)
- настроить мониторинг решения в проде (#tech #mlops)
Если вам есть, что сказать по темам выше, пишите! Если сомневаетесь, все-равно пишите. Много крутейших докладов предыдущих треков Reliable ML появились в результате дискуссии и совместной работы над темой.
Если вы не готовы делать доклад, но послушать интересного хочется, то вы всё ещё можете помочь! Сделать репост в релевантное сообщество/переслать другу = поучаствовать в создании хорошего контента.
Регистрация и полная инфо про Data Fest 2023 тут.
Ваш @Reliable ML
🎉11👍10❤4🔥1💩1
Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Пишем ML System Design Doc вместе с Reliable ML
Для нас большая гордость добавлять дизайны ML систем, написанные на основе нашего шаблона, в открытый доступ. Огромное спасибо авторам, которые вкладываются в развитие ML System Design своими силами и временем.
Рады рассказать, что сегодня был опубликован новый пример - дизайн рекомендательной системы для сделок по аренде коммерческой недвижимости. Автор: Никита Артемьев, компания Отелит. Бизнес-цель ML-решения – с помощью увеличения релевантности предложения компании для клиента повысить среднюю конверсию из лида в успешную сделку для арендаторов.
Хочется дополнить, что это прекрасный пример верхнеуровневого дизайна ML-системы, для которого тоже можно и нужно писать дизайн-документ. На начальной стадии проекта документ может помочь структурировать исследование в целом, определить ключевые метрики и понять необходимые шаги разработки и тестирования решения.
Успехов компании Отелит в дальнейшем развитии решения!
Мы рады, что немного помогли и готовы помогать и дальше.
Шаблон дизайн-документа ML-систем от Reliable ML - тут.
Лекция о том, как с ним работать - тут.
Как написать док вместе с Reliable ML - тут.
Stay tuned!
Ваш @Reliable ML
Пишем ML System Design Doc вместе с Reliable ML
Для нас большая гордость добавлять дизайны ML систем, написанные на основе нашего шаблона, в открытый доступ. Огромное спасибо авторам, которые вкладываются в развитие ML System Design своими силами и временем.
Рады рассказать, что сегодня был опубликован новый пример - дизайн рекомендательной системы для сделок по аренде коммерческой недвижимости. Автор: Никита Артемьев, компания Отелит. Бизнес-цель ML-решения – с помощью увеличения релевантности предложения компании для клиента повысить среднюю конверсию из лида в успешную сделку для арендаторов.
Хочется дополнить, что это прекрасный пример верхнеуровневого дизайна ML-системы, для которого тоже можно и нужно писать дизайн-документ. На начальной стадии проекта документ может помочь структурировать исследование в целом, определить ключевые метрики и понять необходимые шаги разработки и тестирования решения.
Успехов компании Отелит в дальнейшем развитии решения!
Мы рады, что немного помогли и готовы помогать и дальше.
Шаблон дизайн-документа ML-систем от Reliable ML - тут.
Лекция о том, как с ним работать - тут.
Как написать док вместе с Reliable ML - тут.
Stay tuned!
Ваш @Reliable ML
❤23🔥6👍4
Необычные значения в данных
Цикл постов о подготовке данных. Пост 2
Продолжаем серию постов, посвященную подготовке данных. Первый пост тут.
Как анализировать выбросы: и тут causality
При анализе выбросов нужно проверять, нет ли взаимосвязи между выбросами в одной из компонент и другими признаками. По аналогии с пропущенными значениями, где обычно выделяют случаи MCAR, MAR, и MNAR, выбросы можно разделить на:
- Outlier Completely At Random - аномальное значение одного из признаков никак не связано с значениями других признаков. Скорее всего, эту точку данных нужно выкинуть. Пример - при медицинском осмотре сотрудников иногда барахлил автоматический тонометр, ошибка полностью случайна.
- Outlier At Random - аномальное значение одного из признаков можно объяснить другими признаками. Например, мальчиков и девочек на медосмотре смотрели разные врачи - и врач, смотревший мальчиков, был менее внимателен и чаще ошибался. Такие выбросы можно считать пропущенными значениями и, возможно, импутировать, S. Jager(2021).
- Outlier Not At Random - аномальное значение, зависящее от значения признака. Например, люди с большими доходами иногда занижают их в опросах, а с маленькими - завышают. Тогда выявленная аномалия - сама по себе важный признак. А еще это может быть не выброс, а редкий случай,.
Подходы и инструменты для выявления выбросов
Для выявления выбросов используют много подходов.
Наиболее общий из них - ошибка реконструкции автоэнкодером. Автоэнкодер выучивает прямую и обратную проекции в пространство меньшей размерности. Если исследуемый пример после кодирования и обратного декодирования значительно изменился, можно предположить, что распределение, на котором обучался автоэнкодер, отличается от распределения, из которого был получен рассматриваемый пример. Подробнее, например, тут.
Другой популярный подход базируется на том, что необычные значения легко отделить от остальных. Пример такого подхода - IsolationForest.
Хороший обзор подходов к детекции выбросов есть в лекциях MIT от 2023 г. и статьях А. Дьяконова, кое-что есть в 4й лекции нашего курса по ML System Design, современные подходы собраны в обзоре PapersWithCode по Anomaly Detection.
Есть хорошие библиотеки Luminaire и PyOD. PyOD - удобный конструктор детекторов аномалий. В Luminaire много интересных подходов на основе структурных моделей, в том числе прекрасный подход для работы с временными рядами.
В следующем посте цикла мы подытожим теоретическую часть небольшим фреймворком - руководством по работе с выбросами на основе примеров из практики.
Ваш @Reliable ML
Цикл постов о подготовке данных. Пост 2
Продолжаем серию постов, посвященную подготовке данных. Первый пост тут.
Как анализировать выбросы: и тут causality
При анализе выбросов нужно проверять, нет ли взаимосвязи между выбросами в одной из компонент и другими признаками. По аналогии с пропущенными значениями, где обычно выделяют случаи MCAR, MAR, и MNAR, выбросы можно разделить на:
- Outlier Completely At Random - аномальное значение одного из признаков никак не связано с значениями других признаков. Скорее всего, эту точку данных нужно выкинуть. Пример - при медицинском осмотре сотрудников иногда барахлил автоматический тонометр, ошибка полностью случайна.
- Outlier At Random - аномальное значение одного из признаков можно объяснить другими признаками. Например, мальчиков и девочек на медосмотре смотрели разные врачи - и врач, смотревший мальчиков, был менее внимателен и чаще ошибался. Такие выбросы можно считать пропущенными значениями и, возможно, импутировать, S. Jager(2021).
- Outlier Not At Random - аномальное значение, зависящее от значения признака. Например, люди с большими доходами иногда занижают их в опросах, а с маленькими - завышают. Тогда выявленная аномалия - сама по себе важный признак. А еще это может быть не выброс, а редкий случай,.
Подходы и инструменты для выявления выбросов
Для выявления выбросов используют много подходов.
Наиболее общий из них - ошибка реконструкции автоэнкодером. Автоэнкодер выучивает прямую и обратную проекции в пространство меньшей размерности. Если исследуемый пример после кодирования и обратного декодирования значительно изменился, можно предположить, что распределение, на котором обучался автоэнкодер, отличается от распределения, из которого был получен рассматриваемый пример. Подробнее, например, тут.
Другой популярный подход базируется на том, что необычные значения легко отделить от остальных. Пример такого подхода - IsolationForest.
Хороший обзор подходов к детекции выбросов есть в лекциях MIT от 2023 г. и статьях А. Дьяконова, кое-что есть в 4й лекции нашего курса по ML System Design, современные подходы собраны в обзоре PapersWithCode по Anomaly Detection.
Есть хорошие библиотеки Luminaire и PyOD. PyOD - удобный конструктор детекторов аномалий. В Luminaire много интересных подходов на основе структурных моделей, в том числе прекрасный подход для работы с временными рядами.
В следующем посте цикла мы подытожим теоретическую часть небольшим фреймворком - руководством по работе с выбросами на основе примеров из практики.
Ваш @Reliable ML
👍28🔥11❤1
Трек Reliable ML - Data Fest Online 2023 - Ключевые даты
Подготовка докладов и мероприятий для трека Reliable ML на Data Fest Online 2023
Дорогие участники и спикеры трека Reliable ML на Data Fest Online 2023!
Публикуем основные даты для подачи заявок, подготовки докладов и мероприятий на нашем треке.
- 1 мая - до этой даты можно подать заявку на доклад. Для этого нужно продумать тему вашего доклада: написать название и анонс (о чем готовы рассказать). Ключевые темы мы раскрывали тут. Писать @irina_goloshchapova или @promsoft.
- 10 мая - мягкий дедлайн по докладам. Смотрим/слушаем и вместе дорабатываем драфты.
- 25 мая - готовы финальные доклады, утрясаем расписание.
- 3-4 июня - мы в эфире 🎉. Уже можно бронить дни в календарях 🙂!
Актуальный анонс треков Data Fest Online 2023 можно почитать тут.
Ваш @Reliable ML
Подготовка докладов и мероприятий для трека Reliable ML на Data Fest Online 2023
Дорогие участники и спикеры трека Reliable ML на Data Fest Online 2023!
Публикуем основные даты для подачи заявок, подготовки докладов и мероприятий на нашем треке.
- 1 мая - до этой даты можно подать заявку на доклад. Для этого нужно продумать тему вашего доклада: написать название и анонс (о чем готовы рассказать). Ключевые темы мы раскрывали тут. Писать @irina_goloshchapova или @promsoft.
- 10 мая - мягкий дедлайн по докладам. Смотрим/слушаем и вместе дорабатываем драфты.
- 25 мая - готовы финальные доклады, утрясаем расписание.
- 3-4 июня - мы в эфире 🎉. Уже можно бронить дни в календарях 🙂!
Актуальный анонс треков Data Fest Online 2023 можно почитать тут.
Ваш @Reliable ML
👍18❤3🔥2
Книга Machine Learning System Design With End-to-End Examples
Ранний доступ
Отличное событие для мая: в раннем доступе опубликована книга по дизайну ML-систем от Валерия Бабушкина и Арсения Кравченко.
Вклад Валеры и Арсения в развитие теории и практики по ML System Design сложно переоценить - книга обязана быть топовой по теме.
Сейчас доступны первые 5 глав (в черновиках есть еще 8). Новые главы будут выкладываться каждые 2 недели.
Скидка на книгу до 9 мая: mlbabushkin (MEAP launch code, 45% off).
Ваш @Reliable ML
Ранний доступ
Отличное событие для мая: в раннем доступе опубликована книга по дизайну ML-систем от Валерия Бабушкина и Арсения Кравченко.
Вклад Валеры и Арсения в развитие теории и практики по ML System Design сложно переоценить - книга обязана быть топовой по теме.
Сейчас доступны первые 5 глав (в черновиках есть еще 8). Новые главы будут выкладываться каждые 2 недели.
Скидка на книгу до 9 мая: mlbabushkin (MEAP launch code, 45% off).
Ваш @Reliable ML
🔥25❤5👍2🖕2
Лекция ML System Design Doc от Reliable ML в ИТМО
С радостью и гордостью выступили сегодня с Димой с лекцией по итеративному построению ML-систем в рамках онлайн-магистратуры ИТМО по ML-инженерии.
Рассказали про то, как выбирать ML-проекты, что такое ML System Design Doc и как его писать, чтобы предусмотреть основные риски, связанные с разработкой ML-решения и последующим его пилотированием и внедрением.
ИТМО планирует включить работу с нашим шаблоном дизайн дока в программу данной магистратуры как ключевой инструмент планирования ML-проектов.
Знать, что делаем что-то полезное - большая мотивация для того, чтобы мутить что-то новое.
Ваш @Reliable ML
С радостью и гордостью выступили сегодня с Димой с лекцией по итеративному построению ML-систем в рамках онлайн-магистратуры ИТМО по ML-инженерии.
Рассказали про то, как выбирать ML-проекты, что такое ML System Design Doc и как его писать, чтобы предусмотреть основные риски, связанные с разработкой ML-решения и последующим его пилотированием и внедрением.
ИТМО планирует включить работу с нашим шаблоном дизайн дока в программу данной магистратуры как ключевой инструмент планирования ML-проектов.
Знать, что делаем что-то полезное - большая мотивация для того, чтобы мутить что-то новое.
Ваш @Reliable ML
❤29🔥20👍7
Reliable ML
Лекция ML System Design Doc от Reliable ML в ИТМО С радостью и гордостью выступили сегодня с Димой с лекцией по итеративному построению ML-систем в рамках онлайн-магистратуры ИТМО по ML-инженерии. Рассказали про то, как выбирать ML-проекты, что такое ML…
Лекция ML System Design Doc от Reliable ML в ИТМО
Выложили видео и слайды выступления с лекцией в рамках онлайн-магистратуры ИТМО по ML-инженерии.
Рассказали про то, как выбирать ML-проекты, начиная от поиска идеи, что такое ML System Design Doc и как его писать, чтобы предусмотреть основные риски, связанные с разработкой ML-решения и последующим его пилотированием и внедрением.
На сессии Q&A поговорили о типовых вопросах, связанных с написанием дока (например, об итеративности его составления), разобрали конкретный пример, опубликованный в репозитории, а также порассуждали о современных тенденциях на рынке труда в контексте профессии ML-инженера и немного затронули специфику внутренней и заказной разработки и применимость дизайн дока в этом контексте.
Ваш @Reliable ML
Выложили видео и слайды выступления с лекцией в рамках онлайн-магистратуры ИТМО по ML-инженерии.
Рассказали про то, как выбирать ML-проекты, начиная от поиска идеи, что такое ML System Design Doc и как его писать, чтобы предусмотреть основные риски, связанные с разработкой ML-решения и последующим его пилотированием и внедрением.
На сессии Q&A поговорили о типовых вопросах, связанных с написанием дока (например, об итеративности его составления), разобрали конкретный пример, опубликованный в репозитории, а также порассуждали о современных тенденциях на рынке труда в контексте профессии ML-инженера и немного затронули специфику внутренней и заказной разработки и применимость дизайн дока в этом контексте.
Ваш @Reliable ML
👍11🔥7❤2🥰1
Необычные значения в данных
Цикл постов о подготовке данных. Пост 3
Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.
Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?
Фреймворк работы с выбросами
- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные
Примеры
Выявляем необычные точки
Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.
Формулируем гипотезу: как был сгенерирован выброс
Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.
Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.
Проверяем гипотезы
Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.
Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.
Принимаем решение: интересны ли нам эти случаи
Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.
Выкидываем или трансформируем необычные данные
Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.
Мораль
Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.
Ваш @Reliable ML
Цикл постов о подготовке данных. Пост 3
Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.
Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?
Фреймворк работы с выбросами
- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные
Примеры
Выявляем необычные точки
Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.
Формулируем гипотезу: как был сгенерирован выброс
Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.
Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.
Проверяем гипотезы
Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.
Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.
Принимаем решение: интересны ли нам эти случаи
Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.
Выкидываем или трансформируем необычные данные
Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.
Мораль
Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.
Ваш @Reliable ML
👍29🔥2❤1😁1
Захар Понимаш, Виктор Носко - Как интерпретируемый ИИ объясняет генерацию трансформеров
3-4 июня - Секция Reliable ML на Data Fest 2023
Во время Data Fest 2023 на нашей секции Reliable ML Захар Понимаш и Виктор Носко из проекта FractalGPT расскажут о библиотеке ExplainitAll.
Библиотека ExplainitAll предназначена для интерпретации выходов нейросетей трансформер. Основным преимуществом реализуемого в библиотеке подхода является то, что интерпретация будет работать и для сетей-эмбеддеров, и для генеративных задач в сеттинге QA (Вопросно-ответных систем). Результат работы может быть сгруппирован и обобщен на семантические кластеры. Также разработчики и пользователи ExplainitAll смогут использовать готовые метрики надежности ответов трансформеров, а также создавать свои собственные, с визуализацией внимания.
Регистрация на мероприятие тут.
Расписание будет сформировано в конце мая.
Ваш @Reliable ML
#анонс #tech #interpretable_ml #datafest2023
3-4 июня - Секция Reliable ML на Data Fest 2023
Во время Data Fest 2023 на нашей секции Reliable ML Захар Понимаш и Виктор Носко из проекта FractalGPT расскажут о библиотеке ExplainitAll.
Библиотека ExplainitAll предназначена для интерпретации выходов нейросетей трансформер. Основным преимуществом реализуемого в библиотеке подхода является то, что интерпретация будет работать и для сетей-эмбеддеров, и для генеративных задач в сеттинге QA (Вопросно-ответных систем). Результат работы может быть сгруппирован и обобщен на семантические кластеры. Также разработчики и пользователи ExplainitAll смогут использовать готовые метрики надежности ответов трансформеров, а также создавать свои собственные, с визуализацией внимания.
Регистрация на мероприятие тут.
Расписание будет сформировано в конце мая.
Ваш @Reliable ML
#анонс #tech #interpretable_ml #datafest2023
🤔8🔥7🎉4❤3👍2😁1