ML Career
202 subscribers
139 photos
5 videos
2 files
184 links
Branched from @data_career
Download Telegram
Channel created
Channel photo updated
Инструменты для ML мониторинга

В тему ландшафта инструментов мониторинга, регулярно попадаются статьи типа этой:
📃 Best Tools to do ML Model Monitoring (5-7 минут)
Интересно, что такие статьи обычно рассказывают про 3-5 инструментов, но не дают полное покрытие.

В четверг за круглым столом обсудим философско-холиварный вопрос: чем BI или Grafana + Prometheus не подходят для задач ML мониторинга, а пока пусть будет тут просто список специализированных инструментов.

Позиционируются плюс-минус как чисто ML мониторинг:
🔸 EvidentlyAI
🔸 ArizeAI
🔸 fiddler
🔸 Hydrosphere
🔸 snitch
🔸 Mona Labs
🔸 Aporia
🔸 WhyLabs
🔸 Arthur
🔸 Superwise
🔸 Waterdip
🔸 Censius
🔸 whitebox

Мониторинг качества данных в привязке к ML остался пока за кадром, единственное, наткнулся вчера на такой вот инструмент, который и про мониторинг моделей и про мониторинг данных:
🔸 Qualdo

Есть еще категория не совсем мониторинга, а, скорее, тестирования ML моделей:
🔸 Deepchecks
🔸 Truera
🔸 Robust Intelligence

Мониторинг безусловно стоит рядом с сервингом и MLOps. Вот инструменты, в которых мониторингу уделяется особое внимание:
🔸 Seldon (Alibi)
🔸 modzy
🔸 VertaAI

Мы в своей практике достаточно часто сталкиваемся со смешением понятий мониторинга и трекинга модельных экспериментов.
🔹 Вот ClearML, в котором есть функционал для трекинга экспериментов, он партнерится с тулом для монитороинга из спика выше - Aporia
🔸 Comet - тул, который может и в эксперименты и в мониторинг

Ну и практически во всех крупных DS/ML платформах есть свой ответ на мониторинг. Помимо тех, кто совсем на слуху (SAS, IBM, MS Azure, DataRobot, …), хочется отметить:
🔹 iguazio - MLOps, Feature Store, сервинг и мониторинг
🔹 Datatron - MLOps/ModelOps, Governance и мониторинг
🔹 Polymatica ML - NoCode разработка моделей, MLOps и мониторинг

В своей же классификации не смог решить, где сказать про наш инструмент))
◾️ Kolmogorov AI Predicate - мониторинг моделей и расчета кастомных метрик на Python;-) Скоро у нас будет полноценный красивый сайт, а пока слушайте наши доклады на митапах))

Про Monitoring vs Observability мы также еще поговорим подробно на круглом столе в четверг и, вообще, попробуем разобраться в других терминах: ml performance, ml explainability, ml visibility…

В приведенном списке инструментов еще не хватило классификации на open source / вендор, но об этом немного позже (наш Predicate, кстати, пока еще не опенсорсный, но уже бесплатный;-))

Список совсем не претендует на полноценный обзор того что есть. Какие инструменты (и термины) я забыл? Делитесь мыслями в чате, в треде “тема недели”

Источник: https://t.me/noml_digest/400
Немного про MPP

😎 Евгений Степанов из Банка Открытие на митапе в четверг сделает доклад про опыт построения предиктивного мониторинга и подходы MPP. На эту тему вспомним пару статей, которые у нас уже всплывали в канале:
📃 Модель следит за моделью: как MPP-подход помогает прогнозировать риски и принимать решения, 2020 (5 минут).
📃 Валидация моделей машинного обучения, 2021 (10 минут).

Про опыт коллег из Открытия есть также вот такая заметка по мотивам доклада на конференции Data Day:
📃 Прогрессивные методы мониторинга качества данных для моделей машинного обучения, 2022 (7 минут).

Про MPP сегодня в чате уже вспомнил 😎Артём Глазков (@allront):
📄 Статья: Ghanta et al. - MPP: Model Performance Predictor, 2019 (5 минут).
🔸 Библиотека: nannyML.


P.S.: А наш докладчик Евгений еще засветился с темой трендов:
📃 ML-/DS-тренды в задачах управления кредитным риском в розничном кредитовании, 2021
Статья правда не в публичном доступе, но мы в начале года обязательно соберемся на традиционный голосовой чат про тренды, и спросим Евгения, сбылись ли прогнозы😉

Источник: https://t.me/noml_community/5019/5085
ML мониторинг и Feature Store

😎Марина Смирнова (Альфа-Банк) и 😎Александр Косов (GlowByte) в своем докладе завтра на митапе затронут важную тему мониторинга стабильности фич и то, как она связана с Feature Store. В связи с этим небольшая подборка статей с Хабра:
📃 Как поссорились Инженер и Ученый - Статья про данные для ML и FeatureStore, 2021 (8 минут).
📃 Каким должен быть Feature Store, чтобы оптимизировать работу с ML-моделями, 2022 (7 минут).
📃 Как не перестать быть data driven из-за data driften, или Пару слов о дрейфе данных, 2022 (13 минут).

Вторая статья в списке по мотивам выступления:
📺 Артём Глазков - Анализ потребности бизнеса в использовании Feature Store, 2022 (38 минут).

Ну и можно пересмотреть наш самый первый очный митап, который был год назад и как раз по теме Feature Store:
📺 Технологии Feature Store (~2 часа).

#FeatureStore
Источник:
https://t.me/noml_community/5019/5087
Инструменты ЖЦМ

А теперь попробуем собрать список специализированных инструментов для управления жизненным циклом моделей - Model Lifecycle Management (MLCM), а также Model Governance (MG) и Model Risk Management (MRM).
Я бы охарактеризовал такие инструменты, во-первых, наличием некоторого workflow-движка, а во-вторых, возможностью собирать в себе модельные артефакты разнообразной природы (данные, код, документы, принятые решения и т.д.).

Если так, то у меня получился такой список:
🔸 SAS Model Risk Management
🔸 FICO Decision Central (по крайней мере как я понял этот инструмент)
🔸 ModelOp (на скриншотах вроде есть workflow)
🔸 Kolmogorov AI Continuity (без комментариев;))

Но вообще у терминов ЖЦМ/MLCM, MG, MRM нет строгого определения, такой функционал позиционируется очень у многих инструментов. Вот пара неожиданных на мой взгляд примеров:
🔹 DataRobot Model Risk Management
🔹 MathWorks Model Risk Management

А про какие инструменты MLCM, MG, MRM знаете вы? Делитесь мыслями в чате, в топике “тема недели”→


P.S.: Кстати, докладчики вчера на митапе так зажгли, что до круглого стола мы не дошли) Так что предлагаю обсудить заявленные темы observability и модельного риска в голосовом чате уже в январе😉

Источник: https://t.me/noml_digest/406
Forwarded from Мария
Открыт дополнительный поток курса "Введение в технологии NGS. Работа с данными секвенирования" от PCR.NEWS

Подробности👇🏻

📌КОГДА: 18 февраля - 23 февраля 2023 г.

📌КАК: очно (Москва) / онлайн

📌ГДЕ: @medtechmoscow – место совместной работы научных стартапов для ускорения внедрения инновационных решений.

Программа курса позволит в сжатые сроки получить максимум практических навыков по работе с геномными данными, а знания, приобретенные на нашем курсе, откроют новые карьерные возможности!

Вы изучите работу с базами данных, проведёте анализ результатов секвенирования и самостоятельно соберете геном, аннотируете мутации и освоите множество других навыков!

В программе:
• Обзор технологий секвенирования
• Введение в Linux и анализ данных NGS
• Анализ NGS данных, поиск и аннотация точечных мутаций
• Метагеномика и полногеномное секвенирование, особенности пробоподготовки и анализ данных
• Применение результатов NGS секвенирования в онкологии. Анализ альтернативного сплайсинга
• Анализ экспрессии генов

Курс специально разработан для тех, кто только погружается в сферу NGS. По окончании выдается документ о переквалификации

Успейте забронировать по специальной цене! Скидка 20% действует до 30 декабря 2022 г.

Количество мест ограничено => biomedschool.ru
👍1
🖥 15 крутых трюков Jupyter, которые сэкономят время при работе с данными.

Как специалисты по анализу данных мы используем Jupyter Notebook практически каждый день – от загрузки данных до создания и развертывания моделей с его помощью.

Мне нравится Jupyter Notebook за её простой и удобный дизайн и при этом Jupyter незаменим для решения любых python-ориентированных задач. В частности, Jupyter поддерживает возможность запуска и тестирование скриптов с множеством датасетов.

Однако, при всей простоте этого инструмента, мы часто склонны совершать ошибки, которые приводят к потере времени и увеличению затрат мощности.

В этой статье мы расскажем о некоторых советах и хитростях, которые должен знать каждый специалист по работе с данными. Эти трюки помогут сэкономить время и увеличить продуктивность работы.

➡️ Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🎓 Математика для Data Scientist. Книги, курсы, лекции и рекомендации.

Математика — это краеугольный камень Data Science. Хотя некоторые теоремы, аксиомы и формулы кажутся слишком абстрактными и далекими от практики, на самом деле без них невозможно по-настоящему глубоко анализировать и систематизировать огромные массивы данных.

Для специалиста Data Science важны следующие направления математики:

- статистика;
- теория вероятностей;
- математический анализ;
- линейная алгебра.


💨 Читать дальше

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Один из важнейших инструментов MLOps — это MLFlow.
▶️ 12 января в 20:00 мск в рамках онлайн-курса MLOps от OTUS пройдёт открытый урок «MLFlow и переобучение ML-моделей».

На открытом уроке вы узнаете:

🔹 Как экспериментировать сразу с несколькими ML-моделями, с разными гиперпараметрами и при этом не захлебнуться в разнообразии экспериментов.

🔹 Как, проводя регулярное переобучение, получить возможность сравнивать качество работы моделей и выбирать лучший результат.

🔹 Как не потерять накопленный опыт и воспроизводить более ранние эксперименты.

🔹 Как выбирать лучшие варианты для отправки в Prod / Staging среду, при этом делиться информацией и принимать совместное решение в команде.

💻 Спикером выступит преподаватель OTUS Данила Слепов. Он проектирует AI-системы, разрабатывает архитектуру MLOps платформ.

➡️ Для регистрации на вебинар пройдите вступительный тест: https://otus.pw/jCQ9/

Реклама. Информация о рекламодателе на сайте www.otus.ru.
Новогодние праздники – идеальное время для новых знаний 👀

Делимся плейлистами со всеми лекциями образовательных программ AIRI в 2022 году:

Летняя школа RDLS

Летняя школа РАИИ

Конференция

В этом году нас ждет еще больше образовательных программ и мероприятий, обязательно вернемся с новостями! 😁

https://t.me/airi_research_institute/178
Please open Telegram to view this post
VIEW IN TELEGRAM
Зимняя школа по аналитике и Data Science
28–29 января 2023


Центр непрерывного образования ФКН
Сегодня компании обладают огромными наборами данных о своих клиентах, товарах и транзакциях, поэтому все глубже в разные сферы бизнеса проникают аналитика данных и Data Science.

Приглашаем на школу по аналитике и Data Science всех, кто хочет разобраться: 
какие сегодня есть тренды в ИИ и как устроены современные технологии;
как Data Science применяется в разных индустриях;
что нужно изучить, чтобы стать аналитиком данных или специалистом по Data Science; 
можно ли стать аналитиком с непрофильным образованием и на что смотрят HR;
почему важны междисциплинарные проекты.
Школа подойдет как тем, кто только решил освоить новую профессию, так и начинающим специалистам.
 
Школа пройдет очно в Москве в здании Вышки на Покровском бульваре, 11. Участие бесплатное для всех желающих — нужно только зарегистрироваться.
Зарегистрироваться на школу
https://ferrine.github.io/pages/practical-bayes/

The Practical Bayes course was first held at Moscow State University, Autumn 2022

This course is aimed at mastering Bayesian methods in practice. Advanced modeling is not about conjugate distributions (although they are sometimes useful), but mostly about projecting knowledge about the problem into code. Successful research will also require skills in solving problems of convergence, parameterization, selection from several models. A course with a focus on programming in Python / PyMC.
Открытый практикум Data Analyst by Rebrain: АB-тестирование моделей машинного обучения

Успевайте зарегистрироваться. Количество мест строго ограничено!

👉Регистрация

Время проведения:

17 Января (Вторник) в 19:00 по МСК

Программа практикума:

🔹Что такое АБ-тестирование и для чего оно нужно в машинном обучении?
🔹Правила проведение корректного АБ-тестирования
🔹Оценка и анализ результатов

Кто ведет?

Артур Сапрыкин - Data Scientist, AI исследователь, предприниматель, автор курсов по машинному обучению, преподаватель.

https://t.me/Rebrain_DataScience/105
🎓Нужно ли разработчику высшее образование?

Обязательно ли идти в ВУЗ и получать диплом бакалавра/магистра, чтобы стать крутым DS? И стоит ли выбирать путь прогера-Джедая, который уже в 11 классе обучает такие нейросети, что только держись, но полностью посвящает себя работе и забивает на образование? Зачем ему универ? Эти пара и лекции будут только отвлекать от работы и развития в области DS? Или все же нет и высшее образование нужно?

Разбираемся в вопросе на карьерном подкасте вместе с Академией ИИ.

Спойлер: как по мне, так высшее образование все же необходимо. И если начинать прогать, делать крутые вещи и работать можно и раньше, без него, то на более поздних этапах в карьере без него никуда. А чтобы узнать, почему я так считаю, смотрите подкаст.

Note: Готова спорить только с теми, кто все посмотрел ;)

#подкаст #ds

https://t.me/mashkka_ds/327
This media is not supported in your browser
VIEW IN TELEGRAM
500+ список проектов AI с кодами

Гитхаб с таблицей, связывающей 100 проектов с кодом.
Полезный ресурс, если вы ищете вдохновение для своего следующего проекта, опирающегося на машину.

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM