MLinside - школа ML
3.75K subscribers
234 photos
18 videos
196 links
Предзапись на 4 поток курса "База ML": https://vk.cc/cQ7AkI
Наши курсы: https://taplink.cc/mlinside
Чат коммьюнити: @ml_insidechat
По вопросам: @marinagartm
Download Telegram
Вероятность выпадения орла равна:
Anonymous Quiz
52%
1/2
16%
1/3
27%
1/4
5%
2/3
5
Байес в ML всплывает не тогда, когда вы «изучаете математику», а когда модель начинает принимать решения, которые сложно объяснить интуитивно

И именно в этот момент обычно возникает вопрос: что вообще происходит внутри? 14 мая в 19:00 МСК именно это и разберём на вебинаре «Почему без формулы Байеса вы не понимаете, как работает ML».

Это не будет разговор про «математику ради математики», а скорее про то, как модели на самом деле пересчитывают вероятности, почему они меняют свои предсказания при появлении новых данных и как это связано с базовой логикой вероятностного вывода.

Спикер – Сергей Жестков, преподаватель с 10+ летним опытом, работавший с курсами для Сбера, Тинькофф, Otus и Skillbox, дважды «Преподаватель года» МФТИ. Он разберёт формулу Байеса через прикладные примеры, чтобы стало понятно, где именно она «живёт» в машинном обучении.

Также в обсуждении примет участие Виктор Кантор — как дополнительный участник, который поможет связать тему с более широким контекстом математики в ML и обучением в целом.

Обоим спикерам можно будет задать вопросы по ходу вебинара.

Если еще не регистрировались, ссылка тут: https://t.me/ml_insideBot?start=web140526
3
Мы начинаем вебинар "Формула Байеса в ML", подключайтесь: https://mlinside.getcourse.ru/pl/webinar/show?id=3283658
👍21🤯1
Мифы о машинном обучении, в которые все верят

Машинное обучение окружено мифами: кто-то думает, что модели всё делают сами, кто-то – что нейросети всегда лучше, а кто-то ждёт от ML точных предсказаний будущего.

На YouTube, в ВК и Дзен у нас вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside) разбирает самые распространённые заблуждения про ML и объясняет, как всё работает на самом деле.

На реальных примерах вы увидете, почему качество данных важнее алгоритма, где нейросети действительно дают преимущество, а где уступают более простым моделям, и почему ML это всегда про вероятности, а не точные прогнозы.

В конце видео разбор того, как на самом деле устроены ML-проекты и почему за каждой моделью стоит целая команда.

Кому будет полезно это видео:
Новичкам в ML: чтобы сразу понять, как всё устроено на практике и не строить нереалистичных ожиданий
Тем, кто думает войти в AI/ML: чтобы увидеть реальную картину индустрии, а не маркетинговый образ
Junior ML-инженерам: чтобы систематизировать базовые принципы и избежать типичных ошибок
Продактам и аналитикам: чтобы понимать ограничения ML и корректно ставить задачи
Разработчикам из других областей: чтобы разобраться, как ML встраивается в реальные продукты

Если нашли себя в этом списке, велком на удобную площадку:
https://youtu.be/43lRV_c-7KY
https://vkvideo.ru/video-228219607_456239209
https://dzen.ru/video/watch/69fc717bef3f37622de46128

P.S. 18 мая у нас запускается второй поток курса по Математике для машинного обучения. Посмотреть программу можно на сайте.

Или заполните форму и менеджер свяжется с вами, ответит на все вопросы и подарит промокод на скидку: https://forms.yandex.ru/cloud/68ca97e8f47e7311c69c807f
👍5👎1🔥1
Учимся на практике: решаем реальные ML-задачки

Это рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Двенадцатая задача

Что нужно сделать: по информации о разных приложениях нужно понять какое приложение лучше всего сделать: для большего охвата, для лучшего рейтинга, для того чтобы заработать больше денег и тд

Как можно сделать:
▪️Визуализировать данные для разных классов: платные/бесплатные, разные категории, количество установок и т.д.;
▪️Применить K-Means или DBSCAN;
▪️Обучить различные классификаторы и сравнить их качество.

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/lava18/google-play-store-apps
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1szMUL7MLxQVH9ZubsyP-LDbyCZ7rKBLF?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
52
Валерий Бабушкин и тот самый курс по ML System Design в MLinside

Если вы давно хотели разобраться, как проектируют ML-системы в реальных продуктах – это то, что вам нужно.

Курс посвящён проектированию ML-систем для реальных продуктов: работе с архитектурой, пайплайнами обучения, deployment-процессами, мониторингом моделей, оптимизацией инференса и поддержкой ML под нагрузкой. Также на курсе разберём подходы к проектированию современных агентских AI-систем и интеграции LLM в production-инфраструктуру.

На курсе вы научитесь:
▪️проектировать ML-системы под реальные ограничения
▪️строить ML design docs
▪️выбирать метрики и функции потерь
▪️выстраивать пайплайны обучения
▪️анализировать ошибки моделей
▪️внедрять ML в продукт
▪️мониторить качество моделей в продакшене
▪️оптимизировать инференс под нагрузку

Курс подойдёт ML-инженерам, тимлидам ML-команд и начинающим специалистам, которым нужен системный взгляд на ML.

Преподаватель – Валерий Бабушкин, наверняка он не нуждается в представлении, но всё же:
▪️Senior Director по Data & AI в BP
▪️грандмастер Kaggle
▪️автор книги Machine Learning System Design.

Курс будет идти 4 месяца и вас ждут 60 занятий, реальные кейсы, разбор design docs, архитектурные решения из production ML, а главное – live-обсуждения и ревью с Валерием. Посмотреть сайт можно тут.

Это курс для тех, кто хочет перейти от “умею обучать модели” к “умею строить ML-системы”.

Стартуем 1 июня, количество мест ограничено. Записаться можно по ссылке.
🔥118
MLinside - школа ML
Валерий Бабушкин и тот самый курс по ML System Design в MLinside Если вы давно хотели разобраться, как проектируют ML-системы в реальных продуктах – это то, что вам нужно. Курс посвящён проектированию ML-систем для реальных продуктов: работе с архитектурой…
Обновили информацию по курсу ML System Design с Валерием Бабушкиным

▪️Старт курса переносится на 1 июля
▪️Актуальная стоимость курса — 178 500 ₽

Информация на сайте уже обновлена.

Дополнительный месяц до старта используем, чтобы сделать программу ещё сильнее: добавляем новые материалы по agentic AI и проектированию современных AI-систем.

Спасибо всем, кто уже оставил заявки и интересуется курсом
👍64😈2
Как перейти со стажера на джуна в ML?

Многие стажёры в ML уверены: если знаешь Python, sklearn и можешь обучить модель, значит уже готов к позиции junior. Но на практике переход из стажёра в джуна зависит не только от технических знаний.

На YouTube, в ВК и Дзен у нас вышло видео, где Александр Дубейковский (ML-Engineer Авито, ex-Yandex, эксперт MLinside), разбирает, какие навыки действительно важны для роста в ML, что ожидают команды от начинающих специалистов и почему одних ноутбуков с моделями недостаточно.

Также, в видео Александр расскажет: какие технические навыки считаются обязательным минимумом для junior ML engineer, почему софт скилы часто решают больше, чем алгоритмы, как правильно проявлять инициативу в команде, по каким причинам стажёров не переводят в штат после испытательного срока, а также, поговорим про разницу между требованиями бигтеха и небольших компаний, ожидания тимлидов и реальные критерии роста внутри ML-команд.

Кому будет полезно видео:
▪️Стажёрам в ML — чтобы понять, чего реально ждут от junior-специалиста
▪️Тем, кто хочет попасть в первую ML-команду — чтобы избежать типичных ошибок на старте
▪️Начинающим ML-инженерам — чтобы быстрее расти внутри команды и понимать процессы продакшна
▪️Студентам и новичкам в Data Science — чтобы увидеть, как выглядит работа ML-инженера за пределами ноутбуков
▪️Тем, кто проходит стажировку прямо сейчас — чтобы повысить шансы на оффер после испытательного срока

Ссылки на видео на разных площадках:
https://youtu.be/_ZdaCJnRoLY
https://vkvideo.ru/video-228219607_456239221
https://dzen.ru/video/watch/6a0ef27e1059563825902c56
5🤓1
Устали от «идеальных» ML-кейсов?

Где данные всегда чистые, метрики стабильные, а модель после обучения сразу готова к продакшену. Ведь в реальной работе всё иначе: метрики могут упасть за ночь, данные – измениться, а решение нужно принимать быстро, да еще и с неполной информацией.

Поэтому мы запускаем новую рубрику «ML в реальной жизни» – здесь будут ситуации, с которыми сталкиваются ML/DS-команды в продакшене. Сразу же предупредим, что в этой рубрике нет единственно правильных ответов. Её цель – научиться рассуждать, обсуждать подходы и смотреть на проблемы с разных сторон.

Поэтому, если хотите, чтобы рубрика была вам максимально полезна, в комментариях важно не просто выбрать вариант, а объяснить:
— почему выбрали именно его
— что бы вы проверяли
— какие риски вы бы учитывали

Сегодня у нас ситуация №1:

Ситуация:
Метрики упали на 40% за ночь

Контекст:
В продакшене работает модель прогнозирования оттока. Утром вы видите:
— precision упал с 0.82 до 0.49
— recall — с 0.76 до 0.41

Последний деплой модели был 3 дня назад, изменений в пайплайне не было. Данные поступают из того же источника.

Внимание, вопрос:
Что будете делать в первую очередь?

Все посты этой рубрики можно будет посмотреть по тэгу: #риллайф_MLinside
12👍2
ML-инженеров скоро заменит AI?

На фоне бума LLM и нейросетей всё больше людей уверены, что профессия ML-инженера исчезнет уже в ближайшие годы. Но действительно ли всё так просто?

На практике ML, это давно не только “обучение модели”. Современные ML-системы– это инфраструктура, данные, продуктовые ограничения, бизнес-логика и постоянная поддержка моделей в production. И чем активнее компании внедряют AI, тем сложнее становятся сами ML-системы.

У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML Engineer в Авито, ex-Yandex и эксперт MLinside) разбирает, почему развитие AI не убивает профессию ML-инженера, а меняет её роль внутри индустрии.

Кому будет полезно это видео:
• начинающим ML-инженерам — чтобы понять, как реально устроена профессия;
• Data Scientist и аналитикам — чтобы увидеть, как ML работает в production;
• backend и software engineers — чтобы разобраться, как ML интегрируется в большие системы;
• студентам и тем, кто хочет войти в AI/ML — чтобы понять перспективы индустрии;
• всем, кто переживает, что AI “заменит программистов” — чтобы посмотреть на развитие технологий без хайпа.

Ссылки на видео:
https://youtu.be/fgkz3qyRxkY
https://vk.com/video-228219607_456239232
https://dzen.ru/video/watch/6a196939320fd81ff68a0765
👍7🔥2
Учимся на практике: решаем реальные ML-задачки

Продолжаем рубрику #петпроект_MLinside – тут мы публикуем задачи из реальных (ну или почти реальных) проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Тринадцатая задача

Что нужно сделать: посмотреть на исторические данные об Олимпийских играх, найти зависимости и тренды

Как можно сделать:
▪️Определить топ 5 стран с наибольшим количеством уникальных спортсменов в первый год за который есть данные и за последний, построить графики количества спортсменов для этих стран в зависимости от года
▪️Разделить данные на летние и зимние игры, затем сделать действия из прошлого пункта, изменился ли топ и графики?
▪️Определить максимальное количество золотых и любых медалей завоеванных одним и тем же человеком
▪️Определить для каждого года количество спортсменов которые начали выступать за другую страну
▪️Определить у какого спорта меньше всего уникальных человек завоевывали медали
▪️и т.д.


Данные можно взять на Kaggle: https://www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1jiwqav41cNlmn9FUn75WMCLES3H8-DQH?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях. А другие посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside
4
Ищем руководителей и менеджеров для исследования использования ИИ в работе

Мы проводим серию интервью с руководителями и менеджерами. Хотим разобраться, какие рабочие задачи они решают с помощью ИИ, что уже внедряют в свои процессы и какие сложности возникают на практике.

Кого ищем:
▪️Руководителей команд
▪️Руководителей направлений
▪️Руководителей отделов
▪️Product-менеджеров
▪️Project-менеджеров
▪️Предпринимателей

Что хотим узнать:
▪️Какие задачи занимают больше всего времени
▪️Для чего уже используется ИИ
▪️Что получается автоматизировать, а что не получается
▪️Каких знаний и инструментов не хватает

Что конкретно от вас требуется:
Если вы руководитель или менеджер, заполните короткую анкету на 2–3 минуты.

Если у вас есть чуть больше времени и вы готовы ответить на дополнительные вопросы, мы будем рады пригласить вас на интервью продолжительностью 20-30 минут в любое удобное для вас время.

С нас, базово, улучшить наши курсы, чтобы они отвечали вашим потребностям, ну и конечно же промокод со скидкой на подписку специализации "AI и анализ данных".

Анкета в яндекс формах: https://forms.yandex.ru/u/6a1fd4666d2d734f2bf67756
5
Бывало ли у вас такое, что модель работала отлично, а потом внезапно начала терять качество?

Главная ошибка в такой ситуации – сразу же запускать переобучение, потому что в продакшене деградация модели может быть связана с разными причинами: изменились входные данные, поменялось поведение пользователей, появились новые бизнес-сценарии или проблема вообще не в модели.

У нас на YouTube, в ВК и Дзен вышло видео, где Александр Дубейковский (ML Engineer в Avito, ex-Yandex, эксперт MLinside) разбирает одну из самых важных тем для ML-инженеров – Data Drift и Concept Drift.

Вы узнаете, чем отличается изменение распределения данных от изменения самой зависимости между признаками и целевой переменной, как эти проблемы проявляются в реальных ML-системах и почему автоматический retraining часто не решает проблему, а иногда даже ухудшает ситуацию.

Кому будет полезно видео:
▪️ML-инженерам и Data Scientists
▪️Специалистам, работающим с продакшн-моделями
▪️Студентам и начинающим специалистам в ML
▪️AI Engineers и MLOps-инженерам
▪️Всем, кто хочет лучше понимать жизненный цикл ML-моделей

Нашли себя в этом списке? Тогда велком на удобную для вас платформу:
https://youtu.be/ix3XCTglkIc
https://vkvideo.ru/video-228219607_456239233
https://dzen.ru/video/watch/6a214c829804be60200348e1
3
Внимание-внимание, рубрика «ML в реальной жизни» прибывает со второй задачкой

Да, это продолжение нашей рубрики, где мы задаем ситуации, с которыми сталкиваются ML/DS-команды в продакшене. В этой рубрике нет единственно правильных ответов. Её цель – научиться рассуждать, обсуждать подходы и смотреть на проблемы с разных сторон.

Поэтому, если хотите, чтобы рубрика была вам максимально полезна, в комментариях важно не просто выбрать вариант, а объяснить:
— почему выбрали именно его
— что бы вы проверяли
— какие риски вы бы учитывали

Сегодня у нас ситуация №2:

Ситуация:
Обнаружен дрейф признака. Но не ясно, что с ним делать

Контекст:
Система мониторинга показала значительный дрейф распределения одного из ключевых признаков (например, время активности пользователя). Модель ещё не деградировала по метрикам, но вы видите, что данные "поехали". Ресурсы на срочный рефакторинг пайплайна ограничены.

Варианты действий:
Что будете делать в первую очередь?

Все посты этой рубрики можно будет посмотреть по тэгу: #риллайф_MLinside
Please open Telegram to view this post
VIEW IN TELEGRAM