Одна из частых причин — разрыв между тем, что измеряется
Также A/B-тест чувствителен к
Кроме того, в offline-е модель часто тестируется
Поэтому расхождение между offline и online —
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Зачем вообще понимать, как работает ML?
Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.
Машинное обучение — это система, которую можно понять.
Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью.
👉 Мы сделали курс, чтобы в это было реально въехать:
— без сложных формул;
— с интуитивными объяснениями;
— от простого к сложному.
Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу!
❗Стартуем в сентябре — бронируй место на курсе уже сейчас
Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.
Вроде всё работает… но почему?
А когда сломается — что делать?
Машинное обучение — это система, которую можно понять.
Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью.
👉 Мы сделали курс, чтобы в это было реально въехать:
— без сложных формул;
— с интуитивными объяснениями;
— от простого к сложному.
Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу!
❗Стартуем в сентябре — бронируй место на курсе уже сейчас
👍1
Во многих прикладных задачах цена разных ошибок неравнозначна.
Например,
Без учёта бизнес-контекста модель
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Промежуточные представления дают понимание того, как
Иногда модель может давать правильные предсказания,
Это особенно ценно при работе с «чёрными ящиками»
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
🫣 Боитесь математики в ML?
Думаете, для этого нужно вспоминать университетские интегралы и решать сложные уравнения?
У нас хорошая новость: машинное обучение — это в первую очередь инженерная практика, а не математическая олимпиада. Здесь важнее понимать суть, а не выводить формулы.
Именно на таком подходе — через логику, интуицию и наглядные примеры — и построен наш курс «ML для старта в Data Science», где мы объясняем всё на пальцах, без боли и зубрёжки.
Регистрируйтесь, пока есть свободные места 😉
Думаете, для этого нужно вспоминать университетские интегралы и решать сложные уравнения?
У нас хорошая новость: машинное обучение — это в первую очередь инженерная практика, а не математическая олимпиада. Здесь важнее понимать суть, а не выводить формулы.
Именно на таком подходе — через логику, интуицию и наглядные примеры — и построен наш курс «ML для старта в Data Science», где мы объясняем всё на пальцах, без боли и зубрёжки.
Регистрируйтесь, пока есть свободные места 😉
Ошибки первого рода (ложноположительные) и второго рода (ложноотрицательные) напрямую отражаются в метриках:
📌 Важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
❓Как можно встроить экспертные знания о задаче в Bayesian-подход к тюнингу гиперпараметров
В Bayesian optimization доменные знания можно внедрить череззадание информативных априорных распределений и стартовых точек:
🟠 Ограничение диапазонов — если известно, что в вашей области обучения эффективные learning rate находятся в узком интервале, априор можно задать не равномерным, а суженным (например, log-uniform в пределах, где вы ожидаете хорошие результаты).
🟠 Warm-start — добавить в начальный набор экспериментов уже успешные конфигурации, чтобы модель-заместитель сразу получила полезную информацию о ландшафте гиперпараметров.
🟠 Специализированная модель-заместитель — вместо стандартного Gaussian Process использовать модель, отражающую корреляции между гиперпараметрами (например, объединяя родственные типы регуляризации в иерархию).
💡 Подводный камень:чрезмерно «узкие» или слишком уверенные априоры могут зафиксировать поиск в локальном оптимуме. Даже с сильными предположениями полезно сохранять некоторую степень случайного исследования пространства.
Библиотека собеса по Data Science
В Bayesian optimization доменные знания можно внедрить через
💡 Подводный камень:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3
🧐 Зоопарк моделей в ML: с чего начать?
Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии.
Кажется, придётся учить всё это, иначе в ML не пустят.
Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут.
Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное.
👉 Успей попасть на курс «ML для старта в Data Science»
Открываешь статью по машинному обучению — и в тебя летят слова: трансформеры, бустинги, SVM, регрессии.
Кажется, придётся учить всё это, иначе в ML не пустят.
Хорошая новость: 90% задач можно закрыть 2–3 классическими методами. Разберёшь их — уже сможешь собирать работающие проекты. А хайповые названия подождут.
Важно: не распыляйся на всё подряд. Начни с базового — это фундамент, на котором держится остальное.
👉 Успей попасть на курс «ML для старта в Data Science»
👉 Как интегрировать несупервизорные или self-supervised сигналы в потоковой обработке данных, если метки приходят с задержкой или доступны частично
В таких условиях модель не должна простаивать, пока ждёт разметку — можно использовать несколько стратегий:
✅ Self-supervised задачи — для текста (маскированное предсказание токенов) или изображений (контрастивное обучение) модель может подстраиваться к новым распределениям данных без явных меток, постепенно улучшая представления.
✅ Буферизация с дообучением — хранить необмеченные данные, частично дообучать модель на self-supervised или старых размеченных данных, а после получения меток выполнять полное обновление.
✅ Инкрементальное кластеризование — алгоритмы вроде online k-means или потоковых версий DBSCAN позволяют отслеживать появление новых кластеров (концепт-дрифт) и адаптировать модель ещё до появления меток.
Библиотека собеса по Data Science
В таких условиях модель не должна простаивать, пока ждёт разметку — можно использовать несколько стратегий:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Когда распределение входных данных или целевой переменной меняется со временем, модель начинает деградировать. Чтобы минимизировать ущерб:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
❓Какова связь между масштабированием и PCA
PCAчувствителен к масштабу признаков — признаки с большей дисперсией будут сильнее влиять на главные компоненты .
Поэтому перед применением PCA обычно выполняют масштабирование или стандартизацию: вычитают среднее и делят на стандартное отклонение каждого признака. Это позволяет избежать ситуации, когда признаки с большим масштабом непропорционально влияют на результат, и сосредоточиться на выявлении реальных зависимостей в данных.
Библиотека собеса по Data Science
PCA
Библиотека собеса по Data Science
❤1
📺 Хватит коллекционировать туториалы!
Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.
Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.
Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.
И да, чтобы старт был ещё проще — при покупке курса по ML вы получаетекурс по Python в подарок
👉 Превратите «шум» в навык
А вы сталкивались с «информационной кашей»? Как выбирались? 👇
Десятки роликов по ML, сотни вкладок, папка «Посмотреть позже» трещит по швам. В голове — обрывки знаний о нейросетях и Pandas.
Знания без системы — это просто «шум». Они не превращаются в навыки и проекты.
Наш курс «ML для старта в Data Science» — это не ещё один туториал. Это система. Чёткий путь от «каши» в голове до первого сильного проекта в портфолио.
И да, чтобы старт был ещё проще — при покупке курса по ML вы получаете
👉 Превратите «шум» в навык
А вы сталкивались с «информационной кашей»? Как выбирались? 👇
❓Как учитывать стоимость ошибок в классификации, если мы опираемся на AUC и ROC-кривые
ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок можетсильно отличаться .
В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход:
🔎 Использовать матрицу стоимости или кастомную функцию потерь, чтобы сильнее наказывать определённые ошибки.
🔎 Выбирать порог не для максимизации TPR/FPR, а для минимизации ожидаемой стоимости ошибок.
🔎 Считать дополнительные метрики, например, cost-weighted accuracy или Weighted Error Rate, которые учитывают специфику домена.
Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок.
🐸 Библиотека собеса по Data Science
ROC-кривые и AUC оценивают, насколько хорошо модель ранжирует положительные объекты выше отрицательных, но не учитывают, что цена ложноположительных и ложноотрицательных ошибок может
В задачах с высокими ставками — от поиска мошенничества до медицинской диагностики — важно адаптировать подход:
Главная ошибка — слепо ориентироваться на AUC: модель с лучшим AUC может оказаться хуже на реальном пороге, где критична стоимость ошибок.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3
❓ У вас есть набор данных с пропущенными значениями. Как вы подходите к их обработке?
Сначала анализируем, какие данныепропущены и почему (MCAR, MAR, MNAR).
📌 Если пропусков мало, можно удалять строки или колонки.
📌 Если много — импутация: среднее/медиана для числовых, мода для категориальных, или более сложные методы (KNN, MICE).
📌 Для моделей, чувствительных к пропускам (например, деревья ), можно оставить NaN как отдельную категорию.
📌 Важно не искажать распределение данных и фиксировать шаги для воспроизводимости.
🐸 Библиотека собеса по Data Science
Сначала анализируем, какие данные
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🤔1
🚀 Главная ошибка новичка в ML — строить звездолёт вместо велосипеда
Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.
Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».
Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.
👉 Начните правильно
Берёте курс «ML для старта» до конца недели — Python в подарок.
❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.
А какой самый сложный проект вы брались делать в самом начале? 🫢
Многие сразу хотят свою Midjourney, но в итоге получают только выгорание.
Успех начинается с «велосипеда»: научитесь предсказывать цены или классифицировать отзывы. Освойте базу, а уже потом стройте «звездолёты».
Наш курс «ML для старта в Data Science» — это и есть тот самый правильный старт от простого к сложному.
👉 Начните правильно
Берёте курс «ML для старта» до конца недели — Python в подарок.
❗А 21 августа пройдет бесплатный вебинар с Марией Жаровой: узнаете, какие проекты качают скилл, а какие качают ваши нервы.
А какой самый сложный проект вы брались делать в самом начале? 🫢
Обе методики дают локальные объяснения, но:
SHAP —
LIME —
Итог: SHAP —
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Мультиколлинеарность — это
Последствия:
—
—
—
Решения:
—
—
—
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3
🧠 Выбор первого ML-проекта: чеклист против выгорания
Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.
Мини-чеклист первого проекта:
1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».
2. Измеримая метрика — «точность 92%», а не «ну вроде работает».
3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.
Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.
👉 Начать свой путь в Data Science
Оплатите курс по ML до 17 августа — курс по Python в подарок.
📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.
💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
Классика плохих решений в ML — выбрать слишком сложный проект: неделя ковыряния в коде, десятки крашей и никакого результата. Хотите дойти до финиша — начните с простого проекта, который реально можно довести до конца.
Мини-чеклист первого проекта:
1. Понятные данные — без «я нашёл датасет в даркнете, но он на суахили».
2. Измеримая метрика — «точность 92%», а не «ну вроде работает».
3. Объяснимый результат — чтобы не-техлид понял, почему модель ругается на спам.
Наш курс «ML для старта в Data Science» — старт от простого к сложному: теория → практика → проверка → проект в портфолио.
👉 Начать свой путь в Data Science
Оплатите курс по ML до 17 августа — курс по Python в подарок.
📅 Бесплатный вебинар с Марией Жаровой — 21 августа: как выбирать проекты, которые доводят до оффера, а не до психотерапевта.
💾 Сохрани, чтобы не потерять, когда будешь готов(а) начать
📌 Вывод:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
😎 Вы просили — мы сделали. Самый долгожданный анонс этого лета!
Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!
На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.
📆 Старт потока — 15 сентября.
💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.
👉 Занять место
Мы открываем набор на второй поток курса «AI-агенты для DS-специалистов»!
На курсе мы учим главному навыку 2025 года: не просто «болтать» с LLM, а строить из них рабочие системы с помощью Ollama, RAG, LangChain и crew.ai.
📆 Старт потока — 15 сентября.
💸 Цена 49 000 ₽ действует только в эти выходные — до 17 августа. С понедельника будет дороже.
👉 Занять место
😢2