Хотя многие алгоритмы (например, деревья решений) действительно не чувствительны к порядку колонок, сам порядок может влиять на всё, что вокруг модели:
—
—
—
Более того, некоторые модели (особенно нейронные сети для табличных данных) могут использовать
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Потому что даже признаки, которые по отдельности кажутся слабыми или нерелевантными, могут
Кроме того, признаки могут
Это одна из причин, почему автоматическая отборка признаков — не всегда
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
👉 В вашей задаче данные поступают постепенно, а разметка появляется с задержкой. Как организовать обучение модели в таких условиях
Это ситуация с отложенной обратной связью — типична для рекомендательных систем, финтеха, healthtech и других отраслей.
Тут важно:
🔎 Буферизовать метки: хранить все входные данные и их предсказания, чтобы при появлении метки — привязать её к нужному входу.
🔎 Обучать с лагом: ввести обучающий цикл, который использует только старые (полностью размеченные) данные.
🔎 Использовать псевдоразметку или онлайн-сигналы: если задержка критична, можно временно использовать прокси-метки или слабые сигналы.
🔎 Контролировать data leakage: при любой задержке легко по ошибке обучиться на будущих данных.
🔎 Оценка через holdback-стратегии: часть данных можно специально не использовать для обучения, чтобы позже протестировать модель на будущем.
Такой подход ближе кstream learning или delayed feedback learning — важен там, где модель взаимодействует с миром, а не просто классифицирует CSV.
Библиотека собеса по Data Science
Это ситуация с отложенной обратной связью — типична для рекомендательных систем, финтеха, healthtech и других отраслей.
Тут важно:
Такой подход ближе к
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Это ситуация дисбаланса классов, и такая высокая accuracy —
Важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2👍1
Это реальная проблема во многих продуктах — например, в рекомендательных системах, предсказаниях отмен заказов, финансовом скоринге и т.п.
Возможные подходы:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
👉 Как бы вы поступили, если ваша модель показывает хорошие метрики, но бизнес-цель при этом не улучшается
Возможные причины и действия:
Неверные метрики:может быть, оптимизируется surrogate-метрика (например, ROC AUC), которая слабо коррелирует с бизнес-результатом.
→ Перейти кметрикам, отражающим бизнес (uplift, ROI, precision@top-K).
Неправильная точка принятия решения:модель даёт предсказания, но downstream-система их игнорирует или использует неправильно.
→ Проверить интеграцию: как именно модель влияет на решение.
Неверная целевая функция:возможно, модель обучена на задачу, которая не связана напрямую с целью (например, клик ≠ покупка).
→ Пересмотретьtarget или изменить бизнес-логику.
Эффект на поведение:модель меняет поведение пользователей так, что в итоге это ухудшает метрику (например, слишком агрессивная рекомендация вызывает отток).
→ Провести A/B-тест и анализ пост-эффектов.
Библиотека собеса по Data Science
Возможные причины и действия:
Неверные метрики:
→ Перейти к
Неправильная точка принятия решения:
→ Проверить
Неверная целевая функция:
→ Пересмотреть
Эффект на поведение:
→ Провести
Библиотека собеса по Data Science
❤4👍1🔥1
❓ Как вы поймёте, что модель недостаточно сложна для вашей задачи, если при этом нет явных признаков недообучения по метрикам
Обычно недообучение проявляется через низкие метрики на тренировке и валидации. Но бывает, что метрики неплохие, а модель не захватывает важные зависимости.
Это может быть критично, особенно если:
✅ Плохая способность к обобщению на сложные случаи
—Например, модель уверенно справляется с типовыми примерами, но ошибается на edge cases, редких или более сложных подгруппах данных.
✅ Ошибки сконцентрированы в важной подвыборке
—Например, модель плохо работает на новых регионах, продуктах или временных периодах.
✅ Сильная зависимость от простых фичей
—Даже при высокой точности, если модель полагается только на "легкие" корреляции (например, средние значения), она может игнорировать тонкие сигналы.
✅ Модель плохо обучается на добавленных сложных признаках
—Если после добавления нетривиальных фич метрики почти не растут, возможно, архитектура модели не позволяет использовать их эффективно.
✅ Анализ ошибок вручную
—Просмотр ошибок показывает систематические промахи в логике, а не шум.
Библиотека собеса по Data Science
Обычно недообучение проявляется через низкие метрики на тренировке и валидации. Но бывает, что метрики неплохие, а модель не захватывает важные зависимости.
Это может быть критично, особенно если:
—
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3😁2❤1
Одна из частых причин — разрыв между тем, что измеряется
Также A/B-тест чувствителен к
Кроме того, в offline-е модель часто тестируется
Поэтому расхождение между offline и online —
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Зачем вообще понимать, как работает ML?
Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.
Машинное обучение — это система, которую можно понять.
Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью.
👉 Мы сделали курс, чтобы в это было реально въехать:
— без сложных формул;
— с интуитивными объяснениями;
— от простого к сложному.
Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу!
❗Стартуем в сентябре — бронируй место на курсе уже сейчас
Сейчас многие просто запускают модельку в sklearn — и радуются точности 0.92.
Вроде всё работает… но почему?
А когда сломается — что делать?
Машинное обучение — это система, которую можно понять.
Если знаешь, что делает градиентный спуск, зачем нужен бустинг и как дерево принимает решения — ты не просто «запускаешь», ты управляешь моделью.
👉 Мы сделали курс, чтобы в это было реально въехать:
— без сложных формул;
— с интуитивными объяснениями;
— от простого к сложному.
Если хочешь перейти от «гуглю код» к «понимаю, как это работает» — ты по адресу!
❗Стартуем в сентябре — бронируй место на курсе уже сейчас
👍1
Во многих прикладных задачах цена разных ошибок неравнозначна.
Например,
Без учёта бизнес-контекста модель
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
Промежуточные представления дают понимание того, как
Иногда модель может давать правильные предсказания,
Это особенно ценно при работе с «чёрными ящиками»
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3