🤔 Почему иногда стоит использовать заведомо переобученную модель, несмотря на риски
На первый взгляд, переобучение — это зло. Но в некоторых ситуациях сознательное переобучение может быть оправдано, если:
✅ Качество важнее обобщения. Например, если модель работает только на строго ограниченном наборе данных (внутри одной компании, устройства, клиента), и обобщение на внешний мир не требуется.
✅ Переобученная модель используется как слабый компонент в ансамбле. Boosting часто строит переобученные деревья, которые в совокупности дают устойчивую модель.
✅ Нужно вытянуть максимум информации из сложных и «богатых» данных. Иногда регуляризация отрезает важные высокоуровневые зависимости. Переобученная модель может их уловить — главное, вовремя остановиться.
✅ Переобученная модель как инструмент анализа. Например, чтобы изучить, какие признаки «зашумлены», какие корреляции неустойчивы — переобучение может показать слабые места в данных.
Библиотека собеса по Data Science
На первый взгляд, переобучение — это зло. Но в некоторых ситуациях сознательное переобучение может быть оправдано, если:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Модель может выдавать хорошие предсказания с точки зрения точности, но её оценка вероятностей быть плохо откалиброванной — то есть, предсказанные вероятности не соответствуют реальной частоте событий.
Во многих задачах (медицина, финансы, риск-менеджмент) важна не только метка класса, но и
Почему возникает несоответствие:
Методы исправления
Постобработка:
Встроенные методы:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Маскировка — ситуация, когда модель
Почему возникает:
Как бороться:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
☝️ Последний шанс купить курсы Proglib Academy с доступом навсегда!
Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).
Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!
👉 Выбрать курс
Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).
Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!
👉 Выбрать курс
❤2
Информационная энтропия
Когда мы обучаем модель, особенно классификатор, мы хотим, чтобы её предсказания были точными и уверенными там, где нужно. И вот тут возникает связь:
«Я почти уверен, что это класс А»,
а на самом деле правильный ответ — класс B,
то функция потерь даст сильное наказание.
«Я не знаю, вероятно, 50/50 между A и B»,
то наказание будет мягче.
Эта логика пришла из информационной теории, где цель — сократить неопределённость. Обучение модели можно понимать как процесс уменьшения энтропии — мы учим её делать уверенные и точные предсказания, тем самым сокращая информационный «хаос».
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
Неопределённость в предсказаниях модели может иметь разные причины, и важно понимать, откуда она берётся:
1. Алейаторная неопределённость —
2. Эпистемическая неопределённость —
Почему это важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
Индуктивное смещение — это всё, что модель
Если выбрать модель с неподходящими индуктивными смещениями, она может и
Почему это важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Это связано с
Модель при этом «предполагает», что новые данные
Причина в том, что модель фактически
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
🤖 Знаете, чем настоящий AI отличается от чат-бота?
Чат-бот просит перезагрузить роутер, а настоящий AI уже умеет читать ваши эмоции в чате, включать музыку под ваше настроение, контролировать погрузку руды с точностью Терминатора и даже находить на КТ-снимках то, чего не заметит человеческий глаз.
Современные компании для таких задач всё чаще используют Deep Learning — алгоритмы на основе нейросетей. Но чтобы попасть в эту лигу, нужен фундамент. И имя ему — Machine Learning.
Наш новый курс по ML — это не волшебная таблетка. Это честный и структурированный путь в мир Data Science. Мы дадим вам базу, с которой вы:
✅ разберётесь, как мыслят машины (спойлер:матрицами! );
✅ научитесь строить работающие модели, а не карточные домики;
✅ получите трамплин для прыжка в Deep Learning.
Хватит смотреть, как другие запускают ракеты. Пора строить свой собственный космодром.
Начните с фундамента на нашем курсе по Machine Learning!
Чат-бот просит перезагрузить роутер, а настоящий AI уже умеет читать ваши эмоции в чате, включать музыку под ваше настроение, контролировать погрузку руды с точностью Терминатора и даже находить на КТ-снимках то, чего не заметит человеческий глаз.
Современные компании для таких задач всё чаще используют Deep Learning — алгоритмы на основе нейросетей. Но чтобы попасть в эту лигу, нужен фундамент. И имя ему — Machine Learning.
Наш новый курс по ML — это не волшебная таблетка. Это честный и структурированный путь в мир Data Science. Мы дадим вам базу, с которой вы:
✅ разберётесь, как мыслят машины (спойлер:
✅ научитесь строить работающие модели, а не карточные домики;
✅ получите трамплин для прыжка в Deep Learning.
Хватит смотреть, как другие запускают ракеты. Пора строить свой собственный космодром.
Начните с фундамента на нашем курсе по Machine Learning!
«Teacher forcing» — это техника, часто применяемая
Однако у этого подхода есть проблема:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
🔥 Знакомьтесь, преподаватель нашего нового курса по ML — Мария Жарова.
В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️
А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.
👉 Записывайтесь на курс
В карточках рассказали, чем Мария занимается и какие советы даёт тем, кто хочет расти в IT и Data Science ☝️
А если вы уже поняли, что тянуть нечего, начните свой путь в ML правильно: с реальной практикой, поддержкой ментора и видимым результатом.
👉 Записывайтесь на курс
👉 Почему при работе с большими языковыми моделями иногда полезно использовать «температуру» (temperature) в генерации текста
Температура — это параметр,который регулирует степень случайности в выборе следующего слова. Изменяя её, можно балансировать между креативностью и предсказуемостью модели.
Что даёт изменение температуры:
➡️ Низкая температура (близко к 0)
Модель становится более «консервативной», выбирает наиболее вероятные слова. Текст получается более логичным и связным, но может быть скучным и повторяющимся.
➡️ Высокая температура (выше 1)
Модель начинает экспериментировать, выбирает менее вероятные слова. Это повышает разнообразие и креативность, но иногда приводит к бессмысленным или нестыковочным фразам.
➡️ Средняя температура (~0.7)
Часто используется как компромисс — текст остаётся интересным, но не теряет смысла.
Библиотека собеса по Data Science
Температура — это параметр,
Что даёт изменение температуры:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4
В распределённом обучении модели параллельно обновляются на нескольких устройствах, и если
Вот что может пойти не так:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.
С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.
-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)
Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.
📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.
-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)
Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.
📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA
Парадоксально, но если модель ведёт себя слишком «предсказуемо» или «механически», люди могут терять к ней доверие — особенно если они чувствуют, что она
Конкретные примеры:
Если пациент видит, что система всегда даёт один и тот же совет независимо от деталей, он решит, что ей нельзя доверять — даже если совет корректный.
Чрезмерно логичные или зацикленные рекомендации (например, «ты посмотрел фильм про космос — вот ещё 50 таких») вызывают раздражение и ощущение, что «модель тупит».
Если ответы слишком шаблонны, люди не верят, что модель действительно "понимает". Лучше меньше точности, но больше контекстуальности.
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1