В некоторых задачах важна не вся ROC-кривая, а только определённая её часть — например, области с очень малым уровнем ложноположительных срабатываний (FPR) или с очень высокой полнотой (TPR).
🔹 Частичная AUC (Partial AUC):
Можно вычислить AUC только для заданного диапазона FPR, например от 0 до 0.1. Это покажет, насколько хорошо модель работает именно в интересующей области.
🔹 Специализированные метрики:
Иногда вместо полной AUC используют показатели вроде Precision при фиксированном Recall или TPR при заданном FPR — они позволяют оценить качество модели именно в том диапазоне, который критичен для практического применения.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍2❤1
  🎲 Знаешь, что хуже всего на собесе?
Когда задают простой вопрос, а ты не можешь ответить.
🤔 Это ощущение, когда понимаешь:
От «я знаю...» до «сейчас объясню!» всего один курс.
✅ Алгоритмы и структуры данных — от Big O до задач криптографии.
✅ Python для разработчиков — пиши чистый и эффективный код.
✅ Архитектуры и шаблоны — строй системы, которые масштабируются.
✅ Основы IT — всё необходимое для входа в профессию.
Выбирай любой и забирай со скидкой 40% только до конца октября.
🔗 Выбрать курс
  Когда задают простой вопрос, а ты не можешь ответить.
🤔 Это ощущение, когда понимаешь:
«Блин, я это знаю... вроде... сейчас...»
От «я знаю...» до «сейчас объясню!» всего один курс.
✅ Алгоритмы и структуры данных — от Big O до задач криптографии.
✅ Python для разработчиков — пиши чистый и эффективный код.
✅ Архитектуры и шаблоны — строй системы, которые масштабируются.
✅ Основы IT — всё необходимое для входа в профессию.
Выбирай любой и забирай со скидкой 40% только до конца октября.
🔗 Выбрать курс
Ранние нейронные сети часто использовали sigmoid и tanh, поскольку они:
В эпоху мелких сетей проблема исчезающих градиентов была не так заметна, поэтому sigmoid и tanh работали достаточно хорошо. Однако с ростом глубины сетей ReLU и её варианты стали предпочтительными — они ускоряют обучение и снижают риск затухания градиентов.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍1
  В большинстве случаев — да, но не всегда. Skip-соединения (residual connections) действительно облегчают обучение глубоких сетей, помогая бороться с затуханием градиентов и ускоряя сходимость. Именно поэтому они стали стандартом в современных архитектурах (ResNet, Transformer и др.).
Однако есть и ограничения:
👉 Они увеличивают вычислительную и памятьную нагрузку, особенно в сетях вроде DenseNet, где происходит конкатенация большого числа промежуточных признаков.
👉 В неглубоких моделях их польза минимальна — сеть и без них способна эффективно обучаться.
В итоге skip-соединения почти всегда оправданы в глубоких моделях, но их применение следует сбалансировать с ресурсами и архитектурной сложностью.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍1
  🤔 Как ускорить браузер
Закрой все вкладки со словами «MacBook», «купить ноутбук», «ноут в рассрочку». Потому что у нас есть решение лучше.
🔥 Proglib разыгрывает MacBook Pro 14. Формула простая: покупаешь любой курс до 15 ноября → учишься 2 недели → пишешь куратору #розыгрыш
Пока у тебя открыто 147 вкладок с ценами, кто-то уже прокачивает скилы и может забрать приз.
👉🏻 Выбрать курс для участия
  Закрой все вкладки со словами «MacBook», «купить ноутбук», «ноут в рассрочку». Потому что у нас есть решение лучше.
🔥 Proglib разыгрывает MacBook Pro 14. Формула простая: покупаешь любой курс до 15 ноября → учишься 2 недели → пишешь куратору #розыгрыш
Пока у тебя открыто 147 вкладок с ценами, кто-то уже прокачивает скилы и может забрать приз.
👉🏻 Выбрать курс для участия
Обычно это делается с помощью кросс-валидации и перебора возможных комбинаций гиперпараметров:
Методы подбора:
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍3
  Если градиент функции является L-Липшицевым, то есть его изменение не превышает ( L \cdot |x - y| ), то можно показать, что выбор шага ( \eta \leq 1/L ) гарантирует устойчивую сходимость для выпуклых задач.
Интуитивно это означает:
В невыпуклых задачах это условие также полезно — оно помогает избежать слишком резких шагов, обеспечивая более стабильное обучение, даже если глобальной сходимости гарантировать нельзя.
💡 Итого: знание константы Липшица ( L ) даёт теоретически обоснованный верхний предел для шага обучения ( \eta ), что помогает сделать градиентный спуск устойчивым.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍4
  Теоретически можно попытаться комбинировать методы калибровки, например, применив temperature scaling к логитам, а затем подавая полученные вероятности на изотоническую регрессию.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍3
  ⚡️ Механизм запущен, часики тикают
Прямо сейчас кто-то уже купил курс со скидкой 40%, открыл первый урок и уже на пути к MacBook Pro 14.
А ты всё ещё читаешь этот пост...
⏰ Дедлайны не ждут:
31 октября — скидка 40% сгорает
15 ноября — розыгрыш MacBook
🎯 Правила участия:
→ купить любой курс до 31 октября
→ отучиться 2 недели
→ написать #розыгрыш куратору
🕊️ Не упусти свой шанс
  Прямо сейчас кто-то уже купил курс со скидкой 40%, открыл первый урок и уже на пути к MacBook Pro 14.
А ты всё ещё читаешь этот пост...
⏰ Дедлайны не ждут:
31 октября — скидка 40% сгорает
15 ноября — розыгрыш MacBook
🎯 Правила участия:
→ купить любой курс до 31 октября
→ отучиться 2 недели
→ написать #розыгрыш куратору
🕊️ Не упусти свой шанс
Да. Эмбеддинги, как и любые параметры модели, могут переобучиться или потерять смысловую структуру, если данных мало или регуляризация отсутствует.
Векторы могут разрастаться по величине без отражения полезных отношений между токенами.
Способы защиты:
Регуляризация и мониторинг обучения помогают поддерживать эмбеддинги информативными и обобщающими.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍2
  Популярные варианты: Gini impurity и энтропия (information gain).
Сравнение:
Выбор на практике: часто метрики дают схожие результаты, поэтому решение зависит от скорости обучения, размеров данных и поведения конкретного датасета. Экспериментальная проверка с кросс-валидацией может помочь определить лучший вариант для вашей задачи.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍2
  ✨ Halloween Special — последний день магии! 👻
Успевай сегодня купить курсы со скидкой 40%!
А также участвуй в розыгрыше MacBook Pro 14 💻
После полуночи останется только тыква 🎃
🔮 Открой портал и выбери курс
  Успевай сегодня купить курсы со скидкой 40%!
А также участвуй в розыгрыше MacBook Pro 14 💻
После полуночи останется только тыква 🎃
🔮 Открой портал и выбери курс
Тренирует несколько моделей на разных случайных подвыборках данных и усредняет или объединяет их предсказания.
В нейросетях аналогом может быть обучение с разными аугментациями данных или случайной инициализацией весов. Это снижает переобучение и повышает стабильность.
Обучает модели последовательно — каждая новая модель старается исправить ошибки предыдущей.
В глубоких сетях встречается реже, но идеи boosting можно реализовать через специальные функции потерь или адаптивные схемы обучения.
Использует предсказания нескольких базовых моделей как входы для метамодели (второго уровня), которая учится оптимально комбинировать эти выходы.
В deep learning это можно реализовать с помощью второй нейросети, обученной на выходах нескольких базовых моделей (ensemble blending).
Please open Telegram to view this post
    VIEW IN TELEGRAM
  ❤1👍1
  Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное.
Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов.
Примеры:
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍3
  Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.
Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.
Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.
Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍5
  Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:
Непараметрический бутстреп:
Please open Telegram to view this post
    VIEW IN TELEGRAM
  👍1