📌 Почему «логистическая регрессия» — это всё ещё регрессия, а не классификация
На первый взгляд, логистическая регрессия решает задачу классификации — ведь результатом часто становится 0 или 1. Но суть метода — в другом.
🔹 Что происходит на самом деле:
Модель вычисляет линейную комбинацию признаков, а затем пропускает её через сигмоиду — так получается число от 0 до 1, которое интерпретируется как вероятность принадлежности к положительному классу.
🔹 Почему это регрессия:
Потому что модель всё равно оптимизирует непрерывную функцию — отрицательное логарифмическое правдоподобие (log-loss), а не просто учится выбирать класс. Это приближает её к регрессионным методам: мы не просто «присваиваем» метку, а подгоняем параметры, как в классической регрессии.
🔹 А что насчёт классификации:
Классификацию мы получаем постфактум — когда применяем порог (обычно 0.5) к предсказанной вероятности.
⚠️ Главное —не путать внешний вид (0 или 1) с внутренней механикой. Логистическая регрессия — это регрессия, просто на логарифме вероятностей.
Библиотека собеса по Data Science
На первый взгляд, логистическая регрессия решает задачу классификации — ведь результатом часто становится 0 или 1. Но суть метода — в другом.
🔹 Что происходит на самом деле:
🔹 Почему это регрессия:
🔹 А что насчёт классификации:
⚠️ Главное —
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🙈 Что скрывает дисперсия: разгадка секрета точных ML-моделей
Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.
🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные
• Значительно улучшить точность ваших ML-моделей
• Помочь обнаружить аномалии, которые вы раньше не замечали
В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?
➡️ Тогда смотрите бесплатный вебинар от Proglib: https://proglib.io/w/41b975da
Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.
🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные
• Значительно улучшить точность ваших ML-моделей
• Помочь обнаружить аномалии, которые вы раньше не замечали
В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.
Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?
Please open Telegram to view this post
VIEW IN TELEGRAM
Оба метода помогают выбрать оптимальное количество кластеров (k), но делают это по-разному:
— Основан на
— При увеличении количества кластеров
— Нужно найти точку, в которой снижение становится
— Минус: нахождение локтя
— Для каждой точки рассчитывается
— Средняя оценка по всем точкам показывает
— Позволяет интерпретировать
— Часто даёт
— Метод локтя
— Метод силуэта — более
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека питониста | Python, Django, Flask
🖼 ТОП-5 структур данных для обработки изображений
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
👉 В этой статье — подборка топ решений и советы, как их использовать.
Библиотека питониста
Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?
Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM
🆚 Как сравниваются методы перерасчёта градиента и focal loss при работе с несбалансированными классами
🔘 Focal loss добавляет коэффициент, который уменьшает вклад уже хорошо классифицированных примеров, тем самым фокусируя обучение на сложных, часто ошибочно классифицируемых объектах . Это особенно полезно, когда модель быстро обучается на «лёгких» примерах и игнорирует «трудные» .
🔘 Gradient re-scaling (пересчёт градиента с учётом частоты классов) нацелен на устранение дисбаланса между классами, регулируя вклад каждого класса в градиент . Часто это реализуется как взвешивание классов .
📍 Сравнение:
— Focal loss фокусируется насложности примеров, а не на частоте классов .
— Gradient re-scaling напрямую учитываетчастоту классов, но не различает лёгкие и трудные примеры внутри одного класса.
В задачах с сильным дисбалансом имеет смыслкомбинировать оба метода — использовать пересчёт градиентов по классам и применять focal loss, чтобы дополнительно усилить обучение на сложных примерах.
Библиотека собеса по Data Science
— Focal loss фокусируется на
— Gradient re-scaling напрямую учитывает
В задачах с сильным дисбалансом имеет смысл
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Для временных рядов тестовый набор обычно относится к более
⚠️ Подводный камень
Некоторые методы очистки могут
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Что объединяет успешный собес и продвинутый анализ данных? Оба требуют способности выделять главное из информационного шума!
В мире данных этот суперскилл называется методом главных компонент (PCA) — это как рентген для ваших данных, который мгновенно показывает всю суть, отбрасывая неважные детали.
Например, мы проанализировали 453 акции компаний из списка S&P 500 и выяснили, что всего одна главная компонента объясняет 38% всей динамики рынка. Как такое возможно?
Вы будете работать с реальными данными, научитесь выявлять скрытые закономерности и применять эти инсайты в своих проектах.
Стоимость: 3990 ₽
Не беспокойтесь, если теоретическая база пока хромает — вы можете заранее посмотреть запись нашего вебинара по основам по ссылке ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Стандартный автоэнкодер (AE) и вариационный автоэнкодер (VAE) оба используют нейросети для
— Детерминированный:
— Цель —
— Применения:
— Ограничения:
— Стохастический:
— Цель —
— Плюсы:
— Применения:
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🧮 Как избежать ловушки округления в Power BI
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
👊 Разбираемся, как типы данных влияют на точность и почему Currency может стать твоим врагом.
➡️ Подробнее в статье: https://proglib.io/sh/TcGmatdgNV
Библиотека дата-сайентиста
Твой отчет показывает разные цифры при одинаковой логике? Не спеши винить систему – это классический кейс с округлением в Power BI.
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Подходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так, чтобы
Идея в том, чтобы избежать
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Приручи алгоритмы: из формул в код за один воркшоп
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Готовы превратить сложную теорию машинного обучения в практические навыки? Тогда приходите на наш воркшоп, который пройдет 21 апреля.
Что вас ждет на воркшопе:
🟢 Работа с реальными данными — никаких учебных датасетов, только то, что встречается в настоящих проектах.
🟢Снижение размерности с PCA — научитесь выделять главное из информационного шума.
🟢Случайный лес vs градиентный бустинг — разберемся, в чём ключевое различие и когда какой алгоритм эффективнее.
🟢Мастерство гиперпараметров — освоите тонкую настройку моделей для максимальной точности.
На нашем воркшопе вы не просто слушаете — вы делаете сами! Вы будете писать код на Python, применять популярные библиотеки и сразу видеть результат своей работы.
А самое ценное: каждый участник получит персональный code review от Марии Горденко — инженера-программиста, старшего преподавателя НИУ ВШЭ, руководителя магистратуры от ГК Самолет и Альфа-Банка.
⏰ Когда: 21 апреля
💸Стоимость: всего 3990₽
Только сегодня, до конца дня: 10 мест по промокоду kulich → 2 990 ₽.
➡️ Записаться на воркшоп: https://proglib.io/w/d295220d
Если метрики перестают расти, возможны несколько причин:
В таких случаях лучше поработать над
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓Как выбрать между filter, wrapper и embedded методами отбора признаков
⏩ Filter-методы — быстрые и простые . Подходят для предварительного отбора признаков, особенно когда нужно быстро уменьшить размерность до дальнейшего анализа .
⏩ Wrapper-методы — более точные , но затратные по вычислениям . Используются, когда важна максимальная производительность модели, и есть ресурсы на перебор комбинаций признаков .
⏩ Embedded-методы — работают вместе с обучением модели . Удобны, если модель поддерживает регуляризацию (например, Lasso, Decision Trees), так как отбор признаков происходит прямо во время обучения .
На практике часто применяюткомбинацию : сначала отфильтровывают явно нерелевантные признаки (filter) , потом wrapper или embedded на отобранных признаках .
Библиотека собеса по Data Science
На практике часто применяют
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:
В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.
👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Сильные колебания валидационной метрики могут ввести алгоритм
Вот несколько подходов:
Важно не
В реальных условиях нужно
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Завтра запускаем ML-ракету: последние места на борту
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Please open Telegram to view this post
VIEW IN TELEGRAM
При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM