Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Дисперсия — ключевой статистический показатель, который помогает оценить изменчивость данных. Для дата-сайентистов она критична при:
В этой статье разберём, как правильно использовать дисперсию в Data Science и как она влияет на работу алгоритмов, например, в модели Random Forest.
👉 Читайте, чтобы понять, как измерять и учитывать дисперсию: https://proglib.io/sh/GDKYJQdAI2
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Сильные колебания валидационной метрики могут ввести алгоритм
Вот несколько подходов:
Важно не
В реальных условиях нужно
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Завтра запускаем ML-ракету: последние места на борту
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
📍 Работа с реальными данными — табличные датасеты и изображения
📍 Снижение размерности через PCA — научитесь отделять важное от второстепенного
📍 Обучение моделей — Random Forest и градиентный бустинг в действии
📍 Разбор метрик и гиперпараметров — как настроить модель на максимальную эффективность
📍 Написание кода на Python — прямо как реальных проектах
📍 Персональный code review от эксперта — бесценный фидбек для вашего роста
📍 Доступ в закрытый чат участников — нетворкинг и обмен опытом
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Уже завтра, 21 апреля, состоится наш воркшоп «Математика машинного обучения на практике», где теория ML превращается в практические навыки.
Что вас ждет:
Кто проводит воркшоп:
Мария Горденко — инженер-программист, старший преподаватель НИУ ВШЭ и Proglib Academy, руководитель магистратуры от ГК Самолет и Альфа-Банка.
Стоимость участия: 3990₽
Когда: завтра, 21 апреля
👉 Забронировать место на воркшопе: https://proglib.io/w/d295220d
Please open Telegram to view this post
VIEW IN TELEGRAM
При использовании слоёв Batch Normalization среднее значение и дисперсия обычно вычисляются
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Grid Search требует заранее задать набор значений для каждого гиперпараметра, поэтому важно
Обычно значения выбираются на основе:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🕵️♂️ Как обнаружить мошеннические транзакции с помощью GMM
В основе — Gaussian Mixture Model: она моделируетраспределение данных как смесь нескольких многомерных нормальных распределений . У каждого — своё среднее значение и ковариационная матрица .
⚙️ Модель обучается с помощью алгоритмаEM (Expectation-Maximization) . После обучения она рассчитывает апостериорные вероятности — насколько транзакция вписывается в каждый из компонентов смеси .
📉 Если транзакция имеет низкуювероятность по всем компонентам , GMM считает её аномальной — потенциально мошеннической .
🎯 Подход особенно полезен в условиях, где труднособрать размеченные данные, но важно ловить аномалии: финтех, страхование, кибербезопасность .
Библиотека собеса по Data Science
В основе — Gaussian Mixture Model: она моделирует
⚙️ Модель обучается с помощью алгоритма
📉 Если транзакция имеет низкую
🎯 Подход особенно полезен в условиях, где трудно
Библиотека собеса по Data Science
❓ Как объяснить коэффициенты логистической регрессии без технических деталей
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
➡️ Если коэффициент положительный — этот фактор повышает шанс, что событие произойдёт.
➡️ Если отрицательный — наоборот, снижает вероятность.
⭐ Чем больше по модулю число — тем сильнее влияние этого фактора.
Чтобы понять, насколько фактор влияет, можно посмотреть наэто показывает, во сколько раз увеличиваются шансы.
▶️ Например:
Есликаждый дополнительный «балл» этого признака повышает шансы на 50%.
Библиотека собеса по Data Science
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
Чтобы понять, насколько фактор влияет, можно посмотреть на
exp(коэффициент)
— ▶️ Например:
Если
exp(коэффициент) = 1.5
, это значит: Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👌 Как правильно инициализировать центроиды в k-means, чтобы не застрять в плохом локальном минимуме
Простая случайная инициализация (выборк плохому результату, особенно если точки окажутся слишком близко друг к другу или не отражают структуру данных .
🔥 Лучшее решение —использовать алгоритм k-means++
Он работает так:
1. Сначала выбираетсяодна случайная точка из данных.
2. Далее каждыйследующий центр выбирается с вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра.
Такой подходравномерно распределяет центры и уменьшает риск плохой сходимости. В большинстве случаев он ещё и ускоряет обучение.
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
Простая случайная инициализация (выбор
k
случайных точек из данных) может привести 🔥 Лучшее решение —
Он работает так:
1. Сначала выбирается
2. Далее каждый
Такой подход
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
Label smoothing — это техника регуляризации, при которой
Это снижает
Главные преимущества:
Техника особенно эффективна, когда есть
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Интерпретация сложных моделей требует специальных подходов, так как в отличие от простой логистической регрессии у них нет очевидных коэффициентов:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».
Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».
📅 Сроки: с 29 апреля по 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Ждем ваших новостей!
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».
Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».
📅 Сроки: с 29 апреля по 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Ждем ваших новостей!
Метод главных компонент (PCA) сам по себе
Однако
🔹
🔹
🔹
🔹
⚠️ Важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Proglib.academy | IT-курсы
🐍✨ Пиши как профи: 10 Python-лайфхаков для новичков
Лайфхаки от разработчиков, обжёгшихся до вас
➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы
И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов
📎 Статья
🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»
Proglib Academy #буст
Лайфхаки от разработчиков, обжёгшихся до вас
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы
И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов
Proglib Academy #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔹
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Proglib.academy | IT-курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
Обычно для классификации используют логистическую или кросс-энтропийную функцию потерь,
🔸
🔸
⚠️ Потенциальные проблемы:
•
•
•
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Логистическая регрессия — это линейная модель, и ее склонность к переобучению значительно
1.
2.
3.
C
4.
🔍 Но важно: логистическая регрессия может
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какие практические соображения важны при выборе функции активации
Память, вычислительная эффективность, числовая устойчивость и простота реализации — всё это важные факторы.
Например,ReLU и её варианты являются простыми покомпонентными операциями, которые хорошо оптимизированы на современном оборудовании (GPU и TPU) .
Функции типасигмоида или tanh могут быть более затратными по вычислениям и подвержены переполнению или исчезающе малым значениям в условиях экстремальных входов.
Когда производительность критична, многие исследователи по умолчанию выбираютReLU — она обеспечивает хороший баланс между точностью, вычислительной эффективностью и стабильностью.
Дополнительные соображения включают в себя:
➡️ требуемый диапазон входов и выходов для последующих слоёв;
➡️ вероятность возникновения исчезающих или взрывающихся градиентов;
➡️ регуляризирующий эффект некоторых функций активации (например, SELU способствует самонормализации при определённых условиях).
Библиотека собеса по Data Science
Например,
Функции типа
Когда производительность критична, многие исследователи по умолчанию выбирают
Дополнительные соображения включают в себя:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM