❓ Как объяснить коэффициенты логистической регрессии без технических деталей
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
➡️ Если коэффициент положительный — этот фактор повышает шанс, что событие произойдёт.
➡️ Если отрицательный — наоборот, снижает вероятность.
⭐ Чем больше по модулю число — тем сильнее влияние этого фактора.
Чтобы понять, насколько фактор влияет, можно посмотреть наэто показывает, во сколько раз увеличиваются шансы.
▶️ Например:
Есликаждый дополнительный «балл» этого признака повышает шансы на 50%.
Библиотека собеса по Data Science
💡 Представим так:
У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.
Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
Чтобы понять, насколько фактор влияет, можно посмотреть на
exp(коэффициент)
— ▶️ Например:
Если
exp(коэффициент) = 1.5
, это значит: Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👌 Как правильно инициализировать центроиды в k-means, чтобы не застрять в плохом локальном минимуме
Простая случайная инициализация (выборк плохому результату, особенно если точки окажутся слишком близко друг к другу или не отражают структуру данных .
🔥 Лучшее решение —использовать алгоритм k-means++
Он работает так:
1. Сначала выбираетсяодна случайная точка из данных.
2. Далее каждыйследующий центр выбирается с вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра.
Такой подходравномерно распределяет центры и уменьшает риск плохой сходимости. В большинстве случаев он ещё и ускоряет обучение.
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
Простая случайная инициализация (выбор
k
случайных точек из данных) может привести 🔥 Лучшее решение —
Он работает так:
1. Сначала выбирается
2. Далее каждый
Такой подход
💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.
Библиотека собеса по Data Science
Label smoothing — это техника регуляризации, при которой
Это снижает
Главные преимущества:
Техника особенно эффективна, когда есть
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Интерпретация сложных моделей требует специальных подходов, так как в отличие от простой логистической регрессии у них нет очевидных коэффициентов:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».
Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».
📅 Сроки: с 29 апреля по 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Ждем ваших новостей!
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».
Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».
📅 Сроки: с 29 апреля по 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Ждем ваших новостей!
Метод главных компонент (PCA) сам по себе
Однако
🔹
🔹
🔹
🔹
⚠️ Важно:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Proglib.academy | IT-курсы
🐍✨ Пиши как профи: 10 Python-лайфхаков для новичков
Лайфхаки от разработчиков, обжёгшихся до вас
➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы
И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов
📎 Статья
🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»
Proglib Academy #буст
Лайфхаки от разработчиков, обжёгшихся до вас
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы
И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов
Proglib Academy #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔹
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Proglib.academy | IT-курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
Обычно для классификации используют логистическую или кросс-энтропийную функцию потерь,
🔸
🔸
⚠️ Потенциальные проблемы:
•
•
•
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Логистическая регрессия — это линейная модель, и ее склонность к переобучению значительно
1.
2.
3.
C
4.
🔍 Но важно: логистическая регрессия может
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какие практические соображения важны при выборе функции активации
Память, вычислительная эффективность, числовая устойчивость и простота реализации — всё это важные факторы.
Например,ReLU и её варианты являются простыми покомпонентными операциями, которые хорошо оптимизированы на современном оборудовании (GPU и TPU) .
Функции типасигмоида или tanh могут быть более затратными по вычислениям и подвержены переполнению или исчезающе малым значениям в условиях экстремальных входов.
Когда производительность критична, многие исследователи по умолчанию выбираютReLU — она обеспечивает хороший баланс между точностью, вычислительной эффективностью и стабильностью.
Дополнительные соображения включают в себя:
➡️ требуемый диапазон входов и выходов для последующих слоёв;
➡️ вероятность возникновения исчезающих или взрывающихся градиентов;
➡️ регуляризирующий эффект некоторых функций активации (например, SELU способствует самонормализации при определённых условиях).
Библиотека собеса по Data Science
Например,
Функции типа
Когда производительность критична, многие исследователи по умолчанию выбирают
Дополнительные соображения включают в себя:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Это значит, что модель может выбрать альтернативный путь по дереву, если
Такие механизмы встроены, например, в:
missing
),Однако, несмотря на
В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Азбука айтишника
🎓 Как выбрать свою роль в Data Science и не потеряться в терминах
Если вы только начинаете разбираться в Data Science — перед вами лабиринт из названий: data scientist, аналитик, ML-инженер, BI, архитектор... Кто чем занимается? Что нужно учить?
➡️ Что внутри статьи
— Кто такие Data Engineer
— Чем отличается Data Architect от инженера и зачем он нужен в big data проектах
— Чем занимаются Data Analyst и почему это отличная точка входа в карьеру
— Что делает настоящий Data Scientist
В статье разобрано всё: от задач до технологий, которые реально спрашивают на собеседованиях.
📎 Ссылка
Азбука айтишника #ликбез
Если вы только начинаете разбираться в Data Science — перед вами лабиринт из названий: data scientist, аналитик, ML-инженер, BI, архитектор... Кто чем занимается? Что нужно учить?
— Кто такие Data Engineer
— Чем отличается Data Architect от инженера и зачем он нужен в big data проектах
— Чем занимаются Data Analyst и почему это отличная точка входа в карьеру
— Что делает настоящий Data Scientist
В статье разобрано всё: от задач до технологий, которые реально спрашивают на собеседованиях.
📎 Ссылка
Азбука айтишника #ликбез
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Конкурс: 30 000 ₽ за самую смешную IT-новость
Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.
📅 Сроки: прием новостей до 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Осталась неделя — ждем ваших новостей!
Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.
👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.
🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе
🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.
📅 Сроки: прием новостей до 11 мая включительно
Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8
Осталась неделя — ждем ваших новостей!
Google Docs
Конкурс на самую смешную IT-новость
Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!
Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переворачиваете её с ног на голову, чтобы смеялись…
Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переворачиваете её с ног на голову, чтобы смеялись…
🤔 Как принять решение: удалять выбросы или оставлять их
Всё зависит отприроды выбросов — являются ли они реальными редкими случаями или ошибками в данных.
🔹 Если выброс отражаетдействительно существующее, но редкое наблюдение (например, необычно высокая цена на товар, которая действительно была на рынке), то удаление такого значения может привести к модели, игнорирующей важные, хоть и редкие, сценарии.
🔹 Если же выброс возникиз-за ошибки ввода, дублирования или другого рода артефакта — его можно удалить без особого риска.
✅ Как принять обоснованное решение
Постройте три версии модели:
1.С выбросами.
2.Без выбросов.
3. С обработанными выбросами (например, винзоризацией или логарифмической трансформацией).
Сравните их по кросс-валидации: точности, стабильности, интерпретируемости.
Выберите подход, который даёт наилучший баланс между производительностью и объяснимостью.
📌 Контекст имеет значение
В медицине, например, выброс может указывать на критическое состояние пациента — и его ни в коем случае нельзя игнорировать. А в пользовательских логах выброс может быть признаком бот-активности.
Библиотека собеса по Data Science
Всё зависит от
🔹 Если выброс отражает
🔹 Если же выброс возник
✅ Как принять обоснованное решение
1.
2.
3.
📌 Контекст имеет значение
Библиотека собеса по Data Science
1.
2.
Хотя обучение на каждом фолде требует разных данных, можно:
Это не полностью корректно, но снижает затраты.
3.
4.
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Дрейф концепции возникает, когда с
В процессе обучения дрейф компенсируется
Также применяются
Дополнительно отслеживается д
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓Как обнаружить и смягчить эффект популярности (popularity bias) в рекомендательной системе
Алгоритмы рекомендаций часто усиливают популярность уже популярных видео — их всё чаще показывают, в то время как новые или нишевые остаются незамеченными. Это создает эффект «богатые становятся богаче».
🔍 Как обнаружить
Посмотрите налоги рекомендаций — если небольшая доля контента получает основную массу показов, это тревожный сигнал. Обычно это «голова» распределения (head), тогда как «хвост» (long tail) игнорируется.
🛠 Методы смягчения
•Нормализация метрик (например, watch-time) с учетом числа показов — чтобы не усиливать положительную обратную связь.
•Поддержка длинного хвоста: в механизме отбора кандидатов добавить специальную логику, продвигающую менее популярные видео.
•Умное переупорядочивание (re-ranking): резервировать часть позиций в выдаче для менее популярных видео.
⚠️ Важно
• Слишком сильное наказание популярных видео может снизить удовлетворенность пользователя.
• Нельзя наказывать все тематики одинаково: специализированный контент может иметь честно низкие метрики, не из-за предвзятости, а из-за ниши.
Библиотека собеса по Data Science
Алгоритмы рекомендаций часто усиливают популярность уже популярных видео — их всё чаще показывают, в то время как новые или нишевые остаются незамеченными. Это создает эффект «богатые становятся богаче».
🔍 Как обнаружить
Посмотрите на
🛠 Методы смягчения
•
•
•
⚠️ Важно
• Слишком сильное наказание популярных видео может снизить удовлетворенность пользователя.
• Нельзя наказывать все тематики одинаково: специализированный контент может иметь честно низкие метрики, не из-за предвзятости, а из-за ниши.
Библиотека собеса по Data Science
Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».
🛠 Что можно сделать
🔄 Альтернатива
Вместо k-Means для категориальных или смешанных данных лучше использовать:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM