🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования
В тех случаях, когда вдатасете присутствуют разные подгруппы с различными распределениями.
🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).
В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.
✅ Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.
✅ Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.
✅ Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.
Библиотека собеса по Data Science
В тех случаях, когда в
🔍 Пример:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 Смешные новости про IT теперь в одном канале
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
⚙️ Работает ли Adam при экстремально разреженных градиентах
Когда градиентыобновляются редко — например, в задачах обработки языка (NLP) или рекомендательных системах — может показаться, что базовый SGD будет более эффективным. Однако у Adam всё ещё есть свои преимущества.
💡 Почему Adam может быть полезен:
⭕️ Он масштабирует шаги обучения по каждому параметру отдельно, используя скользящие средние градиентов (1-го и 2-го порядка).
⭕️ Даже если градиенты редкие, Adam может обеспечить значимые апдейты по тем параметрам, которые активируются нечасто, например, для редких токенов в эмбеддингах.
⚠️ Но есть и подводные камни:
⭕️ Если параметр обновляется крайне редко, его скользящие средние могут оставаться почти нулевыми слишком долго → шаг становится почти нулевым.
⭕️ В таких условиях нужно особенно тщательно настраивать «beta1», «beta2» и «learning rate» — слишком «инерционные» настройки могут замораживать обновления навсегда.
⭕️ Примеры таких кейсов — миллионные эмбеддинг-таблицы в рекомендательных системах, где важна тонкая настройка скорости обучения для редких признаков.
Библиотека собеса по Data Science
Когда градиенты
💡 Почему Adam может быть полезен:
⚠️ Но есть и подводные камни:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Обе методики помогают работать с
🔍 Активное обучение:
— Фокусируется на
—
— Цель —
🔍 Полунаблюдаемое обучение:
— Использует
— Накладывает ограничения на
— Позволяет модели
✅ Комбинация подходов:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓ Можно ли доверять feature importance из моделей машинного обучения
Только с оговорками. Feature importance помогает понять, какие признаки влияют на предсказание, но интерпретация зависит от типа модели и метода оценки важности.
✅ Что нужно учитывать
1.Важность ≠ причинность
Высокое значение признака в модели не означает, что он вызывает результат — он просто помогает предсказывать его.
2.Коррелирующие признаки могут путать
Если несколько признаков связаны между собой, модель может «размазать» важность между ними или отдать её только одному, что исказит интерпретацию.
3.Разные методы — разные результаты
—В деревьях часто используется Gini importance или gain, но они чувствительны к масштабам.
—В моделях типа XGBoost можно использовать SHAP для более надёжной оценки вклада признаков.
—Линейные модели дают понятные веса, но только при отсутствии мультиколлинеарности.
✅ Как подходить к анализу признаков
—Используйте несколько методов (например, permutation importance + SHAP).
—Учитывайте контекст задачи и доменную экспертизу.
—Не делайте выводов о «причинности» только по важности признаков — используйте дополнительные анализы.
Библиотека собеса по Data Science
1.
2.
3.
—
—
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Почему
Логистическая функция быстро насыщается — и в этих зонах градиенты MSE становятся очень малыми, что замедляет обучение или может ввести оптимизатор в заблуждение.
Из-за особенностей формы функции ошибки при MSE, градиенты могут быть почти нулевыми в широких зонах, а значит — модель может застрять в субоптимальных решениях.
Она прямо оптимизирует логарифмическое правдоподобие и ведёт к более «чистому» и выпуклому ландшафту потерь, что помогает градиентному спуску быстрее находить оптимум.
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Всё зависит от
— Уже есть
— Сегменты
— Вы хотите
📌 Пример:
— Вы не знаете
— Хотите найти
— Исследуете
📌 Пример:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Это три типа механизмов
🔍 MCAR
📌 Пример:
✅ Что делать:
🔍 MAR
📌 Пример:
✅ Что делать:
🔍 MNAR
То есть в данных есть систематическая причина, скрытая внутри пропуска.
📌 Пример:
✅ Что делать:
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Пропущенные значения (NaN, пустые ячейки)
—
—
—
—
📌 Вывод
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🥵 Устали от статей, где эйчары рассказывают, как на самом деле выглядит рынок труда в ИТ?
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Высокий variance в другом сегменте: в областях с редкими или шумными данными модель может давать сильно изменяющиеся прогнозы, что говорит об переобучении и чувствительности к шуму.
🛠
—
—
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда данные со временем «плывут» (то есть меняется их распределение),
🔍
1.
— Чтобы он отражал текущее состояние данных, а не прошлое.
2.
— Особенно в потоковых системах: метрики качества считаются по «живым» данным, а не по статичному отрезку.
3.
— Если обнаружили drift, стоит не просто дообучить модель, а пересобрать или адаптировать её с учётом новых данных.
⚠️ Подводный камень:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модельможет вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠 Какс этим справиться
1. Усиливаемвклад миноритарного класса в функцию потерь
—Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяемрегуляризацию на неразмеченных данных
—Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активныйотбор редких примеров среди неразмеченного пула
—Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируемпредсказания модели на неразмеченных данных
—Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
Библиотека собеса по Data Science
Когда классы сильно несбалансированы, модель
🛠 Как
1. Усиливаем
—
2. Применяем
—
3. Активный
—
4. Анализируем
—
Библиотека собеса по Data Science
❓ Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью
Методы, основанные на ближайших соседях (например, k-NN), предполагают, чтокаждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.
📝 Варианты решений
1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.
2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.
3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».
📝 Подводные камни:
📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.
📝 Вывод
Если часть меток отсутствует,не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.
Библиотека собеса по Data Science
Методы, основанные на ближайших соседях (например, k-NN), предполагают, что
1. Игнорировать объекты без меток
2. Использовать полубезнадзорные методы (semi-supervised)
3. Изучение структуры данных через неразмеченные точки
Если часть меток отсутствует,
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓ Зачем использовать stratifed sampling при разбиении на обучающую и тестовую выборки
Stratified sampling (стратифицированная выборка) используется длятого, чтобы сохранить пропорции классов (или других важных характеристик) при разбиении данных на обучающую и тестовую части. Это особенно важно, если классы несбалансированы.
Если разбиватьслучайно, есть риск, что тестовая выборка окажется смещённой — например, в ней будет слишком мало примеров миноритарного класса. Это приведёт к некорректной оценке модели: она может показывать хорошую точность на тесте, но при этом плохо распознавать важные, но редкие случаи.
Stratified sampling помогает избежатьэтого перекоса, делая тестовую оценку более надёжной и репрезентативной. Особенно важно использовать этот подход при кросс-валидации и в задачах с дисбалансом классов.
Библиотека собеса по Data Science
Stratified sampling (стратифицированная выборка) используется для
Если разбивать
Stratified sampling помогает избежать
Библиотека собеса по Data Science
😳 Почему дата-сайентисты застревают на уровне «делаю отчеты и строю модельки»
Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.
При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).
🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»
🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.
🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных
После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.
👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A
Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.
При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).
🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»
🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.
🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных
После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.
👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A
SVM может показывать лучшие результаты, когда
Если удаётся подобрать подходящую ядровую функцию, SVM может
⚠️ На что стоит обратить внимание:
— Глубокие нейросети склонны к
— Нейросетям часто нужны хорошие
— SVM проще
📌 Вывод:
Если данных мало, но признаки
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Вся правда об увольнениях в IT в 2025-м
Пока все молчат о том, что происходит на рынке, мы решили выяснить реальную картину. Без прикрас и корпоративного пиара.
Но для этого нам нужна ваша помощь! Мы собираем данные от разработчиков, тестировщиков, менеджеров и всех, кто работает в ИТ, чтобы создать честное исследование о:
— реальных причинах массовых увольнений
— судьбе тех, кто остался за бортом IT-рынка
— том, сколько времени сейчас нужно на поиск работы
Почему это важно? Потому что сила в правде. Зная реальную ситуацию, вы сможете лучше понимать тренды рынка и планировать карьеру.
⚡️Пройдите опрос и помогите всему сообществу: https://clc.to/yJ5krg
Пока все молчат о том, что происходит на рынке, мы решили выяснить реальную картину. Без прикрас и корпоративного пиара.
Но для этого нам нужна ваша помощь! Мы собираем данные от разработчиков, тестировщиков, менеджеров и всех, кто работает в ИТ, чтобы создать честное исследование о:
— реальных причинах массовых увольнений
— судьбе тех, кто остался за бортом IT-рынка
— том, сколько времени сейчас нужно на поиск работы
Почему это важно? Потому что сила в правде. Зная реальную ситуацию, вы сможете лучше понимать тренды рынка и планировать карьеру.
⚡️Пройдите опрос и помогите всему сообществу: https://clc.to/yJ5krg