Adam хранит
SGD:
На практике:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🧩 Почему важно устранять первопричину искажения десятичных данных, а не ограничиваться их очисткой
В задачах машинного обучения и аналитики недостаточно просто очищать обучающие или производственные данные от некорректных значений. Особенно это касается десятичных чисел, поскольку их искажение может происходить незаметно, но приводить к существенному снижению качества моделей и принятию ошибочных бизнес-решений.
📉 Типовой сценарий:
Обнаруживается, что значения теряют дробную часть — например, «12,5» становится «125». После этого данные очищаются, модель переобучается, однако через некоторое время проблема возникает снова.
🎯 Рекомендованный подход — поиск и устранение первоисточника:
—Проверить, каким образом данные изначально собираются (веб-формы, скрипты импорта и пр.).
—Проанализировать промежуточные этапы обработки: возможно, ошибка возникает при парсинге CSV-файлов, при приведении типов или из-за некорректного округления.
—Ознакомиться с системными журналами и логами: не исключено, что ошибка началась после обновления компонентов, изменения конфигурации или внедрения новых версий ПО.
🛠 После выявления причины необходимо внести корректировки на уровне источника данных:
—Обеспечить сохранение числовой точности.
—Внедрить строгие проверки форматов и типов.
—Настроить автоматические уведомления о появлении подозрительных или выходящих за допустимые границы значений.
⚠️ Важно учитывать,что подобные ошибки могут проявляться непостоянно, а лишь в отдельных случаях. Именно поэтому требуется постоянный мониторинг распределения значений и логов.
Библиотека собеса по Data Science
В задачах машинного обучения и аналитики недостаточно просто очищать обучающие или производственные данные от некорректных значений. Особенно это касается десятичных чисел, поскольку их искажение может происходить незаметно, но приводить к существенному снижению качества моделей и принятию ошибочных бизнес-решений.
📉 Типовой сценарий:
🎯 Рекомендованный подход — поиск и устранение первоисточника:
—
—
—
🛠 После выявления причины необходимо внести корректировки на уровне источника данных:
—
—
—
⚠️ Важно учитывать,
Библиотека собеса по Data Science
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩 Типовые причины падения качества:
1.
— Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.
— Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3.
— В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4.
— Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠 Как защититься
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🗨 Когда стоит рассматривать разбиение датасета вместо применения глобального преобразования
В тех случаях, когда вдатасете присутствуют разные подгруппы с различными распределениями.
🔍 Пример:
Если есть данные о доходах из разных регионов. Один регион — с высоким уровнем доходов, другой — с низким. В совокупности распределение выглядит сильно смещённым или даже мультимодальным (несколько пиков).
В такой ситуации попытка применить глобальное преобразование (например, логарифм или Box-Cox) ко всему датасету сразу не устраняет проблему. Это всё ещё не одно распределение, а смесь разных.
✅ Что делать:
📍 Разбить данные на логически обоснованные подгруппы (по региону, демографии, сегменту бизнеса и т.д.).
📍 Применить отдельные преобразования или даже обучить отдельные модели для каждой подгруппы.
📍 При необходимости объединить результаты анализа или прогнозы обратно.
✅ Что важно учитывать:
📍 Разделение должно быть обосновано теоретически или доменной экспертизой. Разделение «наугад» может привести к переобучению или утечке информации.
📍 Объём данных в каждой подгруппе должен быть достаточным для построения статистически надёжных моделей или трансформаций.
✅ Вывод:
Если данные представляют собой смешение разных источников или популяций, лучше работать с ними отдельно. Глобальные методы нормализации или преобразования могут маскировать настоящую структуру данных, а значит — вести к ошибочным выводам или неэффективным моделям.
Библиотека собеса по Data Science
В тех случаях, когда в
🔍 Пример:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 Смешные новости про IT теперь в одном канале
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
Мы запустили @hahacker_news — наш новый юмористический IT-канал.
Туда будем постить лучшие шутки до 19го мая, которые вы присылали на конкурс.
👉 @hahacker_news — голосование уже идёт, переходите, читайте, угарайте и оставляйте реакции
⚙️ Работает ли Adam при экстремально разреженных градиентах
Когда градиентыобновляются редко — например, в задачах обработки языка (NLP) или рекомендательных системах — может показаться, что базовый SGD будет более эффективным. Однако у Adam всё ещё есть свои преимущества.
💡 Почему Adam может быть полезен:
⭕️ Он масштабирует шаги обучения по каждому параметру отдельно, используя скользящие средние градиентов (1-го и 2-го порядка).
⭕️ Даже если градиенты редкие, Adam может обеспечить значимые апдейты по тем параметрам, которые активируются нечасто, например, для редких токенов в эмбеддингах.
⚠️ Но есть и подводные камни:
⭕️ Если параметр обновляется крайне редко, его скользящие средние могут оставаться почти нулевыми слишком долго → шаг становится почти нулевым.
⭕️ В таких условиях нужно особенно тщательно настраивать «beta1», «beta2» и «learning rate» — слишком «инерционные» настройки могут замораживать обновления навсегда.
⭕️ Примеры таких кейсов — миллионные эмбеддинг-таблицы в рекомендательных системах, где важна тонкая настройка скорости обучения для редких признаков.
Библиотека собеса по Data Science
Когда градиенты
💡 Почему Adam может быть полезен:
⚠️ Но есть и подводные камни:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Обе методики помогают работать с
🔍 Активное обучение:
— Фокусируется на
—
— Цель —
🔍 Полунаблюдаемое обучение:
— Использует
— Накладывает ограничения на
— Позволяет модели
✅ Комбинация подходов:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓ Можно ли доверять feature importance из моделей машинного обучения
Только с оговорками. Feature importance помогает понять, какие признаки влияют на предсказание, но интерпретация зависит от типа модели и метода оценки важности.
✅ Что нужно учитывать
1.Важность ≠ причинность
Высокое значение признака в модели не означает, что он вызывает результат — он просто помогает предсказывать его.
2.Коррелирующие признаки могут путать
Если несколько признаков связаны между собой, модель может «размазать» важность между ними или отдать её только одному, что исказит интерпретацию.
3.Разные методы — разные результаты
—В деревьях часто используется Gini importance или gain, но они чувствительны к масштабам.
—В моделях типа XGBoost можно использовать SHAP для более надёжной оценки вклада признаков.
—Линейные модели дают понятные веса, но только при отсутствии мультиколлинеарности.
✅ Как подходить к анализу признаков
—Используйте несколько методов (например, permutation importance + SHAP).
—Учитывайте контекст задачи и доменную экспертизу.
—Не делайте выводов о «причинности» только по важности признаков — используйте дополнительные анализы.
Библиотека собеса по Data Science
1.
2.
3.
—
—
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Почему
Логистическая функция быстро насыщается — и в этих зонах градиенты MSE становятся очень малыми, что замедляет обучение или может ввести оптимизатор в заблуждение.
Из-за особенностей формы функции ошибки при MSE, градиенты могут быть почти нулевыми в широких зонах, а значит — модель может застрять в субоптимальных решениях.
Она прямо оптимизирует логарифмическое правдоподобие и ведёт к более «чистому» и выпуклому ландшафту потерь, что помогает градиентному спуску быстрее находить оптимум.
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Всё зависит от
— Уже есть
— Сегменты
— Вы хотите
📌 Пример:
— Вы не знаете
— Хотите найти
— Исследуете
📌 Пример:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Это три типа механизмов
🔍 MCAR
📌 Пример:
✅ Что делать:
🔍 MAR
📌 Пример:
✅ Что делать:
🔍 MNAR
То есть в данных есть систематическая причина, скрытая внутри пропуска.
📌 Пример:
✅ Что делать:
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Пропущенные значения (NaN, пустые ячейки)
—
—
—
—
📌 Вывод
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🥵 Устали от статей, где эйчары рассказывают, как на самом деле выглядит рынок труда в ИТ?
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Высокий variance в другом сегменте: в областях с редкими или шумными данными модель может давать сильно изменяющиеся прогнозы, что говорит об переобучении и чувствительности к шуму.
🛠
—
—
—
—
—
—
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда данные со временем «плывут» (то есть меняется их распределение),
🔍
1.
— Чтобы он отражал текущее состояние данных, а не прошлое.
2.
— Особенно в потоковых системах: метрики качества считаются по «живым» данным, а не по статичному отрезку.
3.
— Если обнаружили drift, стоит не просто дообучить модель, а пересобрать или адаптировать её с учётом новых данных.
⚠️ Подводный камень:
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модельможет вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠 Какс этим справиться
1. Усиливаемвклад миноритарного класса в функцию потерь
—Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяемрегуляризацию на неразмеченных данных
—Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активныйотбор редких примеров среди неразмеченного пула
—Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируемпредсказания модели на неразмеченных данных
—Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
Библиотека собеса по Data Science
Когда классы сильно несбалансированы, модель
🛠 Как
1. Усиливаем
—
2. Применяем
—
3. Активный
—
4. Анализируем
—
Библиотека собеса по Data Science
❓ Что делать, если в обучающем наборе для методов на основе соседей часть меток отсутствует или указана неполностью
Методы, основанные на ближайших соседях (например, k-NN), предполагают, чтокаждая обучающая точка имеет метку. Отсутствие меток усложняет обучение и прогнозирование, особенно если таких точек много.
📝 Варианты решений
1. Игнорировать объекты без меток
Можно обучаться только на размеченных примерах, но при этом теряется часть данных, что особенно критично при малом объёме обучающей выборки.
2. Использовать полубезнадзорные методы (semi-supervised)
Например, распространение меток (label propagation): метки итеративно «перетекают» от размеченных точек к близким неразмеченным, если они достаточно похожи.
3. Изучение структуры данных через неразмеченные точки
Даже если метки отсутствуют, сами объекты помогают определить геометрию признакового пространства и уточнить, кто кому «сосед».
📝 Подводные камни:
📝 Полубезнадзорные методы требуют решать, когда доверять сгенерированным меткам — легко получить ложные закономерности.
📝 Если метки отсутствуют не случайно (например, только у сложных или редких объектов), это может внести систематическую ошибку.
📝 Оценка качества модели затрудняется — стандартные метрики предполагают, что мы знаем истинные метки хотя бы на тесте.
📝 Вывод
Если часть меток отсутствует,не всегда стоит их игнорировать. Лучше использовать структуру данных через полубезнадзорные методы и явно учитывать, насколько случайна или предвзята сама пропуск меток.
Библиотека собеса по Data Science
Методы, основанные на ближайших соседях (например, k-NN), предполагают, что
1. Игнорировать объекты без меток
2. Использовать полубезнадзорные методы (semi-supervised)
3. Изучение структуры данных через неразмеченные точки
Если часть меток отсутствует,
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❓ Зачем использовать stratifed sampling при разбиении на обучающую и тестовую выборки
Stratified sampling (стратифицированная выборка) используется длятого, чтобы сохранить пропорции классов (или других важных характеристик) при разбиении данных на обучающую и тестовую части. Это особенно важно, если классы несбалансированы.
Если разбиватьслучайно, есть риск, что тестовая выборка окажется смещённой — например, в ней будет слишком мало примеров миноритарного класса. Это приведёт к некорректной оценке модели: она может показывать хорошую точность на тесте, но при этом плохо распознавать важные, но редкие случаи.
Stratified sampling помогает избежатьэтого перекоса, делая тестовую оценку более надёжной и репрезентативной. Особенно важно использовать этот подход при кросс-валидации и в задачах с дисбалансом классов.
Библиотека собеса по Data Science
Stratified sampling (стратифицированная выборка) используется для
Если разбивать
Stratified sampling помогает избежать
Библиотека собеса по Data Science
😳 Почему дата-сайентисты застревают на уровне «делаю отчеты и строю модельки»
Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.
При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).
🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»
🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.
🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных
После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.
👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A
Проблема большинства спецов: вы отлично знаете pandas, sklearn и даже можете настроить нейронку. Но когда дело доходит до создания автономных систем, которые принимают решения без человека — тупик.
При этом большинство курсов по ИИ либо для программистов (и там про API больше, чем про данные), либо академические (теория без практики).
🔥Поэтому мы запускаем курс «AI-агенты для DS-специалистов»
🧐 Что будет на курсе:
— Рассмотрим реализацию памяти в цепочках langchain и создадим пару простых агентов.
— Соберем полный пайплайн RAG-системы с оценкой качества.
— Изучим основные понятия мультиагентных систем (MAS) и библиотеки для их построения.
— Рассмотрим протокол MCP и фреймворк FastMCP, создадим end-to-end приложение.
🎁 В честь запуска курса мы дарим промокод PROGLIBAI на 10 000 ₽ на два других обучения:
— Математика для Data Science
— Алгоритмы и структуры данных
После этих курсов вы перестанете быть «тем, кто делает отчеты» и станете архитектором умных систем. А это совсем другой уровень зарплаты и востребованности.
👉 Успейте использовать промокод и забрать новый курс по приятной цене до 1 июня: https://clc.to/Cttu7A