📊 Собес по Data Science: 10 вопросов, которые разделяют джунов от мидлов
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
👌 Пройти тест
Библиотека собеса по Data #свежак
Готовишься к интервью? Мы собрали 10 каверзных вопросов, которые любят задавать тимлиды. Здесь нет банальных задач — только те, на которых спотыкаются 80% кандидатов. Проверь себя и узнай, готов ли ты к следующему собесу!
👌 Пройти тест
Библиотека собеса по Data #свежак
Подходит ли алгоритм K-Nearest Neighbors (KNN) для работы с большими данными
Проблемы KNN на больших данных:
🔹 Высокая вычислительная сложность: поиск ближайших соседей требует сравнения нового объекта со всеми точками обучающего набора, что занимает O(N m) операций (N — количество образцов, m — число признаков).
🔹 Большое потребление памяти: модель хранит весь обучающий набор, что создает проблемы со storage и обработкой.
Оптимизации для ускорения KNN:
🔹 Приближенный поиск (ANN) — использование KD-деревьев, Ball Tree или других структур данных для ускорения поиска.
🔹 Снижение размерности — применение PCA или автоэнкодеров для уменьшения числа признаков.
🔹 Гибридные методы — предварительная кластеризация перед применением KNN или сочетание с деревьями решений.
Альтернатива:
🔹В продакшене чаще выбирают Random Forest, XGBoost или нейросети, которые после обучения работают быстрее.
Библиотека собеса по Data Science
Проблемы KNN на больших данных:
🔹
Оптимизации для ускорения KNN:
Альтернатива:
🔹
Библиотека собеса по Data Science
Как DBSCAN справляется с разной плотностью кластеров
🔹 Проблема:
DBSCAN предполагает, что плотность кластеров относительно равномерна. Если кластеры имеют различную плотность, единое значение eps (радиус окрестности) может не подойти ко всем группам.
🔹 Решение:
1. Hierarchical DBSCAN — расширяет DBSCAN, позволяя находить кластеры с разной плотностью.
2. OPTICS — сортирует точки по плотности, выявляя структуру кластеров с разными масштабами.
🔹 Вывод:
Для данных с сильно различающейся плотностью DBSCAN можно заменить или дополнить OPTICS/Hierarchical DBSCAN.
Библиотека собеса по Data Science
🔹 Проблема:
🔹 Решение:
🔹 Вывод:
Библиотека собеса по Data Science
Зимний режим OFF. Весна начинается с апгрейда.
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Если чувствуешь, что за зиму навыки подзастыли — пора их разморозить.
📦 Включили весеннюю распродажу: скидка –35% на курсы до конца марта.
Выбирай направление и выходи из спячки:
— Алгоритмы и структуры данных — чтобы собеседования в Яндекс, Ozon и другие были как уровень easy
— Математика для Data Science — для тех, кто не хочет просто «жать на кнопки», а понимать, что под капотом
— Архитектуры и шаблоны — если хочется мыслить как senior и прокачать системное мышление
— Python, Frontend, основы IT — для тех, кто стартует путь в разработке
👾 Proglib Academy — это как старая добрая 8-битная игра, но вместо врагов — практические задачи и собеседования.
Мы просто упаковали сложное обучение в пиксельную обёртку, чтобы тебе было чуть веселее прокачиваться.
🧠 Отогревай мозги, прокачивай скиллы и хватай свой power-up до конца марта.
👉 Выбрать курс
Всегда ли проклятие размерности влияет на высокоразмерные данные
🔹 Проклятие размерности обычно проявляется в данных, которые не являются разреженными или не имеют структуры в виде низкоразмерного многообразия.
🔹 Если данные лежат на низкоразмерном многообразии или содержат взаимосвязанные признаки, методы вроде отбора признаков или обучения многообразий могут уменьшить его влияние.
🔹 Однако, если все измерения значимы и некоррелированы, задачи анализа данных, такие как кластеризация, становятся значительно сложнее.
Библиотека собеса по Data Science
Библиотека собеса по Data Science
Как учесть дисбаланс классов в функции потерь
В задачах классификации с сильным дисбалансом стандартные функции потерь, такие как кросс-энтропия, могут приводить к тому, что модель преимущественно предсказывает большинство классов. Чтобы исправить это, применяют:
🔹 Взвешивание функции потерь — ошибки на редких классах штрафуются сильнее, например, с помощью весовой кросс-энтропии.
🔹 Focal Loss — модификация кросс-энтропии, которая уменьшает вклад легко классифицируемых примеров и фокусируется на сложных.
🔹 Манипуляции с данными — увеличение числа примеров редкого класса (oversampling) или уменьшение числа примеров частого класса (undersampling) для выравнивания распределения.
Библиотека собеса по Data Science
В задачах классификации с сильным дисбалансом стандартные функции потерь, такие как кросс-энтропия, могут приводить к тому, что модель преимущественно предсказывает большинство классов. Чтобы исправить это, применяют:
Библиотека собеса по Data Science
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🎯 Устали от вопросов типа «Ну и что это значит для бизнеса?» после презентации отчетов?
Bullet-chart — мощный инструмент, который сразу показывает, насколько фактические показатели соответствуют целевым. В этой статье разберем, как правильно читать такой график и шаг за шагом создадим его в Power BI.
Готовы визуализировать данные так, чтобы они говорили сами за себя?
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Как label smoothing изменяет ландшафт функции кросс-энтропии и почему это улучшает обобщающую способность модели
Label smoothing заменяетстрогое one-hot представление меток, уменьшая вероятность правильного класса с 1.0 до (1 — epsilon) (например, 0.9) и равномерно распределяя (epsilon) между остальными классами . Это снижает излишнюю уверенность модели в предсказаниях , что улучшает ее способность к обобщению и уменьшает переобучение .
Основные эффекты label smoothing:
🔹 Смягчение штрафа за ошибки — градиенты становятся более стабильными, что предотвращает резкие скачки обучения.
🔹 Снижение переуверенности модели — уменьшает вероятность резких предсказаний (например, 0.99 vs. 0.01).
🔹 Улучшение обобщающей способности — модель не запоминает данные, а учится выявлять более общие закономерности.
Label smoothing активно используется в передовых моделях для обработки изображений и текста (например, в Transformers) и является простой, но эффективной техникой регуляризации.
Библиотека собеса по Data Science
Label smoothing заменяет
Основные эффекты label smoothing:
Label smoothing активно используется в передовых моделях для обработки изображений и текста (например, в Transformers) и является простой, но эффективной техникой регуляризации.
Библиотека собеса по Data Science
Какие ограничения можно добавить в функцию стоимости на практике
В реальных задачах можно учитывать различные ограничения:
▪️ Физические ограничения — например, в моделях физических процессов можно добавить штраф за нарушение законов сохранения энергии или массы.
▪️ Ресурсные ограничения — в рекомендательных системах можно ограничивать бюджет рекомендаций или обеспечивать справедливость, штрафуя за отклонения от заданных метрик.
▪️ Чувствительность к риску — в финансовых моделях можно добавить штраф за высокие риски, например, используя Value at Risk (VaR) или Conditional Value at Risk (CVaR).
Библиотека собеса по Data Science
В реальных задачах можно учитывать различные ограничения:
▪️ Ресурсные ограничения — в рекомендательных системах можно ограничивать бюджет рекомендаций или обеспечивать справедливость, штрафуя за отклонения от заданных метрик.
▪️ Чувствительность к риску — в финансовых моделях можно добавить штраф за высокие риски, например, используя Value at Risk (VaR) или Conditional Value at Risk (CVaR).
Библиотека собеса по Data Science
Как выбрать подходящие коэффициенты веса для многозадачных функций потерь
В большинстве случаев коэффициенты веса для многозадачных функций потерь подбираются с помощью эмпирической настройки гиперпараметров. Однако существуют и автоматизированные подходы, такие как:
🔹 GradNorm, который автоматически обучает веса, балансируя величины градиентов для каждой задачи.
🔹 Веса на основе неопределенности, где вес каждой задачи обратно пропорционален оценке ее шума или неопределенности.
Модели могут итеративно настраивать эти веса в процессе обучения. Лучший подход часто зависит от конкретных задач, объема данных и вычислительных ограничений.
Библиотека собеса по Data Science
Библиотека собеса по Data Science
Как обеспечить устойчивость модели при появлении новых неизвестных признаков
▪️ Мониторинг данных —отслеживайте распределение признаков в продакшене, чтобы выявлять новые категории или признаки. Автоматические проверки помогут зафиксировать изменения.
▪️ Регулярное переобучение —настройте процесс периодического обновления модели, если новые признаки становятся значимой частью данных.
▪️ Эмбеддинги и хеширование —используйте методы, которые позволяют корректно обрабатывать ранее неизвестные категории.
▪️ Резервные представления —для неизвестных признаков можно использовать «unknown embedding» или специальный индекс, пока модель не будет обновлена.
Библиотека задач по Data Science
▪️ Мониторинг данных —
▪️ Регулярное переобучение —
▪️ Эмбеддинги и хеширование —
▪️ Резервные представления —
Библиотека задач по Data Science
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
⭐️ Пора сделать отчеты действительно интерактивными!
🔗 Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv
Библиотека дата-сайентиста
Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!
Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.
⭐️ Пора сделать отчеты действительно интерактивными!
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Как снижение размерности влияет на One-vs-Rest и One-vs-One
🔹 One-vs-Rest (OVR):
— Чувствителен к выбору признаков, так как каждый классификатор выделяет один класс против всех остальных.
— Если убрать важные признаки, отличающие класс, модель может ухудшить предсказания.
— Глобальное снижение размерности (например, PCA) может потерять информацию, важную для отдельных классов.
🔹 One-vs-One (OVO):
— Каждый классификатор фокусируется только на двух классах, поэтому локальный отбор признаков может дать лучшее разделение.
— Разные классификаторы могут использовать разные наборы признаков, что требует сложного управления.
— При большом числе классов возможно переобучение из-за небольших выборок для каждой пары.
⚡ Итог:
При OVR полезно использовать глобальное снижение размерности, но с осторожностью. При OVO можно применять локальный отбор признаков, но важно избегать переобучения.
Библиотека собеса по Data Science
🔹 One-vs-Rest (OVR):
🔹 One-vs-One (OVO):
⚡ Итог:
Библиотека собеса по Data Science
Какие компромиссы при выборе более сложной модели для маленького, но чистого датасета, versus более простой модели для большого, но шумного датасета
▪️ Сложная модель на маленьком, но качественном датасете:
— Может лучше обобщать, если шум минимален, потому что на таком датасете модель фокусируется на сильных, стабильных паттернах.
— Однако, сложные модели могут переобучаться при недостаточном объеме данных, особенно если выборка не отражает всю разнообразие распределения данных.
▪️ Простая модель на большом, шумном датасете:
— Простая модель может быть более устойчивой к выбросам и случайному шуму, если данных достаточно, чтобы сгладить несоответствия.
— Если шум не слишком велик, то большой датасет может позволить модели выявить общие тенденции, несмотря на неточности.
▪️ Подводные камни и крайние случаи:
— Несоответствие между емкостью модели и размером данных: сложная модель может запомнить маленькие подмножества данных, не научившись обобщать.
— Чрезмерное упрощение при сильном шуме: если датасет слишком шумный и при этом используется простая модель, можно недообучиться, упустив важные детали.
— Сдвиги в распределении данных: сложная модель может случайно выучить артефакты, которые встречаются только в маленькой выборке, в то время как простая модель на большом датасете может схватывать более обобщенные особенности.
Библиотека собеса по Data Science
▪️ Сложная модель на маленьком, но качественном датасете:
▪️ Простая модель на большом, шумном датасете:
▪️ Подводные камни и крайние случаи:
Библиотека собеса по Data Science
Как взаимодействует feature engineering с интерпретируемостью модели
Feature engineering (инженерия признаков) позволяет преобразовывать необработанные данные в признаки, которые лучше отражают знания предметной области.
▪️ Это можетповысить точность модели, но также может снизить интерпретируемость, особенно если используются нелинейные преобразования или сложные комбинации исходных признаков .
▪️ Тем не менее, интерпретируемая инженерия признаков, основанная на экспертных знаниях, может упростить понимание того, почему модель принимает те или иные решения. Например, использование понятных категорий вроде «возрастная группа» вместо точного возраста может помочь заинтересованным сторонам лучше понять поведение модели.
🔑 Важно:
Документировать, как и почему создавался каждый признак. Это делает поведение модели более прозрачным и укрепляет доверие к её прогнозам.
Библиотека собеса по Data Science
Feature engineering (инженерия признаков) позволяет преобразовывать необработанные данные в признаки, которые лучше отражают знания предметной области.
▪️ Это может
▪️ Тем не менее, интерпретируемая инженерия признаков, основанная на экспертных знаниях, может упростить понимание того, почему модель принимает те или иные решения. Например, использование понятных категорий вроде «возрастная группа» вместо точного возраста может помочь заинтересованным сторонам лучше понять поведение модели.
🔑 Важно:
Документировать, как и почему создавался каждый признак. Это делает поведение модели более прозрачным и укрепляет доверие к её прогнозам.
Библиотека собеса по Data Science
Как справляться с огромными пространствами поиска в генетических алгоритмах для нейросетей
Генетические алгоритмы исследуют гигантские пространства архитектур: каждая комбинация слоёв, активаций и гиперпараметров входит в возможное множество решений.
При масштабных сетях вычислительная стоимость быстро растёт — каждую архитектуру нужно хотя бы частично обучить для оценки пригодности.
⭐ Практические подходы:
➡️ Поэтапный (staged) поиск: сначала простые модели и ограниченный набор параметров, затем — расширение до более сложных конфигураций.
➡️ Суррогатные модели: замена оценки полноценной модели на прокси-оценку с помощью облегчённых сетей.
➡️ Раннее завершение обучения: сокращение количества эпох или досрочное завершение обучения при отсутствии улучшения.
⭐ Подводный камень:
➡️ Суррогаты и частичное обучение могут искажать оценку: некоторые архитектуры обучаются медленно, но в долгосрочной перспективе превосходят остальных.
Библиотека собеса по Data Science
Генетические алгоритмы исследуют гигантские пространства архитектур: каждая комбинация слоёв, активаций и гиперпараметров входит в возможное множество решений.
При масштабных сетях вычислительная стоимость быстро растёт — каждую архитектуру нужно хотя бы частично обучить для оценки пригодности.
Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Как скрытые состояния в HMM отличаются от скрытых представлений в RNN и как это влияет на интерпретируемость
🧠 Скрытые марковские модели (HMM):
В HMM скрытые состояния — этодискретные латентные переменные с четким вероятностным значением. Каждое состояние соответствует конкретному режиму или явлению (например, «дождливо» или «солнечно» в модели погоды) , что способствует интерпретируемости . Переходы между состояниями описываются матрицей вероятностей.
🤖 Рекуррентные нейронные сети (RNN):
В отличие от HMM, скрытые состояния в RNN — этонепрерывные векторы, которые обучаются автоматически с помощью градиентного спуска. Они могут кодировать сложные аспекты истории последовательности, но не всегда легко интерпретируемы. Каждый элемент скрытого состояния может быть связан с более сложными зависимостями, которые сложно трактовать в явной форме.
💡 Главная проблема:
При попытке трактовать скрытые состояния в RNN как дискретные состояния в HMM можно столкнуться с ошибками.Непрерывные скрытые представления могут не иметь четких «меток», что затрудняет их интерпретацию и объяснение. Важно учитывать, что RNN может захватывать более сложные, но менее интерпретируемые зависимости.
⚠️ Как избежать ошибок:
Не стоит пытаться трактовать скрытые состояния RNN как дискретные. Лучше использовать методы интерпретации, такие как визуализация внимания, чтобы понять, как скрытые состояния влияют на выход модели.
Библиотека собеса по Data Science
🧠 Скрытые марковские модели (HMM):
В HMM скрытые состояния — это
🤖 Рекуррентные нейронные сети (RNN):
В отличие от HMM, скрытые состояния в RNN — это
💡 Главная проблема:
При попытке трактовать скрытые состояния в RNN как дискретные состояния в HMM можно столкнуться с ошибками.
⚠️ Как избежать ошибок:
Библиотека собеса по Data Science
🧠 Градиентный спуск: когда сходимость гарантирована, а когда — нет
В линейной регрессии с функцией потерь в виде среднеквадратичной ошибки (MSE) задачавыпуклая — это значит, что существует единственный глобальный минимум , и градиентный спуск (если не мешают численные ошибки) гарантированно к нему сойдётся .
🔁 Если расширить линейную регрессию, применяя нелинейные преобразования (например, полиномиальные признаки), или перейти к глубоким нейросетям, ситуацияменяется : поверхность функции потерь становится невыпуклой , появляются локальные минимумы и седловые точки .
📉 В таких случаях градиентный спуск может:
▪️ сойтись к локальному минимуму
▪️ застрять на плато (участке с малыми градиентами)
▪️ не достичь глобального оптимума
💡 Что помогает:
▪️ оптимизаторы с моментумом (например, Adam, RMSProp)
▪️ адаптивное изменение learning rate
▪️ периодический «рестарт» обучения
⚠️ Подводный камень:
Можно ошибочно считать, что градиентный спуск всегда работает, как в линейной регрессии. Но в невыпуклых задачах сходимость к глобальному минимуму не гарантируется.
Библиотека собеса по Data Science
В линейной регрессии с функцией потерь в виде среднеквадратичной ошибки (MSE) задача
🔁 Если расширить линейную регрессию, применяя нелинейные преобразования (например, полиномиальные признаки), или перейти к глубоким нейросетям, ситуация
📉 В таких случаях градиентный спуск может:
💡 Что помогает:
⚠️ Подводный камень:
Библиотека собеса по Data Science
Forwarded from Proglib.academy | IT-курсы
📚 13 ресурсов, чтобы выучить математику с нуля — подборка, которую просили
Хочешь прокачаться в математике для Data Science, ML или просто чтобы понимать, что происходит в формулах. Лови список лучших источников, которые собрали на Proglib.
➡️ Что внутри:
• Книги: от Пойи и Перельмана до Хофштадтера
• Советы: как учить, с чего начать, как не сдаться
• Математика для Data Science: разбор тем и формул
• Ссылки на форумы и задачи
• Как не бояться, если всё кажется сложным
• Что читать, если ты гуманитарий и страдал от школьной алгебры
✍️ Простой язык, много примеров и ноль академического занудства.
🔵 Для полного понимания Архитектуры, забирайте наш курс → «Архитектуры и шаблоны проектирования»
👉 Читай статью тут
Хочешь прокачаться в математике для Data Science, ML или просто чтобы понимать, что происходит в формулах. Лови список лучших источников, которые собрали на Proglib.
• Книги: от Пойи и Перельмана до Хофштадтера
• Советы: как учить, с чего начать, как не сдаться
• Математика для Data Science: разбор тем и формул
• Ссылки на форумы и задачи
• Как не бояться, если всё кажется сложным
• Что читать, если ты гуманитарий и страдал от школьной алгебры
✍️ Простой язык, много примеров и ноль академического занудства.
👉 Читай статью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Почему обратимая матрица сохраняет объем в пространстве
🔹 Если рассматривать матрицу с геометрической точки зрения, она выполняет преобразованиевекторов в n-мерном пространстве . Когда матрица обратима, это означает, что преобразование является биективным , то есть оно не «сжимает» пространство в подпространство меньшей размерности.
🔹 Говоря проще, обратимая матрица сохраняетобъем (хотя и может вращать или искажать его), но не уменьшает количество измерений .
🔹 Если ранг матрицы уменьшается, преобразование отображает векторы впространство меньшей размерности , что означает потерю информации . В геометрии это проявляется в том, что объем пространства «сплющивается» или искажается до нулевого объема , что и приводит к нулевому детерминанту.
Библиотека собеса по Data Science
🔹 Если рассматривать матрицу с геометрической точки зрения, она выполняет преобразование
🔹 Говоря проще, обратимая матрица сохраняет
🔹 Если ранг матрицы уменьшается, преобразование отображает векторы в
Библиотека собеса по Data Science