Data Science | Тесты
2.62K subscribers
26 photos
420 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Какой метод уменьшает смещение и дисперсию, используя ансамбль моделей?
Anonymous Quiz
42%
Bagging
42%
Boosting
13%
Stacking
2%
Dropout
💊2
🤔 Какой метод уменьшает дисперсию, комбинируя слабые модели и повышая их взвешенность?
Anonymous Quiz
40%
Bagging
35%
Boosting
11%
Stacking
13%
Random Forest
🤔 Какие реализации бустинга есть?

AdaBoost, Gradient Boosting, XGBoost, CatBoost и LightGBM. Они различаются производительностью и подходами к построению деревьев.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод часто применяют для борьбы с дисбалансом классов?
Anonymous Quiz
71%
SMOTE
19%
PCA
5%
K-means
4%
Логистическая регрессия
🤔 Какая техника использует усреднение моделей для повышения точности предсказаний?
Anonymous Quiz
62%
Bagging
21%
Stacking
13%
Boosting
4%
Dropout
💊12
🤔 За что мэп штрафует больше: за перепрогноз или недопрогноз?

MAP (Mean Average Precision) больше штрафует за недопрогноз (упущенные релевантные элементы), так как метрика ориентирована на точность в верхней части ранжированного списка.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
🤔 Какой метод используется для масштабирования данных в sklearn?
Anonymous Quiz
63%
StandardScaler
21%
MinMaxScaler
8%
RobustScaler
9%
Normalizer
💊7
🤔 Какой метод используется для оценки важности признаков в модели случайного леса?
Anonymous Quiz
74%
Gini Importance
9%
Gradient Descent
7%
Mean Squared Error
9%
Cross-Validation
🤔 В чём смысл Information Value (IV)?

Это метрика, используемая для оценки предсказательной способности признака относительно целевой переменной.
1. Высокое значение IV говорит о сильной связи между признаком и целевой переменной.
2. Часто используется в кредитном скоринге для выбора наиболее значимых признаков.
3. Значения IV помогают определить, какие признаки следует включить в модель, а какие можно исключить.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод машинного обучения используется для задач регрессии, когда требуется учитывать нелинейные зависимости между признаками?
Anonymous Quiz
5%
Линейная регрессия
59%
Полиномиальная регрессия
24%
Градиентный бустинг
12%
K-ближайших соседей
💊12
🤔 Какая функция в pandas используется для создания сводных таблиц?
Anonymous Quiz
77%
pivot_table
8%
groupby
10%
merge
4%
concat
🔥1
🤔 Что хуже: иметь много ложных срабатываний или ложно-отрицательных срабатываний?

Это зависит от задачи. Ложно-отрицательные срабатывания хуже в задачах, где важно не пропустить критический случай (например, диагностика). Ложные срабатывания могут быть менее критичными, но увеличивают нагрузку на систему.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает дисперсию, комбинируя деревья решений?
Anonymous Quiz
45%
Bagging
42%
Boosting
11%
Gradient Descent
2%
Pruning
🤔 Какой метод оптимизации применяется для поиска минимума функции?
Anonymous Quiz
62%
SGD
27%
SGD
3%
v3. K-means
9%
DBSCAN
💊20
🤔 Какой функционал оптимизируется в задаче линейной регрессии? Как записать это в векторной записи?

Оптимизируется ошибка между предсказанными и фактическими значениями, минимизируя среднеквадратичное отклонение, что позволяет определить параметры модели.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод машинного обучения используется для классификации текстовых данных с учетом порядка слов?
Anonymous Quiz
0%
Линейная регрессия
2%
K-means
90%
N-grams
7%
Логистическая регрессия
🤔 Что известно о Gradient-boosted trees?

Это ансамблевый метод, строящий модель как последовательность слабых моделей (обычно деревьев), где каждая новая модель корректирует ошибки предыдущей. Он использует градиентный спуск по функции потерь. Обладает высокой точностью и хорошо работает с табличными данными, но чувствителен к гиперпараметрам. Популярные реализации — XGBoost, LightGBM, CatBoost.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой алгоритм используется для классификации на основе теоремы Байеса?
Anonymous Quiz
1%
Логистическая регрессия
3%
Метод опорных векторов
96%
Наивный байесовский классификатор
0%
Случайный лес
🤔 Вопрос: Как называется процесс преобразования категориальных данных в числовые?
Anonymous Quiz
12%
Нормализация
2%
Стандартизация
84%
One-hot кодировка
2%
Логарифмирование