Data Science | Тесты
2.51K subscribers
25 photos
351 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Что такое мультиколлинеарность?

Это ситуация, когда признаки сильно коррелируют друг с другом.
- Это вызывает нестабильность линейных моделей, так как коэффициенты могут становиться большими и неинтерпретируемыми.
- Решения: удаление зависимых признаков, PCA, L1-регуляризация (Lasso).


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
🤔 Какой метод часто применяют для предобработки данных перед моделированием?
Anonymous Quiz
83%
Normalization
4%
K-means
11%
PCA
2%
Логистическая регрессия
🤔 Какой метод уменьшает дисперсию, комбинируя слабые модели?
Anonymous Quiz
48%
Bagging
35%
Boosting
6%
Gradient Descent
10%
Cross-Validation
🤔 Что известно про оконные функции?

Это SQL-функции, выполняющиеся по окну строк, но не сворачивающие их в одно значение.
- Используются с OVER().
- Примеры: ROW_NUMBER(), RANK(), LEAD(), LAG(), SUM() OVER(), AVG() OVER().


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает переобучение с использованием L2 регуляризации?
Anonymous Quiz
61%
Ridge Regression
28%
Lasso Regression
7%
Elastic Net
4%
Dropout
🤔 Какой метод часто применяют для оценки качества классификационных моделей?
Anonymous Quiz
88%
ROC-кривая
6%
K-means
4%
PCA
2%
Линейная регрессия
🤔 Что такое бэкпропагейшен (Backpropagation)?

Это алгоритм обновления весов в нейросети путем распространения ошибки от выхода к входу:
1. Прямой проход – данные проходят через сеть, вычисляя предсказания.
2. Вычисление ошибки – разница между предсказанием и истинным значением.
3. Обратное распространение ошибки – градиенты ошибки передаются назад через слои с помощью правила цепочки (chain rule).
4. Обновление весов – веса корректируются методом градиентного спуска.
Бэкпропагейшен – ключевой алгоритм, позволяющий обучать глубокие нейронные сети.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод часто применяют для классификации текстовых данных?
Anonymous Quiz
67%
Naive Bayes
11%
K-means
6%
PCA
15%
Логистическая регрессия
👍1
🤔 Какой метод уменьшает дисперсию в модели, сохраняя важные признаки?
Anonymous Quiz
28%
Ridge
41%
Lasso
14%
Elastic Net
17%
PCA
🤔 Что такое ROC/AUC?

Это кривая, отображающая качество бинарного классификатора. Она строится по:
- True Positive Rate (TPR) – доля правильно предсказанных положительных классов.
- False Positive Rate (FPR) – доля неправильно предсказанных положительных классов.
AUC (Area Under Curve) – это площадь под ROC-кривой:
- AUC = 1.0 – идеальный классификатор.
- AUC = 0.5 – случайное угадывание.
- AUC < 0.5 – модель хуже случайного выбора.
AUC-ROC полезен для оценки качества предсказаний модели независимо от порога вероятности.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
💊2
🤔 Какой метод уменьшает дисперсию в ансамблевом обучении?
Anonymous Quiz
62%
Bagging
24%
Boosting
9%
Gradient Descent
4%
Cross-Validation
🤔 Какой метод часто применяют для анализа временных рядов?
Anonymous Quiz
86%
ARIMA
6%
K-means
2%
PCA
6%
Линейная регрессия
🤔 Как обучается модель?

Процесс обучения модели машинного обучения включает:
1. Предобработку данных – нормализация, удаление выбросов, кодирование категориальных признаков.
2. Выбор модели – линейная регрессия, дерево решений, нейросети и т. д.
3. Разделение данных – обучение (train), валидация (validation), тестирование (test).
4. Оптимизация параметров – подбор коэффициентов с помощью градиентного спуска или других методов.
5. Оценка качества – использование метрик (MSE, Accuracy, ROC-AUC).
Модель обучается за счет минимизации функции потерь и корректировки параметров.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
🤔 Какой метод уменьшает дисперсию в модели, уменьшая переобучение?
Anonymous Quiz
27%
Cross-Validation
39%
Bagging
11%
Early Stopping
24%
Dropout
🤔6
🤔 Какой метод уменьшает переобучение, сохраняя важные признаки?
Anonymous Quiz
22%
Ridge
53%
Lasso
13%
Elastic Net
13%
PCA
🤔3
🤔 Как работает градиентный бустинг регрессор?

Это ансамблевый метод, который комбинирует множество слабых моделей (обычно деревьев решений) для улучшения качества предсказаний:
1. Первая модель предсказывает исходные данные, а остатки ошибок передаются следующей.
2. Каждое новое дерево обучается на ошибках предыдущих, уменьшая отклонения.
3. Градиентный спуск минимизирует ошибку, выбирая оптимальные веса.
4. Итоговое предсказание – это взвешенная сумма предсказаний всех деревьев.
Градиентный бустинг хорошо работает с нелинейными зависимостями и устойчив к выбросам.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает смещение и дисперсию в модели случайного леса?
Anonymous Quiz
62%
Bagging
19%
Boosting
9%
Gradient Descent
11%
Pruning
🤔 Какой метод уменьшает смещение в ансамблевых методах?
Anonymous Quiz
38%
Bagging
44%
Boosting
14%
Stacking
3%
Pruning
🤔 В чем преимущество медианы над средним?

Медиана менее чувствительна к выбросам, чем среднее (mean):
- Среднее (Mean) – учитывает все значения, поэтому искажается выбросами.
- Медиана (Median) – просто находит центральное значение в упорядоченном ряду, игнорируя крайние выбросы.
Медиана особенно полезна при распределении доходов, цен, длительностей и других данных с выбросами.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
🤔 Какой метод уменьшает дисперсию в модели глубокого обучения?
Anonymous Quiz
57%
Dropout
4%
Early Stopping
37%
Batch Normalization
3%
Data Augmentation