Data Science | Тесты
2.51K subscribers
25 photos
347 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Какой метод машинного обучения используется для классификации данных на основе вероятностных зависимостей между признаками?
Anonymous Quiz
22%
Логистическая регрессия
10%
K-ближайших соседей
10%
Метод опорных векторов
57%
Наивный байесовский классификатор
🤔 Какой метод машинного обучения часто используется для кластеризации данных?
Anonymous Quiz
86%
K-средних
2%
Случайный лес
5%
Логистическая регрессия
7%
Дерево решений
🤔 Расскажи о Gradient-boosted trees

Gradient-boosted trees — это ансамблевый метод машинного обучения, который строит серию деревьев решений, каждое из которых исправляет ошибки предыдущих. Процесс обучения происходит путем последовательного добавления деревьев, каждое из которых минимизирует ошибку путем градиентного спуска, усиливая правильные прогнозы. Gradient boosting широко используется для задач регрессии и классификации, обеспечивая высокую точность и гибкость в работе с разными типами данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения используется для обнаружения выбросов путем построения гиперплоскостей, отделяющих аномалии от нормальных данных?
Anonymous Quiz
5%
Линейная регрессия
32%
Изолирующий лес
55%
One-Class SVM
8%
Метод ближайших соседей
🤔 Какой метод используется для определения сходства между документами на основе их смысловых представлений?
Anonymous Quiz
2%
Decision Tree
2%
Логистическая регрессия
69%
Doc2Vec
27%
TF-IDF
🤔 Какими должны быть распределения для t-теста?

Для стандартного t-теста данные должны быть:
1. Нормально распределёнными.
2. Иметь одинаковую дисперсию между группами.
Если эти условия не выполняются, используют его модификации или непараметрические тесты.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод часто применяют для обнаружения аномалий в данных?
Anonymous Quiz
63%
LOF
14%
K-means
18%
PCA
4%
Логистическая регрессия
🤔 Какой метод уменьшает дисперсию, изменяя веса слабых моделей на основе их ошибок?
Anonymous Quiz
23%
AdaBoost
51%
Gradient Boosting
17%
Bagging
9%
Stacking
🤔 Как работает MSE?

MSE (Mean Squared Error) — это метрика, используемая для оценки качества модели регрессии, которая измеряет среднее квадратичное отклонение предсказанных значений от фактических. Она рассчитывается как среднее арифметическое квадратов разности между предсказанными и реальными значениями: `MSE = (1/n) * Σ(actual - predicted)^2`, где n — количество наблюдений. MSE чувствительна к большим ошибкам, так как квадраты отклонений увеличивают вес крупных ошибок. Цель модели — минимизировать MSE, чтобы предсказания были как можно ближе к фактическим значениям.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод уменьшает дисперсию в модели линейной регрессии?
Anonymous Quiz
24%
Bagging
19%
Boosting
34%
Ridge
23%
Lasso
💊5
🤔 Какой метод оценки модели используется для борьбы с переобучением?
Anonymous Quiz
6%
Grid Search
78%
Cross-validation
6%
Gradient Descent
10%
Stochastic Gradient Descent
🤔 Как представить модель LTV для бизнеса?

Модель LTV для бизнеса следует представить как инструмент для прогнозирования доходов от клиентов на протяжении их жизненного цикла, что позволяет планировать стратегии удержания, маркетинговые усилия и бюджеты. Важно объяснить, как модель использует данные для определения ключевых показателей, таких как частота покупок, средний чек и продолжительность взаимодействия. Модель должна быть легко интерпретируемой для принятия управленческих решений. Основное внимание должно быть уделено практичес

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения используется для обработки категориальных признаков?
Anonymous Quiz
90%
One-hot encoding
5%
PCA
2%
LDA
3%
T-SNE
🤔 Какой метод выделяет важные признаки для случайного леса?
Anonymous Quiz
57%
Recursive Feature Elimination
11%
Boruta
22%
Mutual Information
9%
Chi-Squared Test
🤔 В чем разница между метрикой качества и функцией потери при обучении?

Метрика качества оценивает, насколько хорошо модель работает, сравнивая её предсказания с реальными данными (например, Accuracy, Precision, ROC AUC). Функция потери измеряет ошибку модели и используется во время обучения для минимизации этой ошибки (например, MSE, Cross-Entropy). Метрика качества часто применяется на тестовых данных, а функция потери — на этапе оптимизации модели

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой алгоритм лучше всего подходит для предсказания категориальных переменных?
Anonymous Quiz
8%
Линейная регрессия
59%
Логистическая регрессия
12%
PCA
21%
K-means
🤔 Какой метод уменьшает смещение и дисперсию, используя наборы данных разного масштаба?
Anonymous Quiz
31%
Bagging
16%
Boosting
14%
Stacking
39%
Batch Normalization
💊2
🤔 В чем преимущество медианы над средним?

Медиана менее чувствительна к выбросам, чем среднее (mean):
- Среднее (Mean) – учитывает все значения, поэтому искажается выбросами.
- Медиана (Median) – просто находит центральное значение в упорядоченном ряду, игнорируя крайние выбросы.
Медиана особенно полезна при распределении доходов, цен, длительностей и других данных с выбросами.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Какой метод уменьшает размерность, сохраняя расстояния?
Anonymous Quiz
43%
PCA
18%
LDA
30%
t-SNE
10%
MDS
🤔 Какой метод уменьшения размерности часто используется для визуализации данных?
Anonymous Quiz
48%
PCA
27%
PCA
16%
LDA
8%
NMF
💊21🤔5