Data Science | Тесты
2.51K subscribers
25 photos
349 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Как работает градиентный бустинг регрессор?

Это ансамблевый метод, который комбинирует множество слабых моделей (обычно деревьев решений) для улучшения качества предсказаний:
1. Первая модель предсказывает исходные данные, а остатки ошибок передаются следующей.
2. Каждое новое дерево обучается на ошибках предыдущих, уменьшая отклонения.
3. Градиентный спуск минимизирует ошибку, выбирая оптимальные веса.
4. Итоговое предсказание – это взвешенная сумма предсказаний всех деревьев.
Градиентный бустинг хорошо работает с нелинейными зависимостями и устойчив к выбросам.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Какой метод машинного обучения используется для выявления скрытых факторов в текстовых данных?
Anonymous Quiz
2%
Логистическая регрессия
7%
Decision Tree
52%
LDA (Latent Dirichlet Allocation)
39%
TF-IDF
🤔 Какой метод борьбы с дисбалансом классов создает новые примеры?
Anonymous Quiz
37%
Oversampling
4%
Undersampling
47%
SMOTE
11%
Class Weighing
💊7
🤔 Какой функционал оптимизируется в задаче линейной регрессии? Как записать это в векторной записи?

Оптимизируется ошибка между предсказанными и фактическими значениями, минимизируя среднеквадратичное отклонение, что позволяет определить параметры модели.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод машинного обучения используется для задач регрессии с учетом нелинейных зависимостей и взаимодействий между признаками?
Anonymous Quiz
4%
Линейная регрессия
53%
Полиномиальная регрессия
34%
Случайный лес
9%
Логистическая регрессия
🤔 Какой метод машинного обучения используется для классификации на основе вероятностных распределений?
Anonymous Quiz
34%
Логистическая регрессия
5%
K-ближайших соседей
5%
Метод опорных векторов
56%
Наивный байесовский классификатор
💊2
🤔 Разница между K-Means и KNN

1. K-Means (кластеризация):
o Используется для группировки данных в кластеры на основе схожести.
o Это алгоритм обучения без учителя.
o Результат — центры кластеров, данные распределяются вокруг них.
2. KNN (K-Nearest Neighbors):
o Алгоритм классификации или регрессии, находящий ближайших соседей для прогнозирования.
o Это алгоритм обучения с учителем.
o Результат зависит от разметки данных (меток классов).


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод улучшает интерпретируемость модели?
Anonymous Quiz
28%
Regularization
50%
LIME
10%
Gradient Boosting
12%
Cross-Validation
🤔 Какая функция в pandas используется для проверки наличия NaN?
Anonymous Quiz
62%
isnan
36%
isnull
2%
nancheck
0%
hasnull
💊10🤔5
🤔 Как работает регресс?

Регрессия — это метод машинного обучения, который моделирует зависимость между одной или несколькими независимыми переменными (признаками) и зависимой переменной (предсказываемой величиной). Основная цель регрессии — предсказать значение зависимой переменной на основе новых значений независимых переменных, минимизируя ошибку. В Data Science регрессия широко используется для прогнозирования и анализа взаимосвязей данных, таких как линейная и логистическая регрессии.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 Какой метод уменьшает дисперсию в ансамблевом обучении?
Anonymous Quiz
60%
Bagging
27%
Boosting
9%
Gradient Descent
5%
Cross-Validation
🤔 Какой метод машинного обучения используется для предсказания категориальных переменных на основе временных рядов?
Anonymous Quiz
9%
Random Forest
12%
Decision Tree
74%
RNN
6%
K-means
🤔 Какую метрику регрессии используешь для объяснения результатов?

Для объяснения результатов регрессии обычно используются несколько метрик, таких как среднеквадратичная ошибка (MSE), средняя абсолютная ошибка (MAE) и R-квадрат. Выбор зависит от специфики задачи и приоритетов: чувствительности к выбросам, интерпретируемости или доли объясненной дисперсии. Важно учитывать контекст и использовать несколько метрик для полной оценки.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод используется для нормализации данных, приводя их к стандартному нормальному распределению?
Anonymous Quiz
27%
Min-Max Scaling
66%
Z-score Normalization
5%
PCA
3%
LDA
🤔 Какой метод улучшает производительность моделей путем уменьшения смещения?
Anonymous Quiz
23%
Ridge Regression
23%
Lasso Regression
46%
Bagging
7%
PCA
🤔 Как систематическая ошибка и дисперсии связаны между собой?

Высокая систематическая ошибка (bias) уменьшает сложность модели, но снижает точность, а высокая дисперсия (variance) приводит к переобучению. Баланс между ними важен для оптимальной работы модели.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод машинного обучения используется для обнаружения аномалий, создавая плотностное распределение данных?
Anonymous Quiz
19%
K-средние
41%
Изолирующий лес
13%
Метод ближайших соседей
26%
One-Class SVM
🤔 Какой метод уменьшает переобучение, ограничивая сложность модели?
Anonymous Quiz
6%
Data Augmentation
9%
Gradient Boosting
71%
Regularization
14%
Batch Normalization
👍1
🤔 Как работают несимметрические метрики?

Несимметрические метрики в контексте машинного обучения оценивают модель, акцентируя внимание на одном классе или типе ошибки больше, чем на других. Это особенно полезно в случаях, когда стоимость одного типа ошибки значительно выше другого. Примером несимметричной метрики является F1-score, который более чувствителен к классам с меньшим числом образцов или когда важно сбалансировать точность и полноту.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод оценки модели использует разделение данных на K последовательных блоков и выполнение K экспериментов, в каждом из которых отдельный блок используется как тестовый набор, а оставшиеся данные — как тренировочный набор?
Anonymous Quiz
87%
Cross-validation
6%
Bootstrap
5%
Holdout Method
1%
ROC Curve Analysis