Data Science | Тесты
2.51K subscribers
25 photos
348 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 В чём разница между методом GMM и K-Means?

1. K-Means:
o Основан на разделении данных по расстояниям до центроидов (жёсткое разделение).
o Каждая точка принадлежит только одному кластеру.
2. GMM (Gaussian Mixture Model):
o Использует вероятностный подход: каждая точка имеет вероятность принадлежности к каждому кластеру (мягкое разделение).
o Кластеры формируются на основе распределений Гаусса, что делает GMM более гибким для сложных данных.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
🤔 Какой метод уменьшает дисперсию, используя случайное исключение нейронов?
Anonymous Quiz
8%
Bagging
3%
Boosting
80%
Dropout
9%
Batch Normalization
🤔 Какой метод уменьшает смещение и дисперсию в ансамблевых моделях?
Anonymous Quiz
13%
Stacking
48%
Bagging
28%
Boosting
11%
Gradient Descent
💊6🤔2
🤔 Чем отличается градиентный спуск от SGD?

Градиентный спуск использует весь набор данных для вычисления градиента и обновления параметров, что требует значительных вычислительных ресурсов. Стохастический градиентный спуск (SGD) обновляет параметры после каждого примера или мини-батча, что ускоряет обучение, но может быть менее стабильным. SGD часто сходится быстрее, но может застревать в локальных минимумах.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой алгоритм используется для временных рядов для предсказания будущих значений?
Anonymous Quiz
6%
Decision Trees
7%
Support Vector Machines
87%
ARIMA (AutoRegressive Integrated Moving Average)K-Means
💊25
🤔 Какой метод уменьшает смещение и дисперсию, обучая модели на мета-уровне?
Anonymous Quiz
17%
Bagging
15%
Boosting
57%
Stacking
10%
Dropout
🤔 Что такое recall?

Recall (полнота) — это метрика, показывающая, какая доля истинных положительных случаев была правильно предсказана моделью. Она рассчитывается как отношение количества истинно положительных предсказаний к сумме истинно положительных и ложно отрицательных. Recall важен, когда важно минимизировать количество пропущенных положительных случаев. Высокий recall означает, что модель почти не пропускает положительные случаи.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения используется для уменьшения размерности данных, сохраняя как можно больше дисперсии?
Anonymous Quiz
70%
PCA
10%
LDA
15%
T-SNE
5%
NMF
🤔 Какой метод машинного обучения используется для обнаружения аномалий путем создания деревьев решений, где аномалии изолируются на верхних уровнях дерева?
Anonymous Quiz
4%
K-средние
88%
Изолирующий лес
5%
One-Class SVM
4%
Метод ближайших соседей
🤔 Где вообще используются линейные модели?

Линейные модели применяются в задачах с линейной зависимостью, таких как регрессия для предсказания спроса или цен, классификация в кредитных скорингах, а также в задачах с высоким соотношением признаков к данным.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой индекс часто используется для оценки качества кластеризации?
Anonymous Quiz
15%
R-squared
63%
Silhouette score
11%
Mean squared error
11%
Cross-entropy loss
🤔 Какой метод машинного обучения используется для повышения точности путем создания мета-модели на основе предсказаний нескольких базовых моделей?
Anonymous Quiz
27%
Бэггинг
65%
Стеккинг
3%
K-means
5%
T-SNE
🤔 Как делается прунинг деревьев?

1. Pre-pruning: остановка роста дерева по заранее заданным критериям (глубина, минимальный размер листа).
2. Post-pruning: удаление "слабых" ветвей после построения дерева для улучшения обобщения.
3. Метрики, такие как ошибка на валидационной выборке, помогают оценить, какие ветви обрезать.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🤔 Какой метод машинного обучения используется для классификации на основе вероятностей?
Anonymous Quiz
9%
Линейная регрессия
4%
K-ближайших соседей
11%
Метод опорных векторов
76%
Наивный байесовский классификатор
🤔 Какой метод уменьшает смещение и дисперсию в модели?
Anonymous Quiz
39%
Bagging
15%
Gradient Descent
23%
Ensemble Learning
23%
Cross-Validation
💊12
🤔 В чем отличия рэбиэрт от арбитас?

ReBERT оптимизирует обработку текстов с учетом контекста, а ArbitAS – задач диалогов и генерации текста.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
💊5🔥1
🤔 Какой метод используется для уменьшения мультиколлинеарности в регрессии?
Anonymous Quiz
71%
Lasso
10%
Bagging
10%
Gradient Boosting
9%
Grid Search
🤔 Какой метод уменьшения размерности с сохранением глобальной структуры данных?
Anonymous Quiz
49%
PCA
31%
T-SNE
4%
T-SNE
16%
Isomap
🤔 Как работает having?

`HAVING` в SQL используется для фильтрации результатов группировки, которые были созданы с помощью `GROUP BY`. В отличие от `WHERE`, который фильтрует строки до группировки, `HAVING` применяет фильтры уже после того, как данные были агрегированы. Это позволяет отфильтровывать группы на основе агрегатных функций, таких как `COUNT()`, `SUM()` или `AVG()`. Использование `HAVING` удобно, когда требуется отобрать только те группы, которые соответствуют определённым условиям.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🤔 Какой метод часто используется для обработки текстовых данных?
Anonymous Quiz
2%
Линейная регрессия
94%
TF-IDF
1%
Логистическая регрессия
3%
K-means