Data Science | Тесты
2.7K subscribers
29 photos
595 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Какой метод уменьшает смещение в дереве решений, комбинируя деревья?
Anonymous Quiz
43%
Bagging
5%
Pruning
43%
Boosting
9%
Stacking
🤔 Какой метод используется для обнаружения выбросов в данных?
Anonymous Quiz
16%
Random Forest
48%
One-Class SVM
18%
K-Means Clustering
18%
PCA (Principal Component Analysis)
🤔 Какой метод оценки модели основан на использовании нескольких подвыборок?
Anonymous Quiz
5%
Гиперпараметрическая оптимизация
28%
Бэггинг
64%
Кросс-валидация
3%
Бустинг
🤔 Как валидировать временные ряды?

Валидация по времени включает разбиение данных на интервалы с учётом временной последовательности. Методы: time series split (скользящее окно), расширяемое окно или кросс-валидация по времени.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод увеличивает разнообразие ансамбля моделей?
Anonymous Quiz
10%
Бустинг
42%
Стекинг
41%
Бэггинг
7%
Рекуррентные сети
💊1
🤔 Какой метод машинного обучения используется для анализа текстов и выявления скрытых тем в документах?
Anonymous Quiz
2%
Логистическая регрессия
0%
Decision Tree
64%
TF-IDF
34%
LDA (Latent Dirichlet Allocation)
🤔 Почему считается, что случайный лес не переобучается?

Считается, что случайный лес не склонен к переобучению, потому что он усредняет предсказания большого количества деревьев решений, каждое из которых обучается на случайной подвыборке данных и случайных признаках. Этот процесс помогает уменьшить влияние отдельных переобученных деревьев на финальное предсказание. В результате модель становится более устойчивой к ошибкам и шуму в данных. Кроме того, случайный лес не сильно зависит от малозначимых признаков, так как случайные выборки уменьшают их влияние.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🔥2
🤔 Какой метод уменьшения размерности используется для визуализации данных в низкоразмерном пространстве?
Anonymous Quiz
51%
PCA
8%
LDA
32%
T-SNE
10%
NMF
🤔 Какой метод уменьшает переобучение, регулируя размер шага градиента?
Anonymous Quiz
5%
Dropout
7%
Early Stopping
24%
Gradient Clipping
64%
Learning Rate Scheduling
🤔 Как работает having?

`HAVING` в SQL используется для фильтрации результатов группировки, которые были созданы с помощью `GROUP BY`. В отличие от `WHERE`, который фильтрует строки до группировки, `HAVING` применяет фильтры уже после того, как данные были агрегированы. Это позволяет отфильтровывать группы на основе агрегатных функций, таких как `COUNT()`, `SUM()` или `AVG()`. Использование `HAVING` удобно, когда требуется отобрать только те группы, которые соответствуют определённым условиям.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🔥1
🤔 Какой метод уменьшает смещение и дисперсию в градиентном бустинге?
Anonymous Quiz
15%
Learning Rate
39%
Bagging
18%
Pruning
27%
Regularization
🤔 Что можешь сказать про оконные функции?

Оконные функции в SQL и в библиотеках анализа данных, таких как pandas, позволяют выполнять вычисления по подмножествам данных (окнам), которые связаны с текущей строкой. Это включает в себя операции, такие как суммирование, вычисление среднего, и другие статистические функции, применяемые к "окну" данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
👍1
🤔 Почему в картинках используют Standard Scaling вместо MinMax Scaling?

Standard Scaling (z-score normalization) чаще используется для обработки изображений, поскольку:
1. Он центрирует данные вокруг нуля и масштабирует их на основе стандартного отклонения, что улучшает производительность моделей, чувствительных к масштабам.
2. MinMax Scaling, преобразующий значения в диапазон [0, 1], может терять информацию о дисперсии пикселей.
3. Standard Scaling более устойчив к изменению контрастности и яркости изображений.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод машинного обучения используется для создания рекомендаций на основе коллаборативной фильтрации с использованием скрытых факторов?
Anonymous Quiz
8%
Decision Tree
6%
Логистическая регрессия
56%
SVD (Singular Value Decomposition)
31%
Автоэнкодеры
🤔 Какой метод машинного обучения использует функция ядра для обработки нелинейных данных?
Anonymous Quiz
8%
Линейная регрессия
13%
K-ближайших соседей
13%
Деревья решений
68%
Метод опорных векторов
🤔 Как систематическая ошибка и дисперсии связаны между собой?

Высокая систематическая ошибка (bias) уменьшает сложность модели, но снижает точность, а высокая дисперсия (variance) приводит к переобучению. Баланс между ними важен для оптимальной работы модели.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод выбирает модели путём уменьшения количества данных?
Anonymous Quiz
43%
PCA
13%
Bagging
26%
Cross-validation
17%
Bootstrapping