Data Science | Тесты
2.51K subscribers
25 photos
349 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Какой метод кластеризации использует плотностное распределение данных?
Anonymous Quiz
15%
K-means
57%
DBSCAN
12%
Hierarchical Clustering
16%
Gaussian Mixture Models
🤔 За что мэп штрафует больше: за перепрогноз или недопрогноз?

MAP (Mean Average Precision) больше штрафует за недопрогноз (упущенные релевантные элементы), так как метрика ориентирована на точность в верхней части ранжированного списка.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод уменьшения размерности используется для выделения скрытых признаков из данных?
Anonymous Quiz
38%
PCA
18%
LDA
29%
Автоэнкодеры
16%
T-SNE
🤔 Что известно про оконные функции?

Это SQL-функции, выполняющиеся по окну строк, но не сворачивающие их в одно значение.
- Используются с OVER().
- Примеры: ROW_NUMBER(), RANK(), LEAD(), LAG(), SUM() OVER(), AVG() OVER().


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод регуляризации добавляет штраф за сложность модели?
Anonymous Quiz
14%
Dropout
73%
L2-регуляризация
6%
Batch Normalization
7%
ReLU
🤔 Какой метод уменьшает дисбаланс классов в данных?
Anonymous Quiz
79%
SMOTE (Synthetic Minority Over-sampling Technique)
9%
Регрессия Лассо
9%
K-means кластеризация
3%
Градиентный бустинг
🔥1
🤔 Что такое Fitch Engineering?

Это подход, применяемый в инженерных решениях для системной оптимизации процессов. Он связан с выбором оптимальных стратегий проектирования, особенно в контексте архитектуры программных систем или машинного обучения. В ML используется для разработки масштабируемых и эффективных решений.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
🤔 Какой метод используется для оценки моделей на небольших выборках путем многократного разбиения данных на обучающую и тестовую выборки?
Anonymous Quiz
14%
Decision Tree
4%
Логистическая регрессия
71%
Bootstrap
11%
TF-IDF
💊2
🤔 Какой метод регуляризации используют в Elastic Net?
Anonymous Quiz
6%
L1
6%
L2
78%
L1 и L2
10%
L1 и Dropout
🤔 Какая скорость поиска в хэш-таблице

Скорость поиска в хэш-таблице (например, HashMap) в среднем составляет O(1), так как ключи напрямую отображаются в индекс с помощью хэш-функции. В худшем случае, при коллизиях, время поиска может увеличиваться до O(n), если хэш-таблица не оптимизирована или используется неэффективная стратегия разрешения коллизий. Однако в большинстве случаев эффективные хэш-функции и методы обработки коллизий поддерживают близкую к O(1) скорость.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
🤔 Какая метрика оценивает качество бинарной классификации, учитывая как точность, так и полноту?
Anonymous Quiz
88%
F1-score
2%
Precision
3%
Recall
7%
Accuracy
🤔 Как определить процент потерянной дисперсии?

Процент потерянной дисперсии можно определить, анализируя долю необъяснённой изменчивости данных моделью. Это измеряется разницей между общей дисперсией и той частью, которую смогла объяснить модель.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод используется для уменьшения смещения в ансамблевых моделях?
Anonymous Quiz
13%
Random Forest
13%
AdaBoost
38%
Gradient Boosting
37%
Bagging
🤔 Какой метод часто применяют для поиска скрытых паттернов в данных?
Anonymous Quiz
49%
Факторный анализ
8%
K-means
28%
PCA
16%
SVM
🤔 Какие есть 2 случайности в обучении модели случайного леса?

1. Случайность в выборе подмножества данных: для каждой модели дерева случайный лес использует метод bootstrap, выбирая случайные подмножества обучающего набора.
2. Случайность в выборе признаков: на каждом узле дерева выбирается случайное подмножество признаков для поиска лучшего разбиения.
Эти случайности способствуют снижению переобучения и повышению обобщающей способности модели.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
🤔 Какой метод часто применяют для обнаружения выбросов в данных?
Anonymous Quiz
66%
Isolation Forest
17%
K-means
15%
PCA
3%
Логистическая регрессия
🤔 Какой метод используется для обработки категориальных признаков путем замены их числовыми значениями на основе частоты встречаемости?
Anonymous Quiz
5%
Decision Tree
2%
Логистическая регрессия
61%
Target Encoding
33%
TF-IDF
💊4
🤔 Примеры моделей с большим смещением и большой дисперсией.

Линейная регрессия имеет высокий bias, а Random Forest – высокий variance. Комбинация моделей помогает сбалансировать эти параметры.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1