Data Science | Тесты
2.7K subscribers
29 photos
586 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Какой метод используется для уменьшения размерности данных, сохраняя максимальную вариативность?
Anonymous Quiz
27%
t-SNE
63%
PCA
7%
k-NN
2%
Random Forest
🤔 Что такое переобучение модели?

Переобучение (overfitting) происходит, когда модель слишком точно запоминает данные обучающей выборки, вместо того чтобы учить общие закономерности. В результате она плохо обобщает знания на новые данные и показывает высокую ошибку на тестовой выборке. Переобучение возникает, если модель слишком сложна или в обучающей выборке присутствует шум. Для борьбы с переобучением применяются методы регуляризации, кросс-валидации и увеличение объёма данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод уменьшает переобучение при тренировке нейронной сети?
Anonymous Quiz
14%
Batch Normalization
68%
Dropout
14%
Early Stopping
3%
Gradient Clipping
🤔1
🤔 Какой метод часто применяют для анализа временных рядов?
Anonymous Quiz
89%
SARIMA
7%
K-means
1%
PCA
3%
Логистическая регрессия
🤔 Как использовать P-value, когда мы проверяем гипотезу?

P-value показывает вероятность получения текущих результатов при условии, что нулевая гипотеза верна. Если P-value ниже уровня значимости, нулевая гипотеза отвергается.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какая техника используется для обнаружения выбросов в данных?
Anonymous Quiz
21%
PCA (Principal Component Analysis)
15%
K-means clustering
63%
Isolation Forest
1%
Linear Regression
🤔 Какая функция pandas используется для считывания CSV файлов?
Anonymous Quiz
97%
read_csv
3%
read_data
0%
load_csv
0%
import_csv
🤔 Как обучается модель?

Процесс обучения модели машинного обучения включает:
1. Предобработку данных – нормализация, удаление выбросов, кодирование категориальных признаков.
2. Выбор модели – линейная регрессия, дерево решений, нейросети и т. д.
3. Разделение данных – обучение (train), валидация (validation), тестирование (test).
4. Оптимизация параметров – подбор коэффициентов с помощью градиентного спуска или других методов.
5. Оценка качества – использование метрик (MSE, Accuracy, ROC-AUC).
Модель обучается за счет минимизации функции потерь и корректировки параметров.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🔥1🤔1
🤔 Какой алгоритм машинного обучения основан на теореме Байеса?
Anonymous Quiz
4%
Дерево решений
95%
Наивный байесовский классификатор
2%
K-ближайших соседей
0%
Случайный лес
🤔 Что такое декоратор?

Это функция, модифицирующая или расширяющая поведение другой функции или метода, не изменяя их исходный код. Используется для добавления функциональности, например, логирования, проверки прав доступа или кэширования. Обозначается с помощью
@decorator_name.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод уменьшает смещение и дисперсию в модели SVM?
Anonymous Quiz
25%
Cross-Validation
8%
Grid Search
36%
Regularization
31%
Kernel Trick
👍1
🤔 Какой метод уменьшает дисперсию, используя несколько моделей на подмножествах данных?
Anonymous Quiz
52%
Bagging
27%
Boosting
16%
Stacking
5%
Gradient Descent
🤔4👍1
🤔 Почему считается, что случайный лес не переобучается?

Считается, что случайный лес не склонен к переобучению, потому что он усредняет предсказания большого количества деревьев решений, каждое из которых обучается на случайной подвыборке данных и случайных признаках. Этот процесс помогает уменьшить влияние отдельных переобученных деревьев на финальное предсказание. В результате модель становится более устойчивой к ошибкам и шуму в данных. Кроме того, случайный лес не сильно зависит от малозначимых признаков, так как случайные выборки уменьшают их влияние.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
👍1🔥1
🤔 Какой метод используется для определения важности переменных в модели?
Anonymous Quiz
10%
Gini Impurity
8%
ROC-AUC Curve
8%
Cross-Validation
73%
Permutation Feature Importance
🤔 Какая функция используется для создания DataFrame в pandas?
Anonymous Quiz
94%
DataFrame()
2%
create_frame()
2%
make_dataframe()
2%
build_df()
🤔 Почему в картинках используют Standard Scaling вместо MinMax Scaling?

Standard Scaling (z-score normalization) чаще используется для обработки изображений, поскольку:
1. Он центрирует данные вокруг нуля и масштабирует их на основе стандартного отклонения, что улучшает производительность моделей, чувствительных к масштабам.
2. MinMax Scaling, преобразующий значения в диапазон [0, 1], может терять информацию о дисперсии пикселей.
3. Standard Scaling более устойчив к изменению контрастности и яркости изображений.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🔥1
🤔 Какой метод используется для повышения точности моделей путем создания ансамбля из нескольких моделей?
Anonymous Quiz
92%
Градиентный бустинг
6%
K-means
1%
Линейная регрессия
1%
Логистическая регрессия
🤔 Какой алгоритм используется для обнаружения выбросов в данных?
Anonymous Quiz
10%
K-means
68%
Isolation Forest
2%
Linear Regression
20%
PCA
🤔 Что такое градиентный спуск?

Градиентный спуск — это метод оптимизации, который используется для нахождения минимального значения функции ошибки модели путём итеративного изменения параметров модели (например, весов). На каждом шаге вычисляется градиент функции ошибки по параметрам, и параметры корректируются в направлении, противоположном градиенту. Шаг изменения регулируется параметром скорости обучения (learning rate). Градиентный спуск эффективен для обучения моделей с большим количеством параметров.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
👍2
🤔 Какой метод машинного обучения используется для классификации текстовых данных с учетом частотных характеристик слов?
Anonymous Quiz
88%
TF-IDF
2%
Линейная регрессия
2%
Decision Tree
8%
RNN