Это ситуация, когда признаки сильно коррелируют друг с другом.
- Это вызывает нестабильность линейных моделей, так как коэффициенты могут становиться большими и неинтерпретируемыми.
- Решения: удаление зависимых признаков, PCA, L1-регуляризация (Lasso).
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
Anonymous Quiz
83%
Normalization
4%
K-means
11%
PCA
2%
Логистическая регрессия
Anonymous Quiz
48%
Bagging
35%
Boosting
6%
Gradient Descent
10%
Cross-Validation
Это SQL-функции, выполняющиеся по окну строк, но не сворачивающие их в одно значение.
- Используются с OVER().
- Примеры: ROW_NUMBER(), RANK(), LEAD(), LAG(), SUM() OVER(), AVG() OVER().
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
Anonymous Quiz
61%
Ridge Regression
28%
Lasso Regression
7%
Elastic Net
4%
Dropout
Anonymous Quiz
88%
ROC-кривая
6%
K-means
4%
PCA
2%
Линейная регрессия
Это алгоритм обновления весов в нейросети путем распространения ошибки от выхода к входу:
1. Прямой проход – данные проходят через сеть, вычисляя предсказания.
2. Вычисление ошибки – разница между предсказанием и истинным значением.
3. Обратное распространение ошибки – градиенты ошибки передаются назад через слои с помощью правила цепочки (chain rule).
4. Обновление весов – веса корректируются методом градиентного спуска.
Бэкпропагейшен – ключевой алгоритм, позволяющий обучать глубокие нейронные сети.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
Anonymous Quiz
67%
Naive Bayes
11%
K-means
6%
PCA
15%
Логистическая регрессия
👍1
Anonymous Quiz
28%
Ridge
41%
Lasso
14%
Elastic Net
17%
PCA
Это кривая, отображающая качество бинарного классификатора. Она строится по:
- True Positive Rate (TPR) – доля правильно предсказанных положительных классов.
- False Positive Rate (FPR) – доля неправильно предсказанных положительных классов.
AUC (Area Under Curve) – это площадь под ROC-кривой:
- AUC = 1.0 – идеальный классификатор.
- AUC = 0.5 – случайное угадывание.
- AUC < 0.5 – модель хуже случайного выбора.
AUC-ROC полезен для оценки качества предсказаний модели независимо от порога вероятности.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
💊2
Anonymous Quiz
62%
Bagging
24%
Boosting
9%
Gradient Descent
4%
Cross-Validation
Anonymous Quiz
86%
ARIMA
6%
K-means
2%
PCA
6%
Линейная регрессия
Процесс обучения модели машинного обучения включает:
1. Предобработку данных – нормализация, удаление выбросов, кодирование категориальных признаков.
2. Выбор модели – линейная регрессия, дерево решений, нейросети и т. д.
3. Разделение данных – обучение (train), валидация (validation), тестирование (test).
4. Оптимизация параметров – подбор коэффициентов с помощью градиентного спуска или других методов.
5. Оценка качества – использование метрик (MSE, Accuracy, ROC-AUC).
Модель обучается за счет минимизации функции потерь и корректировки параметров.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Anonymous Quiz
27%
Cross-Validation
39%
Bagging
11%
Early Stopping
24%
Dropout
🤔6
Anonymous Quiz
22%
Ridge
53%
Lasso
13%
Elastic Net
13%
PCA
🤔3
Это ансамблевый метод, который комбинирует множество слабых моделей (обычно деревьев решений) для улучшения качества предсказаний:
1. Первая модель предсказывает исходные данные, а остатки ошибок передаются следующей.
2. Каждое новое дерево обучается на ошибках предыдущих, уменьшая отклонения.
3. Градиентный спуск минимизирует ошибку, выбирая оптимальные веса.
4. Итоговое предсказание – это взвешенная сумма предсказаний всех деревьев.
Градиентный бустинг хорошо работает с нелинейными зависимостями и устойчив к выбросам.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
Anonymous Quiz
62%
Bagging
19%
Boosting
9%
Gradient Descent
11%
Pruning
Anonymous Quiz
38%
Bagging
44%
Boosting
14%
Stacking
3%
Pruning
Медиана менее чувствительна к выбросам, чем среднее (mean):
- Среднее (Mean) – учитывает все значения, поэтому искажается выбросами.
- Медиана (Median) – просто находит центральное значение в упорядоченном ряду, игнорируя крайние выбросы.
Медиана особенно полезна при распределении доходов, цен, длительностей и других данных с выбросами.
Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
Anonymous Quiz
57%
Dropout
4%
Early Stopping
37%
Batch Normalization
3%
Data Augmentation