Data Science | Тесты
2.51K subscribers
25 photos
348 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Как работает having?

`HAVING` в SQL используется для фильтрации результатов группировки, которые были созданы с помощью `GROUP BY`. В отличие от `WHERE`, который фильтрует строки до группировки, `HAVING` применяет фильтры уже после того, как данные были агрегированы. Это позволяет отфильтровывать группы на основе агрегатных функций, таких как `COUNT()`, `SUM()` или `AVG()`. Использование `HAVING` удобно, когда требуется отобрать только те группы, которые соответствуют определённым условиям.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🤔 Какой метод часто используется для обработки текстовых данных?
Anonymous Quiz
2%
Линейная регрессия
94%
TF-IDF
1%
Логистическая регрессия
3%
K-means
🤔 Какой метод часто применяют для анализа временных рядов?
Anonymous Quiz
86%
ARIMA
5%
K-means
2%
PCA
7%
Линейная регрессия
🤔 Как строится дерево?

Дерево решений строится путем рекурсивного деления данных на подмножества на основе наилучших признаков, которые уменьшают неопределенность (например, с использованием информации энтропии или критерия Джини). Каждый узел в дереве представляет решение на основе одного признака, а ветви — возможные исходы. Процесс деления продолжается до тех пор, пока все данные в узлах не будут однородными или не будет достигнуто ограничение глубины. Листья дерева содержат финальные предсказания для данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод используется для устранения мультиколлинеарности?
Anonymous Quiz
57%
Principal Component Analysis
19%
Cross-Validation
16%
Bootstrap
8%
Holdout Validation
🤔 Какой метод уменьшает переобучение, ограничивая норму градиентов?
Anonymous Quiz
8%
Dropout
35%
Batch Normalization
49%
Gradient Clipping
9%
Early Stopping
🤔 Что известно о ML дизайне?

ML-дизайн включает выбор модели, структуры данных, метрик и процесса обучения для конкретной задачи. Важные аспекты:
• Постановка задачи (классификация, регрессия, кластеризация).
• Подготовка данных (очистка, масштабирование, выделение признаков).
• Выбор и настройка модели, а также оптимизация гиперпараметров.
• Оценка результатов (использование метрик качества и валидации).


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
🤔 Какой алгоритм машинного обучения лучше всего подходит для обработки естественного языка?
Anonymous Quiz
2%
Линейная регрессия
3%
K-средних
5%
Случайный лес
90%
LSTM (Long Short-Term Memory)
🤔 Какая функция в pandas возвращает уникальные значения Series?
Anonymous Quiz
75%
unique
13%
nunique
10%
value_counts
2%
drop_duplicates
🤔 Что можешь сказать про оконные функции?

Оконные функции в SQL и в библиотеках анализа данных, таких как pandas, позволяют выполнять вычисления по подмножествам данных (окнам), которые связаны с текущей строкой. Это включает в себя операции, такие как суммирование, вычисление среднего, и другие статистические функции, применяемые к "окну" данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения используется для выявления аномалий путем создания модели на основе нормальных данных?
Anonymous Quiz
15%
Decision Tree
14%
Логистическая регрессия
28%
Автоэнкодеры
43%
One-Class SVM
🤔1
🤔 Какой метод машинного обучения используется для создания синтетических образцов в несбалансированных данных?
Anonymous Quiz
7%
Random Forest
84%
SMOTE
6%
Naive Bayes
2%
Decision Tree
🤔 У бинарного классификатора разделение данных такое, что 95% в одном классе, 5% в другом — какую метрику следует выбрать?

Лучше использовать F1-score, AUC-ROC или precision-recall, поскольку они учитывают дисбаланс классов и избегают искажений, связанных с accuracy.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения использует ядровые функции для работы с нелинейными данными?
Anonymous Quiz
3%
Линейная регрессия
5%
Логистическая регрессия
80%
Метод опорных векторов (SVM)
12%
K-means
🤔 Какой метод используется для нормализации данных, приводя их к стандартному нормальному распределению?
Anonymous Quiz
26%
Min-Max Scaling
66%
Z-score Normalization
4%
PCA
3%
LDA
🤔 Почему хорошо работает случайный лес?

Случайный лес работает хорошо, потому что он сочетает предсказания множества независимых деревьев решений, что снижает вероятность переобучения и увеличивает общую точность модели. Каждое дерево строится на случайной подвыборке данных и случайных признаках, что обеспечивает разнообразие моделей. За счёт этого случайный лес становится устойчивым к шуму и переобучению, предоставляя более стабильные и обобщающие предсказания. Модель также устойчива к выбросам и может эффективно работать с большим количеством признаков.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
🤔 Какой метод используется для выбора лучших признаков модели?
Anonymous Quiz
53%
PCA
24%
RFE
19%
LDA
4%
LDA
💊3
🤔 Какой метод уменьшает смещение и дисперсию в линейной регрессии?
Anonymous Quiz
8%
PCA
29%
Lasso
51%
Elastic Net
11%
Ridge
🤔 Сравнение архитектуры RNN, CNN, трансформера?

RNN обрабатывает данные последовательно и хорошо работает с временными рядами или текстами, но страдает от проблем с градиентами и плохо масштабируется. CNN извлекает локальные признаки через свёртки, изначально предназначен для изображений, но может применяться к тексту. Трансформер использует механизм внимания, обрабатывает всё параллельно и учитывает контекст целиком, что делает его эффективным в работе с языком и последовательностями.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод оценки моделей учитывает как сложность модели, так и ее способность обобщать данные?
Anonymous Quiz
19%
R-squared
21%
Cross-Validation
37%
AIC (Akaike Information Criterion)
23%
F1-Score