Data Science | Тесты
2.7K subscribers
29 photos
590 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 В чем отличия между loc и iloc?

В pandas `loc` используется для доступа по метке (label) индекса, а `iloc` — для доступа по числовому индексу, независимо от того, как промаркированы индексы.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод используется для кластеризации данных на основе иерархической структуры?
Anonymous Quiz
1%
Автоэнкодеры
88%
Иерархическая кластеризация
10%
Decision Tree
1%
Линейная регрессия
🤔 Какой метод используется для создания синтетических данных в малых выборках?
Anonymous Quiz
78%
SMOTE
6%
PCA
7%
DBSCAN
9%
Apriori
🤔 Что такое precision?

Precision (точность) — это метрика классификации, которая показывает долю правильных положительных предсказаний среди всех предсказанных положительных классов. Она рассчитывается как отношение количества истинно положительных предсказаний к сумме истинно положительных и ложно положительных. Precision важен, когда цена ложноположительных результатов высока. Высокое значение precision указывает на то, что модель почти не ошибается при предсказании положительного класса.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод уменьшения размерности используется для выделения признаков, сохраняющих максимум информации о данных?
Anonymous Quiz
77%
PCA
7%
LDA
3%
Isomap
14%
T-SNE
🤔 В чём смысл Information Value (IV)?

Это метрика, используемая для оценки предсказательной способности признака относительно целевой переменной.
1. Высокое значение IV говорит о сильной связи между признаком и целевой переменной.
2. Часто используется в кредитном скоринге для выбора наиболее значимых признаков.
3. Значения IV помогают определить, какие признаки следует включить в модель, а какие можно исключить.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод оценки используется для выявления мультиколлинеарности?
Anonymous Quiz
20%
T-test
21%
ANOVA
46%
VIF (Variance Inflation Factor)
13%
PCA
🤔 Какой метод используется для уменьшения мультиколлинеарности в регрессии?
Anonymous Quiz
77%
Lasso
10%
Bagging
8%
Gradient Boosting
5%
Grid Search
👍1
🤔 Чем отличается итератор от генератора?

Итератор — это объект с методами iter и next, позволяющий поочерёдно перебирать элементы. Генератор — это удобная форма итератора, создаваемая функцией с использованием yield, которая сохраняет своё состояние между вызовами. Итераторы требуют ручной реализации, а генераторы упрощают создание итераций.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
👍1
🤔 Какой алгоритм кластеризации минимизирует сумму квадратов расстояний внутри кластеров?
Anonymous Quiz
59%
K-means
26%
DBSCAN
5%
Agglomerative
10%
Mean-shift
🤔 Какой метод предотвращает переобучение, добавляя случайный шум в данные?
Anonymous Quiz
52%
Data augmentation
18%
Dropout
18%
L2 регуляризация
11%
Batch normalization
🤔 Зачем нужен метод dir для объектов?

Метод `dir()` в Python возвращает список атрибутов и методов объекта, что помогает разработчику понять структуру объекта и доступные ему функции.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод используется для обнаружения выбросов?
Anonymous Quiz
17%
K-means Clustering
17%
Principal Component Analysis
55%
Isolation Forest
11%
Feature Scaling
🤔 Какой метод оптимизации применяется для поиска минимума функции?
Anonymous Quiz
64%
SGD
30%
SGD
4%
v3. K-means
3%
DBSCAN
🤔6💊6
🤔 Чему равно p-value для выброса?

Это вероятность получить значение настолько же экстремальное, как наблюдаемое, при условии, что оно принадлежит общему распределению.
Чем меньше p-value, тем выше вероятность, что точка — выброс.
Значение зависит от метода (Grubbs, Dixon, Z-score и др.). Обычно, если p < 0.05, точка может считаться выбросом.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какая модель или техника используется для анализа временных рядов в Data Science?
Anonymous Quiz
6%
Линейная регрессия
86%
ARIMA
4%
SVM (Support Vector Machine)
4%
Градиентный бустинг
🤔 Какой алгоритм часто используется для предсказания непрерывных значений?
Anonymous Quiz
18%
Логистическая регрессия
71%
Линейная регрессия
9%
Случайный лес
3%
K-means
🤔 В каких случаях логистическая регрессия на задачах классификации будет работать лучше, чем случайный лес?

Логистическая регрессия может работать лучше, чем случайный лес, когда данные линейно разделимы или когда модель должна быть интерпретируемой. Логистическая регрессия проще и менее склонна к переобучению, особенно на небольших и чистых наборах данных. Случайный лес может давать более сложные предсказания, но при этом быть менее интерпретируемым. В задачах, где важна простота и скорость работы модели, логистическая регрессия может быть предпочтительнее.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
🤔 Какой метод помогает обнаружить выбросы в данных?
Anonymous Quiz
20%
PCA
68%
Isolation Forest
3%
Linear Regression
9%
SVM