Data Science | Тесты
2.51K subscribers
25 photos
347 links
Cайт easyoffer.ru
Реклама @easyoffer_adv
ВП @easyoffer_vp

Вопросы собесов t.me/+RQVnIJT__Z42ZWUy
Вакансии t.me/+Ir52wMvyEgo5YWIy
Download Telegram
🤔 Что можешь сказать про оконные функции?

Оконные функции в SQL и в библиотеках анализа данных, таких как pandas, позволяют выполнять вычисления по подмножествам данных (окнам), которые связаны с текущей строкой. Это включает в себя операции, такие как суммирование, вычисление среднего, и другие статистические функции, применяемые к "окну" данных.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения используется для выявления аномалий путем создания модели на основе нормальных данных?
Anonymous Quiz
15%
Decision Tree
14%
Логистическая регрессия
28%
Автоэнкодеры
43%
One-Class SVM
🤔1
🤔 Какой метод машинного обучения используется для создания синтетических образцов в несбалансированных данных?
Anonymous Quiz
7%
Random Forest
84%
SMOTE
6%
Naive Bayes
2%
Decision Tree
🤔 У бинарного классификатора разделение данных такое, что 95% в одном классе, 5% в другом — какую метрику следует выбрать?

Лучше использовать F1-score, AUC-ROC или precision-recall, поскольку они учитывают дисбаланс классов и избегают искажений, связанных с accuracy.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения использует ядровые функции для работы с нелинейными данными?
Anonymous Quiz
3%
Линейная регрессия
5%
Логистическая регрессия
80%
Метод опорных векторов (SVM)
12%
K-means
🤔 Какой метод используется для нормализации данных, приводя их к стандартному нормальному распределению?
Anonymous Quiz
26%
Min-Max Scaling
66%
Z-score Normalization
4%
PCA
3%
LDA
🤔 Почему хорошо работает случайный лес?

Случайный лес работает хорошо, потому что он сочетает предсказания множества независимых деревьев решений, что снижает вероятность переобучения и увеличивает общую точность модели. Каждое дерево строится на случайной подвыборке данных и случайных признаках, что обеспечивает разнообразие моделей. За счёт этого случайный лес становится устойчивым к шуму и переобучению, предоставляя более стабильные и обобщающие предсказания. Модель также устойчива к выбросам и может эффективно работать с большим количеством признаков.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1
🤔 Какой метод используется для выбора лучших признаков модели?
Anonymous Quiz
53%
PCA
24%
RFE
19%
LDA
4%
LDA
💊3
🤔 Какой метод уменьшает смещение и дисперсию в линейной регрессии?
Anonymous Quiz
8%
PCA
29%
Lasso
51%
Elastic Net
11%
Ridge
🤔 Сравнение архитектуры RNN, CNN, трансформера?

RNN обрабатывает данные последовательно и хорошо работает с временными рядами или текстами, но страдает от проблем с градиентами и плохо масштабируется. CNN извлекает локальные признаки через свёртки, изначально предназначен для изображений, но может применяться к тексту. Трансформер использует механизм внимания, обрабатывает всё параллельно и учитывает контекст целиком, что делает его эффективным в работе с языком и последовательностями.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🤔 Какой метод оценки моделей учитывает как сложность модели, так и ее способность обобщать данные?
Anonymous Quiz
19%
R-squared
21%
Cross-Validation
37%
AIC (Akaike Information Criterion)
23%
F1-Score
🤔 Какой метод уменьшает дисперсию, сохраняя важные признаки?
Anonymous Quiz
22%
Ridge
32%
Lasso
14%
Elastic Net
32%
PCA
💊4🤔3
🤔 Какие есть детекторы и архитектуры в CV?

Классические: SIFT, HOG. Современные архитектуры: YOLO, SSD, Faster R-CNN для детекции объектов, U-Net, DeepLab для сегментации.


Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔 Какой метод машинного обучения подходит для задачи предсказания категории текстовых документов?
Anonymous Quiz
14%
Decision Tree
19%
Support Vector Machine (SVM)
45%
Recurrent Neural Network (RNN)
22%
Latent Dirichlet Allocation (LDA)
🤔 Какой метод использует энтропию для разбиения узлов в деревьях решений?
Anonymous Quiz
26%
Gini
6%
Chi-square
44%
Entropy
24%
Information Gain
🤔 Что такое метод максимизации правдоподобия?

Метод максимизации правдоподобия — это статистический метод, используемый для оценки параметров вероятностной модели. Он основан на максимизации функции правдоподобия, которая измеряет, как хорошо параметры модели соответствуют наблюдаемым данным.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2💊1
🤔 Какую задачу решает метод главных компонент (PCA)?
Anonymous Quiz
10%
Кластеризация
2%
Регрессия
85%
Уменьшение размерности
4%
Классификация
🤔 Какой метод уменьшает дисперсию в модели, уменьшая переобучение?
Anonymous Quiz
27%
Cross-Validation
43%
Bagging
10%
Early Stopping
21%
Dropout
💊1
🤔 Чем отличается итератор от генератора?

Итератор — это объект с методами iter и next, позволяющий поочерёдно перебирать элементы. Генератор — это удобная форма итератора, создаваемая функцией с использованием yield, которая сохраняет своё состояние между вызовами. Итераторы требуют ручной реализации, а генераторы упрощают создание итераций.

Ставь 👍 если знал ответ, 🔥 если нет
Забирай 📚Базу Знаний
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1🤔1
🤔 Какой алгоритм используется для анализа текстовых данных и определения схожести между документами?
Anonymous Quiz
12%
K-ближайших соседей
74%
ТF-IDF
3%
Линейная регрессия
10%
Naive Bayes