Библиотека собеса по Data Science | вопросы с собеседований

Когда стоит использовать пост-прунинг вместо прекрашения роста дерева (pre-pruning)?➡️

Anonymous Quiz

10%

Когда важно уменьшить вычислительные затраты

78%

Когда нужно позволить дереву сначала выучить все закономерности, а потом удалить лишние ветви

Когда у нас мало данных

Когда дерево не может переобучиться

❤1

129 voters722 views10:46

Библиотека собеса по Data Science | вопросы с собеседований

🖤 ЧЕРНАЯ ПЯТНИЦА: СКИДКА 40%

Что общего между Black Friday и подготовкой к собесам? Оба случаются раз в год, и оба нельзя пропустить! 😎

🔥 Курсы со скидкой 40% до конца ноября:

🐍 Python
📐 Математика
🤖 AI
🔢 Алгоритмы и структуры

Пока другие покупают кофемашины и телевизоры, инвестируй в себя📈

707 views15:25

Библиотека собеса по Data Science | вопросы с собеседований

Почему стандартная k-fold кросс-валидация плохо подходит для временных рядов?

Anonymous Quiz

Потому что данные могут быть не IID (независимыми и одинаково распределёнными)

90%

Потому что нарушается временной порядок и происходит утечка данных из будущего

Потому что k слишком маленькое

Потому что нельзя использовать метрику AUC

👍1

172 voters751 views16:38

Библиотека собеса по Data Science | вопросы с собеседований

Если при кросс-валидации модель показывает очень разные результаты на разных фолдах, а на тесте — низкую ошибку, что это может значить?

Anonymous Quiz

12%

Недостаток данных

49%

Сильная зависимость модели от случайных разбиений данных

31%

Модель сильно переобучена на один из фолдов

Модель недообучена

👍2❤1

537 voters2.31K views18:59

Библиотека собеса по Data Science | вопросы с собеседований

Почему комбинация методов калибровки (например, Temperature Scaling + Isotonic Regression) может ухудшить итоговую калибровку?

Anonymous Quiz

Потому что методы несовместимы по математике

46%

Потому что вторая калибровка заново масштабирует логиты

31%

Потому что каждая трансформация может переобучиться на ограниченной валидационной выборке

18%

Потому что избыточная гладкость ухудшает дискретизацию вероятностей

112 voters670 views19:05

Библиотека собеса по Data Science | вопросы с собеседований

📊 Задача с собеседования

Имеются данные о продажах за последние 12 месяцев. Требуется оценить наличие линейной зависимости между количеством заключённых сделок и объёмом выручки, а также построить прогноз выручки при достижении 150 сделок.

Если не понимаете с какой стороны подступиться к задаче, то пора подтянуть математику.

🎓 Именно этому посвящен курс экспресс-курс «Математика для Data Science» от Proglib Academy:

— работа с векторами и матрицами;
— линейная регрессия и метод наименьших квадратов;
— вероятности, распределения, статистика;
— и многое другое.

⏳ Старт: 4 декабря
🔥 Скидка: 40% до конца ноября

👉 Подключиться к курсу

691 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Почему добавление слишком большого momentum-параметра β в стохастическом градиенте может ухудшить обучение при очень шумных данных?

Anonymous Quiz

66%

Потому что накопленные скорости усиливают шум в направлении обновлений

11%

Потому что momentum уменьшает размер шага

16%

Потому что β влияет на регуляризацию

Потому что градиенты перестают зависеть от потерь

❤1

148 voters788 views20:45

Библиотека собеса по Data Science | вопросы с собеседований

Почему средняя AUC по схемам One-vs-One может быть выше, чем One-vs-Rest, даже при тех же данных?

Anonymous Quiz

12%

One-vs-One использует меньше данных

42%

One-vs-One игнорирует редкие классы, что делает задачу легче

One-vs-One всегда лучше по теории

43%

One-vs-Rest вычисляет AUC только по одному классу

163 voters818 views19:54

Библиотека собеса по Data Science | вопросы с собеседований

Почему дрейф данных может улучшить общую метрику, но ухудшить fairness?

Anonymous Quiz

Fairness всегда ухудшается

Новые данные всегда проще

89%

Улучшение для majority класса может “перекрыть” ухудшение для minority класса

Общая метрика и fairness — одно и то же

138 voters798 views18:43

Библиотека собеса по Data Science | вопросы с собеседований

Почему избыточный pre-pruning может ухудшить способность дерева разделять данные на важных малых подгруппах?

Anonymous Quiz

Дерево перестаёт быть бинарным

12%

Pre-pruning уменьшает impurity

82%

Pre-pruning отбрасывает потенциально полезные поздние разветвления

Pre-pruning увеличивает количество листьев

❤1

142 voters816 views18:51

Библиотека собеса по Data Science | вопросы с собеседований

Почему boosting может ухудшать устойчивость к шумным меткам?

Anonymous Quiz

Boosting использует L1-регуляризацию

27%

Boosting всегда уменьшает bias

60%

Boosting усиливает вес самых трудных примеров, включая ошибочные

Boosting не использует стохастичность

❤1

194 voters828 views19:30

Библиотека собеса по Data Science | вопросы с собеседований

Почему две модели с одинаковой AUC могут иметь радикально разное качество при фиксированном пороге?

Anonymous Quiz

34%

AUC учитывает только плотность ошибок, но не их порядок

AUC интегрирует производные

16%

AUC игнорирует низкие FPR

49%

AUC не учитывает форму распределения предсказаний

❤4

195 voters783 views19:50

Библиотека собеса по Data Science | вопросы с собеседований

Почему применение стандартного PCA напрямую к временным рядам может потерять критическую информацию?

Anonymous Quiz

64%

PCA игнорирует автокорреляцию и порядок во времени

11%

PCA всегда уменьшает дисперсию

PCA требует больше данных, чем временных точек

20%

PCA ломает стационарность ряда

👍2❤1

184 voters771 views18:39

Библиотека собеса по Data Science | вопросы с собеседований

Почему полностью удалять признаки с большим количеством пропусков не всегда лучший выбор?

Anonymous Quiz

Пропуски всегда случайны

95%

Пропуски могут содержать скрытый сигнал, отражающий поведение системы

Импутация всегда хуже удаления

Алгоритмы не умеют работать с NaN

❤1👍1

217 voters692 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

Почему embeddings дают преимущество над one-hot представлениями при больших словарях?

Anonymous Quiz

91%

Embeddings компактны и отражают семантическую близость между токенами

Embeddings не требуют обучения

One-hot быстрее в вычислении градиентов

One-hot всегда лучше для небольших наборов данных

❤1👍1

199 voters602 views08:38

Библиотека собеса по Data Science | вопросы с собеседований

PCA возвращает ортогональные компоненты. Можно ли утверждать, что они всегда независимы?

Anonymous Quiz

34%

Да, ортогональность гарантирует независимость

55%

Нет, компоненты могут быть некоррелированными, но не независимыми

Только если данные нормальны

Только после масштабирования признаков

❤1

458 voters1.9K views07:12

Библиотека собеса по Data Science | вопросы с собеседований

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Митап RecSys в Питере — must-have для всех, кто создаёт интеллектуальные рекомендательные системы 🧑‍💻

1 декабря встречаемся в инновационном пространстве — Технохабе Сбера (ул. Уральская, д. 1, Литера Ч) — и на стыке науки и бизнеса обсуждаем, как уже сейчас AI меняет подход к персонализации.

Вместе с Дмитрием Бугайченко — CDS B2C Сбера — и топовыми экспертами индустрии мы погрузимся в актуальные тренды и технологии RecSys, познакомимся с новыми рекомендациями Самоката и универсальными рекомендациями Okko, а также узнаем о построении рекомендателя в платёжных сервисах ЮMoney.

Регистрируйтесь , пока места ещё есть — и готовьтесь к погружению в мир рекомендательных систем!

❤2🔥2⚡1👏1

594 viewsedited 14:59

Библиотека собеса по Data Science | вопросы с собеседований

Почему использование bidirectional LSTM может быть не всегда полез?

Anonymous Quiz

Время обучения сокращается

64%

Будущие контексты могут утечь в прошлое, создавая информационный шум

32%

Требует больше параметров и может переобучаться, особенно если задача не зависит от будущих шагов

Bidirectional LSTM заменяет все gating механизмы

❤1

151 voters573 views17:37

Библиотека собеса по Data Science | вопросы с собеседований

🎄 С Нового года начну учиться — знакомо?

А потом январь — освоюсь после праздников, февраль — доделаю текущие дела... Не откладывай на следующий год то, что можно начать уже в этом.

🗓️ 4 декабря стартует экспресс-курс «Математика для Data Science»— всё, что нужно для уверенных ответов на собесах:

→ 2 месяца без воды;
→ обновлённая программа (ноябрь 2025);
→ живые вебинары с экспертами;
→ записи всех занятий;
→ практика на Python + финальный проект с фидбэком.

Формат: 2 месяца интенсива и к началу следующего года ты готов к собесам.

Пока другие будут собираться с мыслями после НГ, ты уже будешь на полпути к офферу мечты.

🎁 Только до 30 ноября:

→ скидка 40% на курс;
→ курс «Базовая математика» в подарок;
→ бесплатный тест уровня математики.

👉🏻 Хочешь на курс → пиши менеджеру

634 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Почему adaptive оптимизаторы (Adam, RMSProp) иногда хуже SGD на тестовой выборке?

Anonymous Quiz

86%

Адаптивные шаги ускоряют обучение, но иногда приводят к узким минимумам, плохо обобщающимся

Адаптивные оптимизаторы всегда лучше

SGD не может сходиться на больших данных

Adam не использует градиенты

160 voters566 views08:18

Библиотека собеса по Data Science | вопросы с собеседований

Почему обычная k-fold кросс-валидация не подходит для временных рядов?