Библиотека собеса по Data Science | вопросы с собеседований
4.42K subscribers
492 photos
14 videos
1 file
614 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
Вы обучили модель градиентного бустинга предсказывать вероятность поломки. Она показывает отличный ROC-AUC, но бизнес жалуется: модель выдает 0.8, а в реальности поломка происходит в 40%.

Какой инструмент позволяет визуально оценить это несоответствие?
Anonymous Quiz
63%
Confusion Matrix
19%
Reliability Diagram
6%
Elbow Method
12%
Learning Curve
🤔5👍1
Ты строишь модель, предсказывающую, вернет ли клиент банковский кредит. В твоем наборе данных есть признак «Сумма выплаченных процентов». На обучении модель показывает идеальный результат. Почему этот признак является классическим примером Target Leakage?
Anonymous Quiz
13%
Сумма процентов слишком сильно коррелирует с доходом клиента
1%
Этот признак имеет слишком много пропущенных значений (NaN)
86%
Значение этого признака известно только после того, как кредит уже выдан и начал погашаться
0%
Модели сложно обрабатывать дробные числа в этом признаке
👍1
Хард-скилл, который будут спрашивать в 2026 году

Умение обучить модель — база. Умение завернуть её в автономного агента, работающего с инструментами — конкурентное преимущество. Курс «Разработка ИИ-агентов» уже стартовал.

Что прокачаем:

— построение RAG-систем с векторными БД;
— оркестрацию через LangGraph;
— понимание агентной архитектуры и ReAct.

Первая лекция доступна бесплатно. Отличный шанс подтянуть теорию для собеседований.

Записаться

Смотреть лекцию
Ты обучаешь лин.регрессию на данных с огромным количеством признаков, многие из них бесполезны. Нужно, чтобы модель не просто уменьшила веса плохих признаков, а полностью занулила их, выполнив автоматический отбор.

Какой тип регуляризации нужно выбрать?
Anonymous Quiz
63%
L1-регуляризация (Lasso)
21%
L2-регуляризация (Ridge)
4%
Elastic Net
11%
Dropout
👍21
«Расскажите про ваш опыт с Agentic RAG» — стандартный вопрос собеседования

Рынок DS в 2026 году требует большего, чем знание torch и pandas. Компании ищут инженеров, умеющих строить автономные системы, способные решать задачи без участия человека.

На курсе мы даём то, что требуют на позициях Senior AI Engineer. Мы разбираем реальные задачи: как оценивать качество генерации (LLM-as-a-Judge), как строить мультиагентные системы и выводить это в прод.

Темы для вашего резюме:

— Orchestration: LangGraph, LangChain.
— Retrieval: Hybrid Search, Reranking, GraphRAG.
— Fine-tuning: адаптация моделей под специфику агента.
— Evaluation: метрики качества для генеративных моделей.

Подготовиться к собеседованиям нового уровня
Представь, что ты обучаешь модель предсказывать стоимость квартир. Первое дерево предсказало 10 млн ₽, а реальная цена — 12 млн ₽. Ошибка (остаток) составила 2 млн ₽.

Что будет делать второе дерево в алгоритме градиентного бустинга?
Anonymous Quiz
10%
Снова будет предсказывать цену квартиры (12 млн ₽), но на другой выборке
81%
Будет предсказывать не цену, а ошибку первого дерева (эти самые 2 млн ₽)
3%
Будет предсказывать среднюю цену всех квартир в базе
7%
Попробует предсказать, было ли первое дерево право или нет (классификация)
1
Представь, что у тебя есть облако точек в 2D (два признака: рост и вес), которое вытянуто вдоль одной линии. Ты хочешь сжать эти данные в 1D, чтобы не потерять структуру данных.

Как PCA выбирает направление для этой новой оси (первой главной компоненты)?
Anonymous Quiz
2%
Это ось, которая делит количество точек ровно пополам
4%
Это один из исходных признаков, у которого меньше всего пропущенных значений
62%
Это направление, вдоль которого данные имеют максимальную самый большой разброс
32%
Это ось, которая проходит через среднее значение всех точек и перпендикулярна самой длинной стороне
4
K-means работает итеративно: сначала он ставит случайные точки (центроиды), а затем двигает их, пока они не окажутся в центрах своих групп.

На каждом шаге происходят две вещи. Какая из них описывает процесс обновления координат центроида?
Anonymous Quiz
4%
Каждый объект данных притягивается к самому дальнему от него центроиду
83%
Центроид перемещается в точку со средними координатами всех объектов кластера
4%
Центроид удаляется, если в его радиусе оказалось меньше 5 объектов
8%
Координаты центроида выбираются случайным образом из исходного набора данных
3
В отличие от K-means, где мы заранее задаем K, в DBSCAN мы задаем «правила соседства»: радиус поиска и минимальное количество соседей.

Как DBSCAN поступает с точкой, у которой в радиусе слишком мало соседей, и она не является соседом «плотной» группы?
Anonymous Quiz
12%
Принудительно прикрепляет её к самому близкому большому кластеру
72%
Помечает её как «Noise» (шум/выброс) и не включает ни в один кластер
14%
Создает для этой точки отдельный кластер из одного элемента
2%
Удаляет эту точку из датасета навсегда
👍3
Представь, что мы используем агломеративный подход. В начале каждая точка — это отдельный кластер. Затем алгоритм попарно объединяет близкие точки в группы, пока всё не превратится в один кластер. Как называется график, который визуализирует этот процес?
Anonymous Quiz
4%
Гистограмма
28%
Диаграмма рассеяния
61%
Дендрограмма
6%
Тепловая карта
2
Ты создаешь рек-ную систему для статей. Ты хочешь понять, насколько статья А похожа на Б по смыслу. Для этого ты превращаешь тексты в векторы.

Какую метрику используют, чтобы измерить «близость» векторов, если важно направление интересов пользователя?
Anonymous Quiz
10%
Евклидово расстояние
10%
Коэффициент корреляции Пирсона
79%
Косинусное сходство
1%
Сумма всех слов в тексте
👍1
У тебя есть датасет, где на 1000 «хороших» примеров приходится всего 10 «плохих». Тебе нужно обучить классификатор. Какой метод генерации новых данных (Oversampling) создаёт синтетические примеры редкого класса, а не просто дублирует существующие?
Anonymous Quiz
16%
Random Oversampling
69%
SMOTE
10%
Undersampling
5%
Кластеризация K-means
👍42
Самый популярный метод — K-Fold.

Однако есть ситуация, когда обычный K-Fold нельзя использовать. О каком типе данных идет речь?
Anonymous Quiz
3%
Данные с картинками высокого разрешения
13%
Данные с большим количеством пропусков
78%
Временные ряды
7%
Данные, в которых признаков больше, чем строк
Представь, что ты строишь модель предсказания спроса на доставку еды. У тебя есть столбец с датой заказа: 2026-02-16 19:30:00. Если ты оставишь его в таком виде, модель ничего не поймет.

Какое преобразование этого признака принесет пользу для модели?
Anonymous Quiz
17%
Превратить дату в количество секунд, прошедших с 1 января 1970 года (Unix Timestamp)
78%
Извлечь циклические признаки: «День недели» (Is_Weekend) и «Час суток» (Обед/Ужин)
1%
Просто удалить дату, так как это не числовой признак
5%
Заменить каждую дату на порядковый номер дня в году (от 1 до 365)
Главный секрет трансформеров — механизм Self-Attention (внимания к себе). Представь предложение: «Банк закрыли, потому что он был ограблен».

Как механизм внимания помогает модели понять, к чему относится слово «он»?
Anonymous Quiz
2%
Модель просто выбирает ближайшее слово слева и справа
93%
Модель вычисляет математическую связь между словом «он» и всеми остальными словами в предложении
4%
Модель ищет слово «он» в специальном словаре и присваивает оценку
1%
Это заложено в код программистами вручную для каждого случая
🤩2
Вопрос с собеседования: «Как вы обеспечите стабильность AI-агента в проде?»

Если вы начнёте говорить про промпт-инжиниринг, вас не наймут. Правильный ответ включает: метрики, трейсинг, RAG-пайплайны и управление ресурсами. Этому мы учим на обновлённом курсе

«Разработка AI-агентов».
Разбираем на практике:

🔹 Архитектура. LangGraph, state-management, time-travel отладка.

🔹 RAG. Работа со сложными документами и таблицами.

🔹 Ops. Логирование, мониторинг затрат и качества.

Стартуй сейчас!
Материалы доступны сразу после покупки.

🎟 Промокод Agent — скидка 10 000 ₽ (до 28 февраля).

👉 Подготовиться к реальным задачам
Как математически изменяется размерность тензора на выходе одного блока Scaled Dot-Product Attention по сравнению с входным тензором (при условии, что d_{model} остается неизменной)?
Anonymous Quiz
19%
Размерность увеличивается в 3 раза (из-за Q, K, V)
34%
Размерность не меняется
29%
Размерность зависит от количества голов (heads)
17%
Размерность уменьшается до вектора скаляров
😢4👍1
Ваша модель предсказания спроса на куртки стала работать хуже. Вы заметили, что распределение температур в этом году сильно изменилось по сравнению с прошлым. Как называется этот тип деградации?
Anonymous Quiz
19%
Concept Drift (сдвиг концепции)
77%
Data Drift (сдвиг данных)
1%
Насыщение модели
3%
Overfitting (переобучение)
Почему джуны-датасайентисты не могут вывести LLM в прод?

На собеседованиях кандидаты отлично рассказывают про эмбеддинги и трансформеры. Но когда их просят спроектировать отказоустойчивую систему, контролировать бюджет на токены или настроить RAG по сканам — они сыпятся.

Мы пересобрали курс по AI-агентам. Фокус смещён с теории на суровый инжиниринг: метрики, предотвращение регрессий и экономику агентов. Это знания, которые сейчас требуют от Middle+ DS.

Что в программе для прокачки:

🔹 промышленный RAG: обработка таблиц, сканов и специализированный поиск;
🔹 архитектура агентов: LangGraph, перемотка времени (time-travel) и контрольные точки;
🔹 контроль затрат: ограничение времени исполнения ресурсов, динамический роутинг;
🔹 интеграции: работа агентов с legacy-интерфейсами и браузером;
🔹 комплаенс: развёртывание LLM-решений с соблюдением 152-ФЗ.

Забирайте скидку 10 000 рублей по промокоду Agent (до 28 февраля).

Используйте акцию «3 курса по цене 1», чтобы забрать ещё два курса бесплатно.

Подготовиться к реальному продакшну