Библиотека собеса по Data Science | вопросы с собеседований

Вопрос на собеседовании: «В чём разница между классическим RAG и Agentic RAG?»

Если не знаете ответ — пора на курс. Сегодня в 19:00 МСК мы начинаем разбирать архитектуру автономных систем с нуля до продакшена.

Подготовим вас к сложным вопросам по AI:

— механизмы планирования в агентах;
— работа с памятью и контекстом;
— мультиагентная оркестрация;
— методы оценки faithfulness и relevancy ответов.

Подготовиться к офферу

👍1

772 views15:19

Библиотека собеса по Data Science | вопросы с собеседований

Ты участвуешь в Kaggle соревновании. Тебе дали train набор и test. Ты подозреваешь, что данные в тесте «пришли из другого мира» (например, из другого временного периода).

Чтобы проверить, ты используешь Adversarial Validation. В чем суть метода?

Anonymous Quiz

42%

Ты обучаешь классификатор «Train vs Test»: если ROC-AUC высокий, выборки различаются.

Ты просишь генератор сделать фейковые данные и пытаешься их классифицировать.

24%

Ты сравниваешь средние значения всех признаков в Train и Test и удаляешь те, где разница больше 10%

27%

Ты объединяешь Train и Test, перемешиваешь их и заново разбиваешь на фолды, чтобы «усреднить» ошибку

❤2👍2

208 voters824 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите логистическую регрессию для предсказания оттока клиентов. В вашем наборе данных есть признаки, которые сильно коррелируют между собой. Вы решаете проверить их с помощью VIF.

Для одного из признаков вы получили VIF = 12. Что это означает?

Anonymous Quiz

12%

Ошибка модели на этом признаке составляет 12%, что является допустимым порогом в Data Science

11%

Признак распределен по закону Пуассона, что нарушает требования нормальности логистической регрессии

69%

Признак сильно зависит от других независимых переменных, оценка его коэффициента ненадежна

Признак имеет очень низкую предсказательную силу, и его нужно заменить на случайный шум

👍4

169 voters799 views18:22

Библиотека собеса по Data Science | вопросы с собеседований

Вас точно спросят про AI-агентов на следующем собеседовании

В 2026 году знание только градиентного бустинга — это база. Компании ищут тех, кто умеет внедрять LLM в продакшн через агентские архитектуры и понимает разницу между LangGraph и обычным чейнингом.

Подготовьтесь к техническим вопросам на курсе «Углубленные AI-агенты».

Что вы добавите в резюме:

— навык проектирования мультиагентных систем;
— опыт работы с актуальными фреймворками CrewAI и AutoGen;
— понимание методов масштабирования ИИ-решений;
— готовый сквозной проект в портфолио.

Курс уже идет, залетайте, пока есть места.

🚀 Записаться на основной курс

Если сомневаетесь — просто посмотрите вводное занятие.

❤2

757 views15:02

Библиотека собеса по Data Science | вопросы с собеседований

Какое априорное распределение обычно берут для вероятности успеха при биномиальных данных, чтобы использовать сопряжённость и получить апостериорное распределение аналитически?

Anonymous Quiz

46%

Распределение Пуассона

26%

Бета-распределение (Beta distribution)

21%

Распределение Стьюдента

Экспоненциальное распределение

👍1

196 voters759 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Продажи мороженого растут каждый год, есть сезонность: пик в июле, спад в январе, причём амплитуда сезонных колебаний увеличивается вместе с ростом общего уровня продаж.

Какую модель выбрать?

Anonymous Quiz

37%

Аддитивную модель: Y(t) = Trend + Seasonality + Noise

47%

Мультипликативную модель: Y(t) = Trend × Seasonality × Noise

Линейную регрессию по времени без учета сезонности

15%

Скользящее среднее с окном в 12 месяцев для удаления всех колебаний

❤1👍1

215 voters767 views18:33

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос на $5k: «Как работает память в AI-агентах?»

Если ответите «просто векторная база» — провал. Векторная база — это знания, а память — это контекст. Правильный ответ включает архитектуру управления состоянием (State Management).

В LangGraph это реализовано через граф:

— состояние (State) передаётся между узлами;
— агент может «забывать» или «резюмировать» контекст;
— циклы позволяют уточнять информацию.

Разберитесь в деталях на нашем курсе.

Записаться на курс

Вводная лекция бесплатно

😁1

718 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

Ты работаешь с временным рядом ежедневных транзакций банка. Визуально есть тренд. Чтобы применить модель ARIMA, нужно убедиться, что ряд стационарен. Ты запускаешь расширенный тест Дики-Фуллера. Результат: p-value = 0.42. Что нужно сделать следующим?

Anonymous Quiz

45%

Применить операцию дифференцирования, т.к. p-value говорит о единичном корне (ряд нестационарен)

31%

Ничего, p-value достаточно велик, чтобы считать ряд стационарным и приступать к прогнозу

16%

Удалить все выбросы, так как именно они завышают p-value в тесте Дики-Фуллера

Перейти к использованию нейросетей (LSTM), так как они не требуют стационарности данных

👍4

160 voters778 views18:46

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что у тебя есть выборка из 1000 заказов, и тебе нужно найти 95% доверительный интервал для медианы чека. Математической формулы для интервала медианы «из коробки» (как для среднего) нет.

Как работает классический Non-parametric Bootstrap?

Anonymous Quiz

Мы генерируем новые данные из нормального распределения с такими же средним и дисперсией

72%

Мы многократно извлекаем выборки того же размера из данных with replacement и вычисляем медиану

14%

Мы делим выборку на 10 частей (фолдов), как в кросс-валидации, и считаем разброс между ними

Мы просто берем 2.5% самых маленьких и 2.5% самых больших значений из исходной выборки

👍2❤1

169 voters814 views18:26

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос с собеседования 2026: RAG vs Agentic RAG

На сеньорских позициях теперь спрашивают не просто про векторные базы, а про архитектуру агентов.

В чём отличие?

Обычный RAG: Нашёл документы → Сгенерировал ответ.

Agentic RAG (на LangGraph): Оценил вопрос → Спланировал поиск → Проверил найденное → (если плохо) Переформулировал запрос и искал снова.

Умение строить такие системы с циклами и состоянием — главный навык года. Мы учим этому на курсе.

Записаться на курс

Подготовка к вопросам по архитектуре: Смотрите вводный урок бесплатно.

860 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Ты планируешь A/B-тест. Чтобы убедиться, что твой калькулятор p-value и система сплитования корректны, ты запускаешь A/A-тест: делишь трафик на 2 группы, но обеим показываешь одинаковый вариант сайта. Что является признаком проблемы при анализе A/A-теста?

Anonymous Quiz

10%

Конверсия в обеих группах оказалась ниже ожидаемой

Средние значения в группах А и А практически совпали

63%

Если при многократном повторении A/A-тестов распределение p-value не является равномерным

17%

Значение p-value получилось равным 0.5

👍1

203 voters893 views17:34

Библиотека собеса по Data Science | вопросы с собеседований

Вы проводите тест в online-магазине. В тест группу случайно попал оптовый закупщик, который купил товара на 1000000₽, в то время как обычный чек — 2000₽. Это завысило среднее в группе. Какой метод наиболее корректен для снижения влияния таких выбросов?

Anonymous Quiz

26%

Использование логарифмирования целевой метрики (Log-transformation)

72%

Винзоризация: замена значений выше 99-го перцентиля значением этого самого 99-го перцентиля

Увеличение длительности теста в 10 раз

Переход от среднего к сумме всех чеков

👍2

207 voters865 views19:16

Библиотека собеса по Data Science | вопросы с собеседований

Проблема A/B-тестов — дисперсия. Пользователи разные: кто-то всегда тратит много, кто-то мало.

CUPED использует данные о пользователях, собранные до начала теста. Каким образом он уменьшает дисперсию?

Anonymous Quiz

50%

Он вычитает из текущего значения метрики предсказуемую по прошлому часть

25%

Он просто удаляет из теста пользователей, которые вели себя нестабильно в прошлом

Он увеличивает размер выборки в два раза путем дублирования данных

18%

Он заменяет текущие данные средними значениями за прошлый месяц

👍1

181 voters852 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучили модель градиентного бустинга предсказывать вероятность поломки. Она показывает отличный ROC-AUC, но бизнес жалуется: модель выдает 0.8, а в реальности поломка происходит в 40%.

Какой инструмент позволяет визуально оценить это несоответствие?

Anonymous Quiz

🤔5👍1

247 voters844 views18:43

Библиотека собеса по Data Science | вопросы с собеседований

Ты строишь модель, предсказывающую, вернет ли клиент банковский кредит. В твоем наборе данных есть признак «Сумма выплаченных процентов». На обучении модель показывает идеальный результат. Почему этот признак является классическим примером Target Leakage?

Anonymous Quiz

13%

Сумма процентов слишком сильно коррелирует с доходом клиента

Этот признак имеет слишком много пропущенных значений (NaN)

86%

Значение этого признака известно только после того, как кредит уже выдан и начал погашаться

Модели сложно обрабатывать дробные числа в этом признаке

👍1

221 voters816 views18:13

Библиотека собеса по Data Science | вопросы с собеседований

Хард-скилл, который будут спрашивать в 2026 году

Умение обучить модель — база. Умение завернуть её в автономного агента, работающего с инструментами — конкурентное преимущество. Курс «Разработка ИИ-агентов» уже стартовал.

Что прокачаем:

— построение RAG-систем с векторными БД;
— оркестрацию через LangGraph;
— понимание агентной архитектуры и ReAct.

Первая лекция доступна бесплатно. Отличный шанс подтянуть теорию для собеседований.

Записаться

Смотреть лекцию

798 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Ты обучаешь лин.регрессию на данных с огромным количеством признаков, многие из них бесполезны. Нужно, чтобы модель не просто уменьшила веса плохих признаков, а полностью занулила их, выполнив автоматический отбор.

Какой тип регуляризации нужно выбрать?

Anonymous Quiz

63%

L1-регуляризация (Lasso)

21%

L2-регуляризация (Ridge)

Elastic Net

11%

Dropout

👍2❤1

250 voters754 views17:02

Библиотека собеса по Data Science | вопросы с собеседований

«Расскажите про ваш опыт с Agentic RAG» — стандартный вопрос собеседования

Рынок DS в 2026 году требует большего, чем знание torch и pandas. Компании ищут инженеров, умеющих строить автономные системы, способные решать задачи без участия человека.

На курсе мы даём то, что требуют на позициях Senior AI Engineer. Мы разбираем реальные задачи: как оценивать качество генерации (LLM-as-a-Judge), как строить мультиагентные системы и выводить это в прод.

Темы для вашего резюме:

— Orchestration: LangGraph, LangChain.
— Retrieval: Hybrid Search, Reranking, GraphRAG.
— Fine-tuning: адаптация моделей под специфику агента.
— Evaluation: метрики качества для генеративных моделей.

Подготовиться к собеседованиям нового уровня

779 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что ты обучаешь модель предсказывать стоимость квартир. Первое дерево предсказало 10 млн ₽, а реальная цена — 12 млн ₽. Ошибка (остаток) составила 2 млн ₽.

Что будет делать второе дерево в алгоритме градиентного бустинга?

Anonymous Quiz

10%

Снова будет предсказывать цену квартиры (12 млн ₽), но на другой выборке

81%

Будет предсказывать не цену, а ошибку первого дерева (эти самые 2 млн ₽)

Будет предсказывать среднюю цену всех квартир в базе

Попробует предсказать, было ли первое дерево право или нет (классификация)

❤1

238 voters834 views17:06

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что у тебя есть облако точек в 2D (два признака: рост и вес), которое вытянуто вдоль одной линии. Ты хочешь сжать эти данные в 1D, чтобы не потерять структуру данных.

Как PCA выбирает направление для этой новой оси (первой главной компоненты)?

Anonymous Quiz

Это ось, которая делит количество точек ровно пополам

Это один из исходных признаков, у которого меньше всего пропущенных значений

62%

Это направление, вдоль которого данные имеют максимальную самый большой разброс

32%

Это ось, которая проходит через среднее значение всех точек и перпендикулярна самой длинной стороне

❤4

211 voters841 views17:56

Библиотека собеса по Data Science | вопросы с собеседований

K-means работает итеративно: сначала он ставит случайные точки (центроиды), а затем двигает их, пока они не окажутся в центрах своих групп.

На каждом шаге происходят две вещи. Какая из них описывает процесс обновления координат центроида?

Anonymous Quiz

Каждый объект данных притягивается к самому дальнему от него центроиду

83%

Центроид перемещается в точку со средними координатами всех объектов кластера

Центроид удаляется, если в его радиусе оказалось меньше 5 объектов

Координаты центроида выбираются случайным образом из исходного набора данных

❤3

224 voters935 views18:32

About

Blog

Apps

Platform