Библиотека собеса по Data Science | вопросы с собеседований

Пятница, 19:00. Худшее время для деплоя, но идеальное, чтобы подготовиться к каверзным вопросам про LLM-пайплайны, которые точно зададут на интервью.

Вопросы про RAG и Fine-tuning стали стандартом на интервью для ML-инженеров. Приходи разобраться в теме на практике.

Разберём на открытом уроке:

— выбор между Retrieval-Augmented Generation и дообучением весов;
— работа с векторными эмбеддингами (`FAISS`, `Chroma`);
— построение продакшн-пайплайна с использованием LangChain.

Один из спикеров — Алексей Яндутов, ML-инженер в поиске Яндекса.

Это вводное занятие курса «Разработка AI-агентов». Готовьтесь к коду и архитектурным схемам.

Записаться на урок

proglib.academy

Курс| Разработка AI-агентов

Курс про контролируемую разработку AI-агентов: качество, стоимость, наблюдаемость и тестирование. С первого занятия — практическая работа.

751 views11:13

Библиотека собеса по Data Science | вопросы с собеседований

Вы используете инициализацию весов He и Batch Normalization после каждого сверточного слоя. Несмотря на это, в ResNet в начале обучения растёт дисперсия активаций с глубиной, что ухудшает сходимость.

Какое решение лучше всего устраняет это?

Anonymous Quiz

53%

Замена ReLU на Leaky ReLU с α=0.01 для обеспечения протекания градиента в отрицательной области

22%

Dropout с вероятностью p=0.5 непосредственно перед операцией сложения для регуляризации

16%

Weight Decay исключительно к весам на основном пути, исключая параметры в shortcut-соединениях

Zero-γ инициализация последней BatchNorm в residual-блоке

👍3🤔2

129 voters717 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

На интервью по DS спрашивают про Agentic Workflow, а ты всё ещё «жаришь» промпты?

Настоящий Шеф проектирует Систему. В понедельник, 26 января, стартует интенсив по разработке ИИ-агентов. Получи знания, которые отличают Middle от Senior. 📊

В программе:

— мультиагентные системы в CrewAI: управление пулом агентов;
— сложная логика в LangGraph: проектирование стейт-менеджмента;
— tool use интеграция: связь моделей с API и базами данных. 🧠

Записаться на курс

749 views15:12

Библиотека собеса по Data Science | вопросы с собеседований

Как называется статистическое явление, при котором алгоритм A лучше в общей статистике, но хуже алгоритма B в каждом подмножестве данных (например, по устройствам)?

Anonymous Quiz

Эффект выжившего (Survivorship Bias): мы не учитываем пользователей, которые вообще не кликают

66%

Парадокс Симпсона: из-за «скрытой переменной», которая неравномерно распределена между группами

12%

Мультиколлинеарность: признаки слишком сильно коррелируют друг с другом, что «раздувает» веса модели

13%

Проблема подглядывания: мы перебираем разбиения данных до тех пор, пока не найдем аномалию

👍3

209 voters770 views18:25

Библиотека собеса по Data Science | вопросы с собеседований

Завтра стартуем: курс по разработке ИИ-агентов 📊

Будьте готовы к вопросам по архитектуре автономных пайплайнов. Мы научим проектировать агентные системы на CrewAI, управлять графами в LangGraph и подключать модели к реальным бизнес-инструментам.

👉 Успейте занять место до начала занятий

747 views15:11

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель детекции мошеннических транзакций. Класс «мошенничество» встречается редко по сравнению с «легитимными» операциями. Вы решили применить SMOTE.

В чем заключается недостаток SMOTE, который приводит к огромному количеству False Positives?

Anonymous Quiz

Он работает только с категориальными признаками и не умеет обрабатывать числа

18%

Он требует обязательного уменьшения выборки основного класса, что ведет к потере важной информации

55%

Он линейно интерполирует точки между соседями меньшинства, игнорируя мажоритарный класс

22%

Он просто дублирует существующие строки, что приводит к переобучению на конкретных примерах

👍4

175 voters796 views18:46

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос на собеседовании: «В чём разница между классическим RAG и Agentic RAG?»

Если не знаете ответ — пора на курс. Сегодня в 19:00 МСК мы начинаем разбирать архитектуру автономных систем с нуля до продакшена.

Подготовим вас к сложным вопросам по AI:

— механизмы планирования в агентах;
— работа с памятью и контекстом;
— мультиагентная оркестрация;
— методы оценки faithfulness и relevancy ответов.

Подготовиться к офферу

👍1

772 views15:19

Библиотека собеса по Data Science | вопросы с собеседований

Ты участвуешь в Kaggle соревновании. Тебе дали train набор и test. Ты подозреваешь, что данные в тесте «пришли из другого мира» (например, из другого временного периода).

Чтобы проверить, ты используешь Adversarial Validation. В чем суть метода?

Anonymous Quiz

42%

Ты обучаешь классификатор «Train vs Test»: если ROC-AUC высокий, выборки различаются.

Ты просишь генератор сделать фейковые данные и пытаешься их классифицировать.

24%

Ты сравниваешь средние значения всех признаков в Train и Test и удаляешь те, где разница больше 10%

27%

Ты объединяешь Train и Test, перемешиваешь их и заново разбиваешь на фолды, чтобы «усреднить» ошибку

❤2👍2

208 voters824 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите логистическую регрессию для предсказания оттока клиентов. В вашем наборе данных есть признаки, которые сильно коррелируют между собой. Вы решаете проверить их с помощью VIF.

Для одного из признаков вы получили VIF = 12. Что это означает?

Anonymous Quiz

12%

Ошибка модели на этом признаке составляет 12%, что является допустимым порогом в Data Science

11%

Признак распределен по закону Пуассона, что нарушает требования нормальности логистической регрессии

69%

Признак сильно зависит от других независимых переменных, оценка его коэффициента ненадежна

Признак имеет очень низкую предсказательную силу, и его нужно заменить на случайный шум

👍4

169 voters799 views18:22

Библиотека собеса по Data Science | вопросы с собеседований

Вас точно спросят про AI-агентов на следующем собеседовании

В 2026 году знание только градиентного бустинга — это база. Компании ищут тех, кто умеет внедрять LLM в продакшн через агентские архитектуры и понимает разницу между LangGraph и обычным чейнингом.

Подготовьтесь к техническим вопросам на курсе «Углубленные AI-агенты».

Что вы добавите в резюме:

— навык проектирования мультиагентных систем;
— опыт работы с актуальными фреймворками CrewAI и AutoGen;
— понимание методов масштабирования ИИ-решений;
— готовый сквозной проект в портфолио.

Курс уже идет, залетайте, пока есть места.

🚀 Записаться на основной курс

Если сомневаетесь — просто посмотрите вводное занятие.

❤2

757 views15:02

Библиотека собеса по Data Science | вопросы с собеседований

Какое априорное распределение обычно берут для вероятности успеха при биномиальных данных, чтобы использовать сопряжённость и получить апостериорное распределение аналитически?

Anonymous Quiz

46%

Распределение Пуассона

26%

Бета-распределение (Beta distribution)

21%

Распределение Стьюдента

Экспоненциальное распределение

👍1

196 voters759 views19:00

Библиотека собеса по Data Science | вопросы с собеседований

Продажи мороженого растут каждый год, есть сезонность: пик в июле, спад в январе, причём амплитуда сезонных колебаний увеличивается вместе с ростом общего уровня продаж.

Какую модель выбрать?

Anonymous Quiz

37%

Аддитивную модель: Y(t) = Trend + Seasonality + Noise

47%

Мультипликативную модель: Y(t) = Trend × Seasonality × Noise

Линейную регрессию по времени без учета сезонности

15%

Скользящее среднее с окном в 12 месяцев для удаления всех колебаний

❤1👍1

215 voters767 views18:33

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос на $5k: «Как работает память в AI-агентах?»

Если ответите «просто векторная база» — провал. Векторная база — это знания, а память — это контекст. Правильный ответ включает архитектуру управления состоянием (State Management).

В LangGraph это реализовано через граф:

— состояние (State) передаётся между узлами;
— агент может «забывать» или «резюмировать» контекст;
— циклы позволяют уточнять информацию.

Разберитесь в деталях на нашем курсе.

Записаться на курс

Вводная лекция бесплатно

😁1

718 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

Ты работаешь с временным рядом ежедневных транзакций банка. Визуально есть тренд. Чтобы применить модель ARIMA, нужно убедиться, что ряд стационарен. Ты запускаешь расширенный тест Дики-Фуллера. Результат: p-value = 0.42. Что нужно сделать следующим?

Anonymous Quiz

45%

Применить операцию дифференцирования, т.к. p-value говорит о единичном корне (ряд нестационарен)

31%

Ничего, p-value достаточно велик, чтобы считать ряд стационарным и приступать к прогнозу

16%

Удалить все выбросы, так как именно они завышают p-value в тесте Дики-Фуллера

Перейти к использованию нейросетей (LSTM), так как они не требуют стационарности данных

👍4

160 voters778 views18:46

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что у тебя есть выборка из 1000 заказов, и тебе нужно найти 95% доверительный интервал для медианы чека. Математической формулы для интервала медианы «из коробки» (как для среднего) нет.

Как работает классический Non-parametric Bootstrap?

Anonymous Quiz

Мы генерируем новые данные из нормального распределения с такими же средним и дисперсией

72%

Мы многократно извлекаем выборки того же размера из данных with replacement и вычисляем медиану

14%

Мы делим выборку на 10 частей (фолдов), как в кросс-валидации, и считаем разброс между ними

Мы просто берем 2.5% самых маленьких и 2.5% самых больших значений из исходной выборки

👍2❤1

169 voters814 views18:26

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос с собеседования 2026: RAG vs Agentic RAG

На сеньорских позициях теперь спрашивают не просто про векторные базы, а про архитектуру агентов.

В чём отличие?

Обычный RAG: Нашёл документы → Сгенерировал ответ.

Agentic RAG (на LangGraph): Оценил вопрос → Спланировал поиск → Проверил найденное → (если плохо) Переформулировал запрос и искал снова.

Умение строить такие системы с циклами и состоянием — главный навык года. Мы учим этому на курсе.

Записаться на курс

Подготовка к вопросам по архитектуре: Смотрите вводный урок бесплатно.

860 views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Ты планируешь A/B-тест. Чтобы убедиться, что твой калькулятор p-value и система сплитования корректны, ты запускаешь A/A-тест: делишь трафик на 2 группы, но обеим показываешь одинаковый вариант сайта. Что является признаком проблемы при анализе A/A-теста?

Anonymous Quiz

10%

Конверсия в обеих группах оказалась ниже ожидаемой

Средние значения в группах А и А практически совпали

63%

Если при многократном повторении A/A-тестов распределение p-value не является равномерным

17%

Значение p-value получилось равным 0.5

👍1

203 voters893 views17:34

Библиотека собеса по Data Science | вопросы с собеседований

Вы проводите тест в online-магазине. В тест группу случайно попал оптовый закупщик, который купил товара на 1000000₽, в то время как обычный чек — 2000₽. Это завысило среднее в группе. Какой метод наиболее корректен для снижения влияния таких выбросов?

Anonymous Quiz

26%

Использование логарифмирования целевой метрики (Log-transformation)

72%

Винзоризация: замена значений выше 99-го перцентиля значением этого самого 99-го перцентиля

Увеличение длительности теста в 10 раз

Переход от среднего к сумме всех чеков

👍2

207 voters865 views19:16

Библиотека собеса по Data Science | вопросы с собеседований

Проблема A/B-тестов — дисперсия. Пользователи разные: кто-то всегда тратит много, кто-то мало.

CUPED использует данные о пользователях, собранные до начала теста. Каким образом он уменьшает дисперсию?

Anonymous Quiz

50%

Он вычитает из текущего значения метрики предсказуемую по прошлому часть

25%

Он просто удаляет из теста пользователей, которые вели себя нестабильно в прошлом

Он увеличивает размер выборки в два раза путем дублирования данных

18%

Он заменяет текущие данные средними значениями за прошлый месяц

👍1

181 voters852 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучили модель градиентного бустинга предсказывать вероятность поломки. Она показывает отличный ROC-AUC, но бизнес жалуется: модель выдает 0.8, а в реальности поломка происходит в 40%.

Какой инструмент позволяет визуально оценить это несоответствие?

Anonymous Quiz

🤔5👍1

247 voters844 views18:43

Библиотека собеса по Data Science | вопросы с собеседований

Ты строишь модель, предсказывающую, вернет ли клиент банковский кредит. В твоем наборе данных есть признак «Сумма выплаченных процентов». На обучении модель показывает идеальный результат. Почему этот признак является классическим примером Target Leakage?

Anonymous Quiz

13%

Сумма процентов слишком сильно коррелирует с доходом клиента

Этот признак имеет слишком много пропущенных значений (NaN)

86%

Значение этого признака известно только после того, как кредит уже выдан и начал погашаться

Модели сложно обрабатывать дробные числа в этом признаке

👍1

221 voters816 views18:13

About

Blog

Apps

Platform