Вопрос на $5k: «Как работает память в AI-агентах?»
Если ответите «просто векторная база» — провал. Векторная база — это знания, а память — это контекст. Правильный ответ включает архитектуру управления состоянием (State Management).
В LangGraph это реализовано через граф:
— состояние (
— агент может «забывать» или «резюмировать» контекст;
— циклы позволяют уточнять информацию.
Разберитесь в деталях на нашем курсе.
Записаться на курс
Вводная лекция бесплатно
Если ответите «просто векторная база» — провал. Векторная база — это знания, а память — это контекст. Правильный ответ включает архитектуру управления состоянием (State Management).
В LangGraph это реализовано через граф:
— состояние (
State) передаётся между узлами;— агент может «забывать» или «резюмировать» контекст;
— циклы позволяют уточнять информацию.
Разберитесь в деталях на нашем курсе.
Записаться на курс
Вводная лекция бесплатно
😁1
Ты работаешь с временным рядом ежедневных транзакций банка. Визуально есть тренд. Чтобы применить модель ARIMA, нужно убедиться, что ряд стационарен. Ты запускаешь расширенный тест Дики-Фуллера. Результат: p-value = 0.42. Что нужно сделать следующим?
Anonymous Quiz
45%
Применить операцию дифференцирования, т.к. p-value говорит о единичном корне (ряд нестационарен)
31%
Ничего, p-value достаточно велик, чтобы считать ряд стационарным и приступать к прогнозу
16%
Удалить все выбросы, так как именно они завышают p-value в тесте Дики-Фуллера
8%
Перейти к использованию нейросетей (LSTM), так как они не требуют стационарности данных
👍4
Представь, что у тебя есть выборка из 1000 заказов, и тебе нужно найти 95% доверительный интервал для медианы чека. Математической формулы для интервала медианы «из коробки» (как для среднего) нет.
Как работает классический Non-parametric Bootstrap?
Как работает классический Non-parametric Bootstrap?
Anonymous Quiz
7%
Мы генерируем новые данные из нормального распределения с такими же средним и дисперсией
72%
Мы многократно извлекаем выборки того же размера из данных with replacement и вычисляем медиану
14%
Мы делим выборку на 10 частей (фолдов), как в кросс-валидации, и считаем разброс между ними
7%
Мы просто берем 2.5% самых маленьких и 2.5% самых больших значений из исходной выборки
👍2❤1
Вопрос с собеседования 2026: RAG vs Agentic RAG
На сеньорских позициях теперь спрашивают не просто про векторные базы, а про архитектуру агентов.
В чём отличие?
Обычный RAG: Нашёл документы → Сгенерировал ответ.
Agentic RAG (на
Умение строить такие системы с циклами и состоянием — главный навык года. Мы учим этому на курсе.
Записаться на курс
Подготовка к вопросам по архитектуре: Смотрите вводный урок бесплатно.
На сеньорских позициях теперь спрашивают не просто про векторные базы, а про архитектуру агентов.
В чём отличие?
Обычный RAG: Нашёл документы → Сгенерировал ответ.
Agentic RAG (на
LangGraph): Оценил вопрос → Спланировал поиск → Проверил найденное → (если плохо) Переформулировал запрос и искал снова.Умение строить такие системы с циклами и состоянием — главный навык года. Мы учим этому на курсе.
Записаться на курс
Подготовка к вопросам по архитектуре: Смотрите вводный урок бесплатно.
Ты планируешь A/B-тест. Чтобы убедиться, что твой калькулятор p-value и система сплитования корректны, ты запускаешь A/A-тест: делишь трафик на 2 группы, но обеим показываешь одинаковый вариант сайта. Что является признаком проблемы при анализе A/A-теста?
Anonymous Quiz
10%
Конверсия в обеих группах оказалась ниже ожидаемой
9%
Средние значения в группах А и А практически совпали
63%
Если при многократном повторении A/A-тестов распределение p-value не является равномерным
17%
Значение p-value получилось равным 0.5
👍1
Вы проводите тест в online-магазине. В тест группу случайно попал оптовый закупщик, который купил товара на 1000000₽, в то время как обычный чек — 2000₽. Это завысило среднее в группе. Какой метод наиболее корректен для снижения влияния таких выбросов?
Anonymous Quiz
26%
Использование логарифмирования целевой метрики (Log-transformation)
72%
Винзоризация: замена значений выше 99-го перцентиля значением этого самого 99-го перцентиля
0%
Увеличение длительности теста в 10 раз
2%
Переход от среднего к сумме всех чеков
👍2
Проблема A/B-тестов — дисперсия. Пользователи разные: кто-то всегда тратит много, кто-то мало.
CUPED использует данные о пользователях, собранные до начала теста. Каким образом он уменьшает дисперсию?
CUPED использует данные о пользователях, собранные до начала теста. Каким образом он уменьшает дисперсию?
Anonymous Quiz
50%
Он вычитает из текущего значения метрики предсказуемую по прошлому часть
25%
Он просто удаляет из теста пользователей, которые вели себя нестабильно в прошлом
6%
Он увеличивает размер выборки в два раза путем дублирования данных
18%
Он заменяет текущие данные средними значениями за прошлый месяц
👍1
Вы обучили модель градиентного бустинга предсказывать вероятность поломки. Она показывает отличный ROC-AUC, но бизнес жалуется: модель выдает 0.8, а в реальности поломка происходит в 40%.
Какой инструмент позволяет визуально оценить это несоответствие?
Какой инструмент позволяет визуально оценить это несоответствие?
Anonymous Quiz
63%
Confusion Matrix
19%
Reliability Diagram
6%
Elbow Method
12%
Learning Curve
🤔5👍1
Ты строишь модель, предсказывающую, вернет ли клиент банковский кредит. В твоем наборе данных есть признак «Сумма выплаченных процентов». На обучении модель показывает идеальный результат. Почему этот признак является классическим примером Target Leakage?
Anonymous Quiz
13%
Сумма процентов слишком сильно коррелирует с доходом клиента
1%
Этот признак имеет слишком много пропущенных значений (NaN)
86%
Значение этого признака известно только после того, как кредит уже выдан и начал погашаться
0%
Модели сложно обрабатывать дробные числа в этом признаке
👍1
Хард-скилл, который будут спрашивать в 2026 году
Умение обучить модель — база. Умение завернуть её в автономного агента, работающего с инструментами — конкурентное преимущество. Курс «Разработка ИИ-агентов» уже стартовал.
Что прокачаем:
— построение RAG-систем с векторными БД;
— оркестрацию через
— понимание агентной архитектуры и
Первая лекция доступна бесплатно. Отличный шанс подтянуть теорию для собеседований.
Записаться
Смотреть лекцию
Умение обучить модель — база. Умение завернуть её в автономного агента, работающего с инструментами — конкурентное преимущество. Курс «Разработка ИИ-агентов» уже стартовал.
Что прокачаем:
— построение RAG-систем с векторными БД;
— оркестрацию через
LangGraph;— понимание агентной архитектуры и
ReAct.Первая лекция доступна бесплатно. Отличный шанс подтянуть теорию для собеседований.
Записаться
Смотреть лекцию
Ты обучаешь лин.регрессию на данных с огромным количеством признаков, многие из них бесполезны. Нужно, чтобы модель не просто уменьшила веса плохих признаков, а полностью занулила их, выполнив автоматический отбор.
Какой тип регуляризации нужно выбрать?
Какой тип регуляризации нужно выбрать?
Anonymous Quiz
63%
L1-регуляризация (Lasso)
21%
L2-регуляризация (Ridge)
4%
Elastic Net
11%
Dropout
👍2❤1
«Расскажите про ваш опыт с Agentic RAG» — стандартный вопрос собеседования
Рынок DS в 2026 году требует большего, чем знание
На курсе мы даём то, что требуют на позициях Senior AI Engineer. Мы разбираем реальные задачи: как оценивать качество генерации (LLM-as-a-Judge), как строить мультиагентные системы и выводить это в прод.
Темы для вашего резюме:
— Orchestration:
— Retrieval: Hybrid Search, Reranking, GraphRAG.
— Fine-tuning: адаптация моделей под специфику агента.
— Evaluation: метрики качества для генеративных моделей.
Подготовиться к собеседованиям нового уровня
Рынок DS в 2026 году требует большего, чем знание
torch и pandas. Компании ищут инженеров, умеющих строить автономные системы, способные решать задачи без участия человека.На курсе мы даём то, что требуют на позициях Senior AI Engineer. Мы разбираем реальные задачи: как оценивать качество генерации (LLM-as-a-Judge), как строить мультиагентные системы и выводить это в прод.
Темы для вашего резюме:
— Orchestration:
LangGraph, LangChain.— Retrieval: Hybrid Search, Reranking, GraphRAG.
— Fine-tuning: адаптация моделей под специфику агента.
— Evaluation: метрики качества для генеративных моделей.
Подготовиться к собеседованиям нового уровня
Представь, что ты обучаешь модель предсказывать стоимость квартир. Первое дерево предсказало 10 млн ₽, а реальная цена — 12 млн ₽. Ошибка (остаток) составила 2 млн ₽.
Что будет делать второе дерево в алгоритме градиентного бустинга?
Что будет делать второе дерево в алгоритме градиентного бустинга?
Anonymous Quiz
10%
Снова будет предсказывать цену квартиры (12 млн ₽), но на другой выборке
81%
Будет предсказывать не цену, а ошибку первого дерева (эти самые 2 млн ₽)
3%
Будет предсказывать среднюю цену всех квартир в базе
7%
Попробует предсказать, было ли первое дерево право или нет (классификация)
❤1
Представь, что у тебя есть облако точек в 2D (два признака: рост и вес), которое вытянуто вдоль одной линии. Ты хочешь сжать эти данные в 1D, чтобы не потерять структуру данных.
Как PCA выбирает направление для этой новой оси (первой главной компоненты)?
Как PCA выбирает направление для этой новой оси (первой главной компоненты)?
Anonymous Quiz
2%
Это ось, которая делит количество точек ровно пополам
4%
Это один из исходных признаков, у которого меньше всего пропущенных значений
62%
Это направление, вдоль которого данные имеют максимальную самый большой разброс
32%
Это ось, которая проходит через среднее значение всех точек и перпендикулярна самой длинной стороне
❤4
K-means работает итеративно: сначала он ставит случайные точки (центроиды), а затем двигает их, пока они не окажутся в центрах своих групп.
На каждом шаге происходят две вещи. Какая из них описывает процесс обновления координат центроида?
На каждом шаге происходят две вещи. Какая из них описывает процесс обновления координат центроида?
Anonymous Quiz
4%
Каждый объект данных притягивается к самому дальнему от него центроиду
83%
Центроид перемещается в точку со средними координатами всех объектов кластера
4%
Центроид удаляется, если в его радиусе оказалось меньше 5 объектов
8%
Координаты центроида выбираются случайным образом из исходного набора данных
❤3
В отличие от K-means, где мы заранее задаем K, в DBSCAN мы задаем «правила соседства»: радиус поиска и минимальное количество соседей.
Как DBSCAN поступает с точкой, у которой в радиусе слишком мало соседей, и она не является соседом «плотной» группы?
Как DBSCAN поступает с точкой, у которой в радиусе слишком мало соседей, и она не является соседом «плотной» группы?
Anonymous Quiz
12%
Принудительно прикрепляет её к самому близкому большому кластеру
72%
Помечает её как «Noise» (шум/выброс) и не включает ни в один кластер
14%
Создает для этой точки отдельный кластер из одного элемента
2%
Удаляет эту точку из датасета навсегда
👍3
Представь, что мы используем агломеративный подход. В начале каждая точка — это отдельный кластер. Затем алгоритм попарно объединяет близкие точки в группы, пока всё не превратится в один кластер. Как называется график, который визуализирует этот процес?
Anonymous Quiz
4%
Гистограмма
28%
Диаграмма рассеяния
61%
Дендрограмма
6%
Тепловая карта
❤2
Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Какие методы синтаксического анализа текста могут быть использованы для обнаружения именных групп (noun phrases), глагольных групп (verb phrases), а также для определения подлежащего (subject) и дополнения (object) в NLP?
Anonymous Quiz
58%
Part of speech tagging (Тегирование частей речи)
14%
Skip Gram and N-gram extraction (Извлечение N-грамм и модель Skip-gram)
8%
Continuous Bag of Words (Модель непрерывного мешка слов — CBOW)
20%
Dependency Parsing and Constituency Parsing (Парсинг зависимостей и парсинг составляющих)
👍5❤1
Ты создаешь рек-ную систему для статей. Ты хочешь понять, насколько статья А похожа на Б по смыслу. Для этого ты превращаешь тексты в векторы.
Какую метрику используют, чтобы измерить «близость» векторов, если важно направление интересов пользователя?
Какую метрику используют, чтобы измерить «близость» векторов, если важно направление интересов пользователя?
Anonymous Quiz
10%
Евклидово расстояние
10%
Коэффициент корреляции Пирсона
79%
Косинусное сходство
1%
Сумма всех слов в тексте
👍1
У тебя есть датасет, где на 1000 «хороших» примеров приходится всего 10 «плохих». Тебе нужно обучить классификатор. Какой метод генерации новых данных (Oversampling) создаёт синтетические примеры редкого класса, а не просто дублирует существующие?
Anonymous Quiz
16%
Random Oversampling
69%
SMOTE
10%
Undersampling
5%
Кластеризация K-means
👍4❤2
Самый популярный метод — K-Fold.
Однако есть ситуация, когда обычный K-Fold нельзя использовать. О каком типе данных идет речь?
Однако есть ситуация, когда обычный K-Fold нельзя использовать. О каком типе данных идет речь?
Anonymous Quiz
3%
Данные с картинками высокого разрешения
13%
Данные с большим количеством пропусков
78%
Временные ряды
7%
Данные, в которых признаков больше, чем строк