Библиотека собеса по Data Science | вопросы с собеседований
4.39K subscribers
493 photos
14 videos
1 file
615 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
Почему джуны-датасайентисты не могут вывести LLM в прод?

На собеседованиях кандидаты отлично рассказывают про эмбеддинги и трансформеры. Но когда их просят спроектировать отказоустойчивую систему, контролировать бюджет на токены или настроить RAG по сканам — они сыпятся.

Мы пересобрали курс по AI-агентам. Фокус смещён с теории на суровый инжиниринг: метрики, предотвращение регрессий и экономику агентов. Это знания, которые сейчас требуют от Middle+ DS.

Что в программе для прокачки:

🔹 промышленный RAG: обработка таблиц, сканов и специализированный поиск;
🔹 архитектура агентов: LangGraph, перемотка времени (time-travel) и контрольные точки;
🔹 контроль затрат: ограничение времени исполнения ресурсов, динамический роутинг;
🔹 интеграции: работа агентов с legacy-интерфейсами и браузером;
🔹 комплаенс: развёртывание LLM-решений с соблюдением 152-ФЗ.

Забирайте скидку 10 000 рублей по промокоду Agent (до 28 февраля).

Используйте акцию «3 курса по цене 1», чтобы забрать ещё два курса бесплатно.

Подготовиться к реальному продакшну
Представь, что у нейросети есть маленькое «окошко» (фильтр), например, размером 3x3 пикселя. Оно ползает по всей картинке и умножает свои веса на значения пикселей.

Зачем нужен этот процесс, вместо того чтобы подать все пиксели в обычную нейросеть?
Anonymous Quiz
87%
Чтобы сохранить пространственную структуру и научиться находить паттерны
4%
Чтобы уменьшить яркость изображения и сэкономить видеопамять
4%
Чтобы превратить цветную картинку в черно-белую для упрощения расчетов
4%
Чтобы модель могла работать только с центральной частью кадра, игнорируя фон
📊 Промышленный DS: как пройти интервью на позицию AI-разработчика в 2026 году

Компании больше не ищут «исследователей», им нужны инженеры, способные запустить агентов в прод. В обновлённом курсе мы даём базу по измеримости, метрикам производительности и экономике моделей.

📚 Ключевые темы для подготовки:

— продвинутый RAG: методы оценки качества поиска и подготовки данных;
— инжиниринг: как выявлять регрессии и настраивать трассировку в реальных системах;
LangGraph: управление сложными графами и механизмы human-in-the-loop;
— управление ресурсами: детальный расчёт токенов и кэширования.

Забирайте материалы для предварительной подготовки сразу после оплаты и будьте на шаг впереди конкурентов.

Специальные условия до 28 февраля:

— введите промокод Agent для получения скидки 10 000 рублей**;
— участвуйте в **акции «3 курса по цене 1» — выберите два любых курса в дополнение к основному.

👉 Получить доступ к курсу и подаркам
Любой сложный временной ряд (например, продажи мороженого) можно разложить на несколько составляющих. Как называется компонент, который отвечает за регулярные колебания данных в зависимости от времени года, дня недели или часа?
Anonymous Quiz
7%
Тренд (Trend)
16%
Цикличность (Cycle)
75%
Сезонность (Seasonality)
1%
Белый шум (White Noise)
👍2
В GNN используется механизм под названием Message Passing (передача сообщений). Представь, что ты хочешь предсказать, купит ли человек товар, зная только его друзей в соцсети.

Как нейронная сеть собирает информацию для конкретного узла на каждом слое?
Anonymous Quiz
1%
Она смотрит только на собственные признаки этого человека (возраст, пол)
15%
Она ищет похожих людей по всей базе данных, даже если они не связаны
83%
Она суммирует или усредняет информацию от всех соседних узлов, «впитывая» контекст окружения
2%
Она превращает связи в обычный текст и читает его как LLM
2
Чтобы нейросеть «влезла» в микрочип, её нужно сжать. Один из методов называется Квантование (Quantization).

Обычно веса нейросети — это дробные числа высокой точности (float32). В чём суть квантования при подготовке модели для Edge-устройства?
Anonymous Quiz
2%
В замене некоторых весов на случайные числа для экономии места
93%
В переводе весов из 32-битных дробей в простые 8-битные целые числа
5%
В удалении некоторых слоев нейросети, кроме первого и последнего
0%
В превращении нейросети в текстовый файл
1
Представь, что банк обучил модель для выдачи кредитов. В данных за 30 лет мужчины чаще занимали руководящие посты и имели более высокие зарплаты. Модель это заметила и начала занижать кредитный рейтинг всем женщинам.

Как называется этот эффект?
Anonymous Quiz
3%
Underfitting (Недообучение)
75%
Algorithmic Bias (Алгоритмическая предвзятость)
2%
Data Integrity (Целостность данных)
20%
Overfitting (Переобучение)
😁63🤩1
За год мы провели три потока курса по ИИ-агентам, а теперь запускаем масштабное обновление!

В новом, четвёртом потоке мы учли все пожелания студентов, добавили большой блок про AgentOps и сместили фокус с базовых концепций на суровый инжиниринг. Ответить на вопрос про архитектуру трансформеров на собесе легко, а вот выкатить ИИ-агента в прод, чтобы он не сливал бюджет — задача со звёздочкой.

В программе:

— практика с первого занятия: Jupyter-ноутбуки с автопроверкой;
— оркестрация в LangGraph: human-in-the-loop и механизм time-travel;
— продвинутый RAG для продакшена и парсинг сложных документов;
— контроль экономики агентов: маршрутизация и кеширование запросов;
— развёртывание локальных опенсорс-моделей с соблюдением 152-ФЗ.

В честь старта продаж действует спецпредложение: 3 курса по цене 1 (два дополнительных курса в подарок).

Доступ к материалам для предварительной подготовки откроется сразу после оплаты.

По промокоду Agent забирайте скидку 10 000 ₽ (89 000 ₽ вместо 99 000 ₽). Успейте занять место до 28 февраля!

👉 Присоединиться к четвёртому потоку и вывести пайплайны в прод
Представь, что ты разрабатываешь систему беспилотного вождения. Тебе нужно научить машину реагировать на очень редкое и опасное событие — например, когда на дорогу в тумане внезапно выбегает лось.

Почему в этой ситуации синтетические данные лучше?
Anonymous Quiz
89%
Потому что мы можем сгенерировать 10 000 таких сценариев в симуляции
8%
Потому что реальные лоси слишком быстро бегают, и их трудно сфотографировать
1%
Потому что синтетические данные всегда занимают меньше места на диске
2%
Потому что нейросети не могут учиться только на реальных фотографиях
Когда ты задаешь вопрос нейросети, где-то в дата-центре работают тысячи процессоров. Ученые подсчитали углеродный след от обучения и эксплуатации моделей.

Как ты думаешь, что потребляет больше энергии в долгосрочной перспективе?
Anonymous Quiz
27%
Процесс обучения модели (Training) — один раз, но очень мощно
68%
Процесс использования модели пользователями (Inference) — миллионы маленьких запросов каждый день
2%
Процесс написания кода программистами
2%
Хранение кода модели на GitHub
1
Последний шанс: 3 курса по цене 1 и запуск AI-агентов в продакшн

На собеседованиях дата-сайентистов всё больше вопросов про вывод LLM в продакшн. Как превратить «голую» модель в автономную мультиагентную систему с RAG, контролировать затраты на инференс и не нарушить 152-ФЗ?

Обновлённая программа делает упор на жёсткий ML-инжиниринг и вывод в прод. Вы научитесь строить ReAct-циклы, работать с LangGraph и AutoGen, внедрять продвинутый RAG, протоколы MCP и AgentOps. Все ключевые навыки в одном месте: измеримость систем, time-travel дебаггинг, управление браузером, human-in-the-loop и развёртывание в закрытых контурах.

Почему нельзя откладывать:

— масштабная акция «3 курса по цене 1» сгорает уже сегодня;
— промокод Agent на скидку 10 000 рублей действует последние часы;
— сразу после оформления открываются материалы для подготовки — начать учиться можно прямо сейчас.

Забронировать место на курсе и забрать бонусы до конца дня
Представь, что ты показываешь нейросети видео, где человек плачет, но при этом звучит веселая музыка и текст на экране говорит: «Я так счастлив!».

Как мультимодальная модель понимает, что это сарказм, а не просто ошибка?
Anonymous Quiz
1%
Она анализирует только текст, так как он важнее всего
19%
Она переводит видео и аудио в текст и читает их по отдельности
79%
Она использует «сквозное внимание» в едином математическом пространстве
0%
Нейросеть выбирает самый грустный элемент и игнорирует остальные
1
В Трансформерах сложность Self-Attention растет квадратично относительно входной последовательности N. В новых моделях вроде Mamba используется State Space Models. Какое математическое свойство позволяет моделям Mamba достигать линейной сложности?
Anonymous Quiz
51%
Использование разреженного внимания (Sparse Attention)
19%
Применение рекуррентной формулировки (Recurrent Representation)
26%
Полный отказ от использования матриц весов и замена их на быстрые преобразования Фурье
4%
Использование квантового распределения данных
👍1
При обучении LLM инженеры часто сталкиваются с феноменом "Grokking". Это специфический режим обучения, который обычно наблюдается на алгоритмических задачах или модульной арифметике.

В чем заключается главная особенность феномена Grokking?
Anonymous Quiz
40%
Переобучение: 100% на обучении, 0% на новых. Потом тест резко становится идеальным.
23%
Мгновенное переобучение: за несколько итераций — 100%, тест падает до 0%.
18%
Модель ускоряет генерацию, оптимизируя градиентный спуск в собственных весах.
20%
Модель мгновенно забывает старые знания при смене домена (catastrophic forgetting).
1
👍 На курсе по контролируемой разработке AI-агентов мы будем разбирать ровно то, о чём говорит Владислав в голосовом, но уже в формате системной практики.

📅 Старт курса — 20 апреля.

Если хотите разобраться, как строить управляемые агентные системы:
➡️ Присоединяйтесь.

P.S. С первого занятия будет практика: код и разбор реальных ошибок, а не только теория.
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда мы дообучаем готовую нейросеть на новых данных, она часто начинает «забывать» то, чему училась раньше. Это катастрофическое забывание.

Какая из перечисленных техник является наиболее эффективной для борьбы с этим эффектом в Continual Learning?
Anonymous Quiz
56%
Elastic Weight Consolidation (EWC)
24%
Data Shuffling
13%
Weight Pruning
8%
Learning Rate Maximization
👍1