Библиотека собеса по Data Science | вопросы с собеседований

Представь, что мы используем агломеративный подход. В начале каждая точка — это отдельный кластер. Затем алгоритм попарно объединяет близкие точки в группы, пока всё не превратится в один кластер. Как называется график, который визуализирует этот процес?

Anonymous Quiz

Гистограмма

❤2

189 voters843 views16:50

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие методы синтаксического анализа текста могут быть использованы для обнаружения именных групп (noun phrases), глагольных групп (verb phrases), а также для определения подлежащего (subject) и дополнения (object) в NLP?

Anonymous Quiz

58%

Part of speech tagging (Тегирование частей речи)

14%

Skip Gram and N-gram extraction (Извлечение N-грамм и модель Skip-gram)

Continuous Bag of Words (Модель непрерывного мешка слов — CBOW)

20%

Dependency Parsing and Constituency Parsing (Парсинг зависимостей и парсинг составляющих)

👍5❤1

264 voters733 views18:10

Библиотека собеса по Data Science | вопросы с собеседований

Ты создаешь рек-ную систему для статей. Ты хочешь понять, насколько статья А похожа на Б по смыслу. Для этого ты превращаешь тексты в векторы.

Какую метрику используют, чтобы измерить «близость» векторов, если важно направление интересов пользователя?

Anonymous Quiz

10%

Евклидово расстояние

10%

Коэффициент корреляции Пирсона

79%

Косинусное сходство

Сумма всех слов в тексте

👍1

255 voters842 views18:37

Библиотека собеса по Data Science | вопросы с собеседований

У тебя есть датасет, где на 1000 «хороших» примеров приходится всего 10 «плохих». Тебе нужно обучить классификатор. Какой метод генерации новых данных (Oversampling) создаёт синтетические примеры редкого класса, а не просто дублирует существующие?

Anonymous Quiz

Кластеризация K-means

👍4❤2

257 voters837 views18:30

Библиотека собеса по Data Science | вопросы с собеседований

Самый популярный метод — K-Fold.

Однако есть ситуация, когда обычный K-Fold нельзя использовать. О каком типе данных идет речь?

Anonymous Quiz

Данные с картинками высокого разрешения

13%

Данные с большим количеством пропусков

78%

Временные ряды

Данные, в которых признаков больше, чем строк

236 voters793 views18:27

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что ты строишь модель предсказания спроса на доставку еды. У тебя есть столбец с датой заказа: 2026-02-16 19:30:00. Если ты оставишь его в таком виде, модель ничего не поймет.

Какое преобразование этого признака принесет пользу для модели?

Anonymous Quiz

16%

Превратить дату в количество секунд, прошедших с 1 января 1970 года (Unix Timestamp)

78%

Извлечь циклические признаки: «День недели» (Is_Weekend) и «Час суток» (Обед/Ужин)

Просто удалить дату, так как это не числовой признак

Заменить каждую дату на порядковый номер дня в году (от 1 до 365)

215 voters768 views18:24

Библиотека собеса по Data Science | вопросы с собеседований

Главный секрет трансформеров — механизм Self-Attention (внимания к себе). Представь предложение: «Банк закрыли, потому что он был ограблен».

Как механизм внимания помогает модели понять, к чему относится слово «он»?

Anonymous Quiz

Модель просто выбирает ближайшее слово слева и справа

93%

Модель вычисляет математическую связь между словом «он» и всеми остальными словами в предложении

Модель ищет слово «он» в специальном словаре и присваивает оценку

Это заложено в код программистами вручную для каждого случая

🤩2

257 voters745 views18:48

Библиотека собеса по Data Science | вопросы с собеседований

Вопрос с собеседования: «Как вы обеспечите стабильность AI-агента в проде?»

Если вы начнёте говорить про промпт-инжиниринг, вас не наймут. Правильный ответ включает: метрики, трейсинг, RAG-пайплайны и управление ресурсами. Этому мы учим на обновлённом курсе

«Разработка AI-агентов».
Разбираем на практике:

🔹 Архитектура. LangGraph, state-management, time-travel отладка.

🔹 RAG. Работа со сложными документами и таблицами.

🔹 Ops. Логирование, мониторинг затрат и качества.

Стартуй сейчас! Материалы доступны сразу после покупки.

🎟 Промокод Agent — скидка 10 000 ₽ (до 28 февраля).

👉 Подготовиться к реальным задачам

727 views15:32

Библиотека собеса по Data Science | вопросы с собеседований

Как математически изменяется размерность тензора на выходе одного блока Scaled Dot-Product Attention по сравнению с входным тензором (при условии, что d_{model} остается неизменной)?

Anonymous Quiz

19%

Размерность увеличивается в 3 раза (из-за Q, K, V)

34%

Размерность не меняется

30%

Размерность зависит от количества голов (heads)

17%

Размерность уменьшается до вектора скаляров

😢4👍1

145 voters787 views19:20

Библиотека собеса по Data Science | вопросы с собеседований

Ваша модель предсказания спроса на куртки стала работать хуже. Вы заметили, что распределение температур в этом году сильно изменилось по сравнению с прошлым. Как называется этот тип деградации?

Anonymous Quiz

19%

Concept Drift (сдвиг концепции)

77%

Data Drift (сдвиг данных)

Насыщение модели

Overfitting (переобучение)

243 voters741 views18:52

Библиотека собеса по Data Science | вопросы с собеседований

Почему джуны-датасайентисты не могут вывести LLM в прод?

На собеседованиях кандидаты отлично рассказывают про эмбеддинги и трансформеры. Но когда их просят спроектировать отказоустойчивую систему, контролировать бюджет на токены или настроить RAG по сканам — они сыпятся.

Мы пересобрали курс по AI-агентам. Фокус смещён с теории на суровый инжиниринг: метрики, предотвращение регрессий и экономику агентов. Это знания, которые сейчас требуют от Middle+ DS.

Что в программе для прокачки:

🔹 промышленный RAG: обработка таблиц, сканов и специализированный поиск;
🔹 архитектура агентов: LangGraph, перемотка времени (time-travel) и контрольные точки;
🔹 контроль затрат: ограничение времени исполнения ресурсов, динамический роутинг;
🔹 интеграции: работа агентов с legacy-интерфейсами и браузером;
🔹 комплаенс: развёртывание LLM-решений с соблюдением 152-ФЗ.

Забирайте скидку 10 000 рублей по промокоду Agent (до 28 февраля).

Используйте акцию «3 курса по цене 1», чтобы забрать ещё два курса бесплатно.

Подготовиться к реальному продакшну

744 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что у нейросети есть маленькое «окошко» (фильтр), например, размером 3x3 пикселя. Оно ползает по всей картинке и умножает свои веса на значения пикселей.

Зачем нужен этот процесс, вместо того чтобы подать все пиксели в обычную нейросеть?

Anonymous Quiz

87%

Чтобы сохранить пространственную структуру и научиться находить паттерны

Чтобы уменьшить яркость изображения и сэкономить видеопамять

Чтобы превратить цветную картинку в черно-белую для упрощения расчетов

Чтобы модель могла работать только с центральной частью кадра, игнорируя фон

203 voters723 views19:19

Библиотека собеса по Data Science | вопросы с собеседований

📊 Промышленный DS: как пройти интервью на позицию AI-разработчика в 2026 году

Компании больше не ищут «исследователей», им нужны инженеры, способные запустить агентов в прод. В обновлённом курсе мы даём базу по измеримости, метрикам производительности и экономике моделей.

📚 Ключевые темы для подготовки:

— продвинутый RAG: методы оценки качества поиска и подготовки данных;
— инжиниринг: как выявлять регрессии и настраивать трассировку в реальных системах;
— LangGraph: управление сложными графами и механизмы human-in-the-loop;
— управление ресурсами: детальный расчёт токенов и кэширования.

Забирайте материалы для предварительной подготовки сразу после оплаты и будьте на шаг впереди конкурентов.

⏳ Специальные условия до 28 февраля:

— введите промокод Agent для получения скидки 10 000 рублей**;
— участвуйте в **акции «3 курса по цене 1» — выберите два любых курса в дополнение к основному.

👉 Получить доступ к курсу и подаркам

755 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

В RL есть Агент (тот, кто учится), Среда (мир вокруг) и Награда (цель). Главная проблема Агента — это дилемма Exploration vs Exploitation.

В чем она заключается?

Anonymous Quiz

Нужно выбрать: обучать модель на GPU или на CPU

85%

Нужно выбрать: использовать уже известный путь или рискнуть и исследовать новые действия

Нужно выбрать между скоростью обучения и точностью предсказаний

Нужно решить, наказывать ли агента за медлительность или только за ошибки

❤2👍2🤩1

238 voters826 views18:09

Библиотека собеса по Data Science | вопросы с собеседований

Любой сложный временной ряд (например, продажи мороженого) можно разложить на несколько составляющих. Как называется компонент, который отвечает за регулярные колебания данных в зависимости от времени года, дня недели или часа?

Anonymous Quiz

Сезонность (Seasonality)

Белый шум (White Noise)

👍2

269 voters803 views18:15

Библиотека собеса по Data Science | вопросы с собеседований

В GNN используется механизм под названием Message Passing (передача сообщений). Представь, что ты хочешь предсказать, купит ли человек товар, зная только его друзей в соцсети.

Как нейронная сеть собирает информацию для конкретного узла на каждом слое?

Anonymous Quiz

Она смотрит только на собственные признаки этого человека (возраст, пол)

15%

Она ищет похожих людей по всей базе данных, даже если они не связаны

83%

Она суммирует или усредняет информацию от всех соседних узлов, «впитывая» контекст окружения

Она превращает связи в обычный текст и читает его как LLM

❤2

170 voters780 views18:16

Библиотека собеса по Data Science | вопросы с собеседований

Чтобы нейросеть «влезла» в микрочип, её нужно сжать. Один из методов называется Квантование (Quantization).

Обычно веса нейросети — это дробные числа высокой точности (float32). В чём суть квантования при подготовке модели для Edge-устройства?

Anonymous Quiz

В замене некоторых весов на случайные числа для экономии места

93%

В переводе весов из 32-битных дробей в простые 8-битные целые числа

В удалении некоторых слоев нейросети, кроме первого и последнего

В превращении нейросети в текстовый файл

❤1

230 voters665 views19:18

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что банк обучил модель для выдачи кредитов. В данных за 30 лет мужчины чаще занимали руководящие посты и имели более высокие зарплаты. Модель это заметила и начала занижать кредитный рейтинг всем женщинам.

Как называется этот эффект?

Anonymous Quiz

Underfitting (Недообучение)

75%

Algorithmic Bias (Алгоритмическая предвзятость)

Data Integrity (Целостность данных)

20%

Overfitting (Переобучение)

😁6❤3🤩1

257 voters649 views18:23

Библиотека собеса по Data Science | вопросы с собеседований

За год мы провели три потока курса по ИИ-агентам, а теперь запускаем масштабное обновление!

В новом, четвёртом потоке мы учли все пожелания студентов, добавили большой блок про AgentOps и сместили фокус с базовых концепций на суровый инжиниринг. Ответить на вопрос про архитектуру трансформеров на собесе легко, а вот выкатить ИИ-агента в прод, чтобы он не сливал бюджет — задача со звёздочкой.

В программе:

— практика с первого занятия: Jupyter-ноутбуки с автопроверкой;
— оркестрация в LangGraph: human-in-the-loop и механизм time-travel;
— продвинутый RAG для продакшена и парсинг сложных документов;
— контроль экономики агентов: маршрутизация и кеширование запросов;
— развёртывание локальных опенсорс-моделей с соблюдением 152-ФЗ.

В честь старта продаж действует спецпредложение: 3 курса по цене 1 (два дополнительных курса в подарок).

Доступ к материалам для предварительной подготовки откроется сразу после оплаты.

По промокоду Agent забирайте скидку 10 000 ₽ (89 000 ₽ вместо 99 000 ₽). Успейте занять место до 28 февраля!

👉 Присоединиться к четвёртому потоку и вывести пайплайны в прод

672 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

Представь, что ты разрабатываешь систему беспилотного вождения. Тебе нужно научить машину реагировать на очень редкое и опасное событие — например, когда на дорогу в тумане внезапно выбегает лось.

Почему в этой ситуации синтетические данные лучше?

Anonymous Quiz

89%

Потому что мы можем сгенерировать 10 000 таких сценариев в симуляции

Потому что реальные лоси слишком быстро бегают, и их трудно сфотографировать

Потому что синтетические данные всегда занимают меньше места на диске

Потому что нейросети не могут учиться только на реальных фотографиях

225 voters689 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

Когда ты задаешь вопрос нейросети, где-то в дата-центре работают тысячи процессоров. Ученые подсчитали углеродный след от обучения и эксплуатации моделей.

Как ты думаешь, что потребляет больше энергии в долгосрочной перспективе?

Anonymous Quiz

27%

Процесс обучения модели (Training) — один раз, но очень мощно

68%

Процесс использования модели пользователями (Inference) — миллионы маленьких запросов каждый день

Процесс написания кода программистами

Хранение кода модели на GitHub

❤1

244 voters687 views21:06

About

Blog

Apps

Platform