Библиотека собеса по Data Science | вопросы с собеседований

Когда модель не влезает в одну видеокарту, её «режут» на части. Если вы разделяете модель по слоям (например, первые 40 слоев на одной GPU, остальные 40 — на другой), как называется такой тип параллелизма?

Anonymous Quiz

Data Parallelism

238 voters694 views20:45

Библиотека собеса по Data Science | вопросы с собеседований

В 2024-2026 годах Flash Attention стала обязательным компонентом любой быстрой модели. За счет чего она ускоряет обучение и работу трансформеров?

Anonymous Quiz

11%

Она уменьшает количество параметров модели в 2 раза

76%

Она оптимизирует чтение и запись в память GPU, уменьшая количество лишних операций

12%

Она заменяет Softmax на простую сумму

Она работает только на процессорах Apple

❤1

198 voters670 views18:13

Библиотека собеса по Data Science | вопросы с собеседований

Почему мы так часто предполагаем, что ошибки в данных распределены нормально? Какое утверждение о ЦПТ верно?

Anonymous Quiz

30%

Любая выборка данных всегда стремится к нормальному распределению при увеличении её размера

68%

Сумма большого кол-ва независимых случайных величин с любым распределением стремится к норм. рас-ю

Среднее значение всегда равно медиане в любом датасете

ЦПТ работает только для данных, собранных из интернета.

❤1

217 voters633 views20:04

Библиотека собеса по Data Science | вопросы с собеседований

Начать рассказывать интервьюеру, как вы ловко дёргаете ручки API через базовый LangChain.

Звучит как отличный план, да? Нет, это мгновенный отказ.

В свежем отчёте по рынку GPU говорится, что 54% компаний стопают ИИ-внедрения тупо из-за конских затрат на инфраструктуру. На серверах более 70% стоимости — это видеокарты. Поэтому на собесах сейчас спрашивают не про красивые промпты, а про жёсткую экономику агентов.

По сути, от вас ждут понимания, как лимитировать ресурсы на лету, роутить запросы и дебажить отказы через механизм time-travel в LangGraph. Если вы до сих пор собираете ботов в ноутбуках, гляньте обновлённый курс «Разработка ИИ-агентов» — фокус там смещён с игрушечных концепций на суровый энтерпрайз.

Что требуют от мидлов и выше:

— интеграция мультиагентных систем по стандарту MCP;
— суровый AgentOps: метрики, трейсинг, защита от деградации пайплайнов;
— локальный деплой Open Source под 152-ФЗ (без этого в финтех можно даже не стучаться).

Прямо сейчас можно урвать курс с увесистой скидкой (49 000 ₽ 62 990 ₽ за базовый тариф и 99 000 ₽ 124 990 ₽ за продвинутый трек), но стоит поторопиться — на потоке осталось всего 5 мест.

👉 Подтянуть архитектуру до уровня прода

620 views08:03

Библиотека собеса по Data Science | вопросы с собеседований

Вы строите модель для обнаружения редких мошеннических транзакций (0.1% от всех данных). Ваша модель просто всегда говорит «Это не мошенничество». Какая метрика будет абсолютно бесполезной?

Anonymous Quiz

❤2🌚1

210 voters604 views11:03

Библиотека собеса по Data Science | вопросы с собеседований

У вас есть признак «Город проживания» с 500 уникальными значениями. Вы решаете использовать One-Hot Encoding.
К какой основной проблеме это приведет при обучении модели (особенно линейной)?

Anonymous Quiz

Модель станет слишком простой и не увидит связей

89%

Проклятие размерности и чрезмерная разреженность данных

Города будут отсортированы по алфавиту, что создаст ложную зависимость

Никакой проблемы нет, это стандартный подход

👍1

213 voters619 views12:07

Библиотека собеса по Data Science | вопросы с собеседований

Вы обучаете нейронную сеть, где один признак варьируется от 0 до 1, а другой — от 1 000 000 до 10 000 000. Вы забыли сделать Scaling (масштабирование).
Как это отразится на процессе обучения?

Anonymous Quiz

12%

Нейросеть сама поймет масштаб и подстроится

55%

Веса маленького признака просто обнулятся

32%

Линии уровня функции потерь станут сильно вытянутыми (эллипсами)

Модель будет работать быстрее, так как не тратит время на нормализацию

👍2

214 voters654 views10:33

Библиотека собеса по Data Science | вопросы с собеседований

Многие LLM страдают от «избыточной уверенности» (Overconfidence).
Что это означает с точки зрения вероятностей токенов?

Anonymous Quiz

14%

Модель выдает только те слова, в которых уверена на 100%

73%

Модель приписывает высокую вероятность (например, 0.99) фактически неверному утверждению

Модель отказывается отвечать на вопросы, если вероятность ниже 0.5

Это когда модель начинает спорить с пользователем или наоборот всегда поддерживает его мнение

👍2

200 voters645 views11:13

Библиотека собеса по Data Science | вопросы с собеседований

У вас есть база знаний на 1 ГБ. Вы выбираете между использованием RAG (поиск кусочков) и Long Context (запихнуть всё в одну модель).
В каком случае риск «галлюцинации из-за шума» выше?

Anonymous Quiz

Риски одинаковы

19%

В RAG, если поисковик (retriever) принес нерелевантный мусор

72%

В Long Context, так как модель может смешать факты из разных частей огромного текста

👍1

216 voters591 views09:53

Библиотека собеса по Data Science | вопросы с собеседований

Вы выбираете метрику расстояния для своей базы данных эмбеддингов.
В каком случае Косинусное сходство (Cosine Similarity) предпочтительнее Евклидова расстояния (L2)?

Anonymous Quiz

15%

Когда нам важна абсолютная величина (длина) векторов (например, популярность товара)

84%

Когда нам важно только направление векторов, а их длина может варьироваться из-за объема текста

Когда данные состоят только из целых чисел

Косинусное сходство всегда работает медленнее, поэтому его не используют

❤1

186 voters536 views09:53

Библиотека собеса по Data Science | вопросы с собеседований

😱 Если ваш продукт не умеет отдавать данные в формате, понятном AI-агенту, то вас просто не существует

Скрипт не будет кликать по красивым кнопкам в браузере, он уйдёт к конкуренту с нормальным API. Перестроить архитектуру под машинных клиентов — это уже не хайп, а необходимое условие сохранения конкурентоспособности.

Как адаптировать продукт и не исчезнуть из выдачи:

— интегрировать MCP и A2A-взаимодействие, чтобы агенты могли вас читать;
— научиться контролировать стоимость (лимиты, кэш, роутинг между моделями);
— настроить AgentOps: трейсинг, логирование и отлов регрессий.

Всё это ждёт вас на обновлённом курсе «Разработка AI-агентов». Мы специально сделали фокус на утилитарном инжиниринге и production-ready решениях.

Кстати, до 29 марта можно забрать курс с большой скидкой, и стоит поторопиться — мест на потоке всё меньше.

Зафиксировать цену и начать деплоить агентов без слива бюджета 👈

559 views10:00

Библиотека собеса по Data Science | вопросы с собеседований

Этот подход считается «золотым стандартом» для автономных агентов.
В чем заключается основная петля цикла ReAct?

Anonymous Quiz

Модель сначала пишет весь код, а потом один раз его запускает

88%

Модель чередует генерацию мыслей и вызов инстр-тов, чтобы получить результат и скорректировать шаг

Модель просто повторяет запрос пользователя, пока не найдет ответ

Это метод автоматического перевода мыслей в SQL-запросы

163 voters573 views08:47

Библиотека собеса по Data Science | вопросы с собеседований

Модель CLIP от OpenAI стала фундаментом для Stable Diffusion и Midjourney. Как именно она училась понимать связь между картинкой и текстом?

Anonymous Quiz

Она попиксельно перерисовывала фотографии в текст

79%

Она училась сопоставлять пары «изображение-описание»

Этот метод используется только для картинок

Она запоминала названия всех файлов и присвоивала рейтинг

13%

Модель впервые обладала вниманием, что позволила работать с длинным контекстом

👍1🤩1

174 voters567 views09:17

Библиотека собеса по Data Science | вопросы с собеседований

Вы подаете на вход модели изображение панды, но добавляете к нему микроскопический «шум», невидимый для человеческого глаза. Модель с уверенностью 99% говорит, что это «гиббон».
Как называется этот феномен в глубоком обучении?

Anonymous Quiz

190 voters478 views19:11

Библиотека собеса по Data Science | вопросы с собеседований

При обучении классификаторов (включая LLM) часто используют Label Smoothing (размытие меток).
Какую фундаментальную проблему переобучения решает этот метод?

Anonymous Quiz

13%

Он помогает модели лучше обрабатывать редкие токены (Out-of-Vocabulary)

71%

Он предотвращает ситуацию, когда модель становится «слишком уверенной» (overconfident)

Он автоматически корректирует дисбаланс классов в датасете

Он заменяет Hard Attention на Soft Attention на уровне функции потерь

❤1👍1

138 voters423 views08:38

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Освойте продвинутые методы NLP и работайте с LLM на высоком уровне

Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?

Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.

Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.

🔥Подайте заявку на курс уже сегодня и получите специальное предложение в честь дня рождения ОТУС:
+10% к скидкам на сайте по промокоду birthday до 04.04
+5% по промокоду go_qa5
🎁Соберите скидку до 25%

➡️

Оставьте заявку прямо сейчас и получите скидку на обучение: https://clc.to/fNeiMw

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

436 views14:59

Библиотека собеса по Data Science | вопросы с собеседований

В большинстве современных библиотек (PyTorch, TensorFlow) параметры оптимизатора AdamW отделяют Weight Decay от вычисления градиента.
В чем заключается техническая причина появления AdamW вместо обычного Adam с L2-регуляризацией?

Anonymous Quiz

31%

В Adam обычная L2-регуляризация работает некорректно, т.к. она смешивается с адаптивными моментами

37%

Weight Decay в AdamW работает быстрее, т.к. не требует вычисления второй производной функции потерь

24%

AdamW позволяет использовать разные коэф-ты регуляризации для матриц Attention и полносвязных слоев

Обычный Adam не поддерживает регуляризацию для тензоров в формате FP16 из-за ошибок округления

132 voters487 views18:40

Библиотека собеса по Data Science | вопросы с собеседований

Почему практически все современные SOTA-модели используют LR Warmup (постепенное увеличение шага обучения в начале)?

Anonymous Quiz

60%

Чтобы дать оптимизатору Adam время «прогреть» moments и накопить адекватную статистику по градиентам

28%

Первый шаг может выбросить модель в область, из которой она не вернется к оптимальному минимуму

Это нужно, чтобы Batch Normalization успела рассчитать среднее и дисперсию по первым батчам данных

Это защитный механизм, предотвращающий перегрев GPU при резком старте интенсивных вычислений

141 voters456 views18:11

Библиотека собеса по Data Science | вопросы с собеседований

При создании Data Lake для обучения моделей почти всегда выбирают Apache Parquet.Какая структурная особенность Parquet делает его на порядки эффективнее для аналитических запросов (например, «посчитать среднюю длину всех постов»)?

Anonymous Quiz

18%

Parquet сжимает данные с помощью алгоритма ZIP, что позволяет хранить в 10 раз больше текста

61%

Это columnar формат. При запросе признака система читает с диска только нужные столбцы.

Он автоматически переводит все строки на английский язык, унифицируя данные для токенизатора

18%

Parquet — это бинарный формат, который исполняется напрямую процессором GPU без участия ОП

👍1

136 voters425 views18:45

Библиотека собеса по Data Science | вопросы с собеседований

Вы готовите временные ряды для предсказания курса акций. Вы решили нормализовать данные (Scaling), вычислив среднее и стандартное отклонение по всему имеющемуся датасету перед разбиением на Train и Test.
К какой ошибке в оценке модели это приведет?

Anonymous Quiz

Модель будет обучаться слишком долго, так как нормализация больших чисел требует много ресурсов

19%

Нормализация по всему датасету сделает веса модели маленькими, что приведет к затуханию градиента

Это приведет к дублированию строк в базе данных SQL

76%

Произойдет «утечка будущего»

👍1

170 voters371 views19:06

Библиотека собеса по Data Science | вопросы с собеседований

В оригинальной архитектуре ViT к последовательности патчей изображения добавляется специальный обучаемый вектор — [CLS] token.Какую именно роль он играет при классификации всей картинки, в отличие от векторов отдельных патчей?

Anonymous Quiz

14%

Он служит «якорем» для нормализации яркости всех остальных патчей перед подачей в механизм Attention

57%

При прохождении через трансформер он агрегирует информацию со всех патчей за счет Self-Attention

20%

Он используется для сегментации объектов: указывает, какой патч является фоном, а какой - объектом

Он нужен для сохранения исходного разрешения, так как при разбиении на патчи часть пикселей теряется

❤1

93 voters299 views18:07

About

Blog

Apps

Platform