Библиотека собеса по Data Science | вопросы с собеседований
4.39K subscribers
493 photos
14 videos
1 file
615 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
Вы строите модель для обнаружения редких мошеннических транзакций (0.1% от всех данных). Ваша модель просто всегда говорит «Это не мошенничество». Какая метрика будет абсолютно бесполезной?
Anonymous Quiz
20%
Precision
15%
Recall
57%
Accuracy
8%
F1
2🌚1
У вас есть признак «Город проживания» с 500 уникальными значениями. Вы решаете использовать One-Hot Encoding.
К какой основной проблеме это приведет при обучении модели (особенно линейной)?
Anonymous Quiz
4%
Модель станет слишком простой и не увидит связей
89%
Проклятие размерности и чрезмерная разреженность данных
6%
Города будут отсортированы по алфавиту, что создаст ложную зависимость
1%
Никакой проблемы нет, это стандартный подход
👍1
Вы обучаете нейронную сеть, где один признак варьируется от 0 до 1, а другой — от 1 000 000 до 10 000 000. Вы забыли сделать Scaling (масштабирование).
Как это отразится на процессе обучения?
Anonymous Quiz
12%
Нейросеть сама поймет масштаб и подстроится
55%
Веса маленького признака просто обнулятся
32%
Линии уровня функции потерь станут сильно вытянутыми (эллипсами)
1%
Модель будет работать быстрее, так как не тратит время на нормализацию
👍2
У вас есть база знаний на 1 ГБ. Вы выбираете между использованием RAG (поиск кусочков) и Long Context (запихнуть всё в одну модель).
В каком случае риск «галлюцинации из-за шума» выше?
Anonymous Quiz
8%
Риски одинаковы
19%
В RAG, если поисковик (retriever) принес нерелевантный мусор
72%
В Long Context, так как модель может смешать факты из разных частей огромного текста
👍1
😱 Если ваш продукт не умеет отдавать данные в формате, понятном AI-агенту, то вас просто не существует

Скрипт не будет кликать по красивым кнопкам в браузере, он уйдёт к конкуренту с нормальным API. Перестроить архитектуру под машинных клиентов — это уже не хайп, а необходимое условие сохранения конкурентоспособности.

Как адаптировать продукт и не исчезнуть из выдачи:

— интегрировать MCP и A2A-взаимодействие, чтобы агенты могли вас читать;
— научиться контролировать стоимость (лимиты, кэш, роутинг между моделями);
— настроить AgentOps: трейсинг, логирование и отлов регрессий.

Всё это ждёт вас на обновлённом курсе «Разработка AI-агентов». Мы специально сделали фокус на утилитарном инжиниринге и production-ready решениях.

Кстати, до 29 марта можно забрать курс с большой скидкой, и стоит поторопиться — мест на потоке всё меньше.

Зафиксировать цену и начать деплоить агентов без слива бюджета 👈
Вы подаете на вход модели изображение панды, но добавляете к нему микроскопический «шум», невидимый для человеческого глаза. Модель с уверенностью 99% говорит, что это «гиббон».
Как называется этот феномен в глубоком обучении?
Anonymous Quiz
27%
Галлюцинация
41%
Adversarial Example
29%
Нейронный шум
4%
Ошибка округления
🤖 Освойте продвинутые методы NLP и работайте с LLM на высоком уровне

Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?

Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.

Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.

🔥Подайте заявку на курс уже сегодня и получите специальное предложение в честь дня рождения ОТУС:
+10% к скидкам на сайте по промокоду birthday до 04.04
+5% по промокоду go_qa5
🎁Соберите скидку до 25%

➡️ Оставьте заявку прямо сейчас и получите скидку на обучение: https://clc.to/fNeiMw

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Вы готовите временные ряды для предсказания курса акций. Вы решили нормализовать данные (Scaling), вычислив среднее и стандартное отклонение по всему имеющемуся датасету перед разбиением на Train и Test.
К какой ошибке в оценке модели это приведет?
Anonymous Quiz
3%
Модель будет обучаться слишком долго, так как нормализация больших чисел требует много ресурсов
19%
Нормализация по всему датасету сделает веса модели маленькими, что приведет к затуханию градиента
2%
Это приведет к дублированию строк в базе данных SQL
76%
Произойдет «утечка будущего»
👍1
Алгоритмы вроде YOLO часто выдают несколько bounding boxes вокруг одного и того же объекта с разной степенью уверенности. Для очистки используется Non-Maximum Suppression.
На основе какого показателя NMS решает, что две рамки относятся к одному объекту?
Anonymous Quiz
15%
На основе разницы в площади (Area difference) между рамками
74%
На основе метрики Intersection over Union (IoU)
1%
На основе среднего цвета пикселей внутри каждой рамки
10%
На основе евклидова расстояния между левыми верхними углами рамок