Библиотека собеса по Data Science | вопросы с собеседований
4.31K subscribers
439 photos
10 videos
1 file
445 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
😤 Устал листать туториалы, которые не складываются в картину

У тебя в голове уже есть логрегрессии, деревья, метрики и какая-то PCA, но системного понимания всё нет?

Пора с этим разобраться!

Наш курс по классическому ML:

— научит выбирать адекватные модели под задачу
— разложит метрики, переобучение и bias по полочкам
— покажет, что скрывается за fit/predict, и что с этим делать

🔔 До 27 июля по промокоду Earlybird минус 10.000₽

P.S. Первые 10 участников получат эксклюзивный лонгрид, чтобы начать изучать тему ещё до старта курса.

👉 Поменяй свою жизнь: старт карьеры в AI — успей до закрытия набора!
👉 Зачем оценивать не только точность модели, но и её задержку (latency) и потребление ресурсов

Потому что модель — это не только алгоритм, но и часть живой системы, где важно, насколько быстро и стабильно она работает.

Даже самая точная модель может быть бесполезной, если отвечает медленно, не помещается в память устройства или «кладёт» сервер под нагрузкой. В реальных приложениях ценность — это баланс между качеством, скоростью и стоимостью.

Особенно критично это в мобильных, embedded-устройствах и real-time сервисах.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🤔 «Начни сразу с нейросетей — зачем тебе логрегрессия?»

Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа.

Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning.

⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи!

📆 Старт — 12 августа.

Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас.

🎁 Последний день промокода Earlybird на скидку 10.000₽.

👉 Не упустите шанс!
Как управлять случайностью в генетических алгоритмах, чтобы обеспечить воспроизводимость результатов

Генетические алгоритмы используют случайные процессы — инициализацию, выбор родителей, точки скрещивания и мутации. Это приводит к вариативности результатов.

Чтобы повысить воспроизводимость:
Используют контроль начальных условий генератора случайных чисел, чтобы получить повторяемые последовательности в однопоточных запусках.

Ведут детальный лог каждой особи и всех случайных решений, которые привели к её появлению — это помогает восстановить ход поиска.

Проводят несколько независимых запусков с разными начальными условиями и анализируют разброс результатов — так оценивают стабильность алгоритма и параметры настройки.

Помнят, что в многопоточных и распределённых вычислениях точная битовая воспроизводимость невозможна из-за особенностей параллельных операций и вычислений с плавающей точкой.

Главное — стремиться к воспроизводимости не в точности битов, а в качестве и поведении алгоритма в целом.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🔗 В чём ключевое отличие между предобучением self-supervised и supervised моделей, если обе используют один и тот же датасет

Разница не в данных, а в цели задачи (proxy task). Supervised-модель учится напрямую предсказывать метки — например, класс объекта. А self-supervised модель создаёт искусственную задачу (например, предсказать пропущенное слово или порядок кадров в видео), которая не требует ручной разметки.

➡️ Это позволяет модели выучить общие представления (features), которые полезны и для других задач.

Важно, что self-supervised обучение часто извлекает более структурированные и универсальные признаки, потому что не фиксируется на конкретной метке, а вынуждена «понимать» контекст и структуру входа.

➡️ На практике это даёт мощную и масштабируемую альтернативу ручной разметке — особенно при работе с текстом, изображениями или аудио.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🗂 Почему важно учитывать порядок признаков в табличных данных, даже если большинство моделей вроде бы инвариантны к нему

Хотя многие алгоритмы (например, деревья решений) действительно не чувствительны к порядку колонок, сам порядок может влиять на всё, что вокруг модели:
на предобработку (например, при стандартизации пакетами или сохранении схемы);
на обратную совместимость при обновлении моделей;
на работу в продакшене, где порядок может нарушиться при сериализации/десериализации.

Более того, некоторые модели (особенно нейронные сети для табличных данных) могут использовать позиционную информацию, особенно если данные подаются как последовательность. А при autoML или feature selection шаги могут зависеть от начального порядка, если нет явной нормализации.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
Почему модель может работать хуже после удаления «казалось бы бесполезных» признаков

Потому что даже признаки, которые по отдельности кажутся слабыми или нерелевантными, могут играть ключевую роль в комбинации с другими. Это называется взаимодействие признаков (feature interaction). Модель может улавливать сложные зависимости между группами признаков, и удаление одного может «сломать» эту структуру.

Кроме того, признаки могут нести косвенную информацию: например, случайный ID клиента может коррелировать со временем регистрации, а значит — с поколением пользователей или сезоном. Даже если это кажется «шумихой», модель может использовать это как полезный сигнал.

Это одна из причин, почему автоматическая отборка признаков — не всегда безопасна, и почему важно анализировать модель целостно, а не только по значимости отдельных фичей.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
👉 В вашей задаче данные поступают постепенно, а разметка появляется с задержкой. Как организовать обучение модели в таких условиях

Это ситуация с отложенной обратной связью — типична для рекомендательных систем, финтеха, healthtech и других отраслей.

Тут важно:
🔎 Буферизовать метки: хранить все входные данные и их предсказания, чтобы при появлении метки — привязать её к нужному входу.
🔎Обучать с лагом: ввести обучающий цикл, который использует только старые (полностью размеченные) данные.
🔎Использовать псевдоразметку или онлайн-сигналы: если задержка критична, можно временно использовать прокси-метки или слабые сигналы.
🔎Контролировать data leakage: при любой задержке легко по ошибке обучиться на будущих данных.
🔎 Оценка через holdback-стратегии: часть данных можно специально не использовать для обучения, чтобы позже протестировать модель на будущем.

Такой подход ближе к stream learning или delayed feedback learning — важен там, где модель взаимодействует с миром, а не просто классифицирует CSV.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21