Библиотека собеса по Data Science | вопросы с собеседований

💻

Почему в распределённых системах обучения нейросетей (например, на десятках GPU) важно следить за синхронизацией градиентов

В распределённом обучении модели параллельно обновляются на нескольких устройствах, и если синхронизация градиентов между ними происходит неправильно или с задержками, это может привести к неустойчивому обучению, рассинхронизации весов и даже ухудшению сходимости.

Вот что может пойти не так:

➡️ Градиенты отстают во времени

Если одна из машин медленнее (straggler), она может прислать устаревшие градиенты. Модель уже изменилась, а она получает запоздалые обновления — возникает эффект «шага назад».

➡️ Асинхронные ошибки и гонки

При отсутствии блокировок возможны гонки состояний — разные устройства обновляют веса на основе разной версии параметров, что разрушает стабильность обучения.

➡️ Разный масштаб градиентов

Если используется несогласованное масштабирование (например, из-за разных batch size на узлах), градиенты могут складываться некорректно, что влияет на скорость и направление оптимизации.

➡️ Silent divergence

Иногда обучение продолжает идти «как будто бы нормально», но модель просто перестаёт чему-либо учиться, потому что синхронизация нарушена — и это трудно отследить без специальных логов.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

646 views18:03

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Вы ещё можете застать старый добрый Proglib — с вечным доступом к курсам.

С 1 августа всё меняется: навсегда — останутся только те, кто успел купить сейчас.

-40% на все курсы. Включая обновлённый Python (кроме курса по AI-агентам)

Это не просто распродажа. Это — последняя точка входа в Proglib Academy по старым правилам.

📚 Выбрать и забрать свой курс навсегда → https://clc.to/TBtqYA

642 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

⛰ Почему некоторые исследователи считают, что предсказуемость модели может вредить пользовательскому доверию, даже если её точность объективно высока

Парадоксально, но если модель ведёт себя слишком «предсказуемо» или «механически», люди могут терять к ней доверие — особенно если они чувствуют, что она не учитывает нюансы ситуации. Это проявляется в системах рекомендаций, медицинских ассистентах и даже чат-ботах. Люди ожидают от ИИ не только точности, но и понимания контекста и эмпатии.

Конкретные примеры:

➡️

Медицинские системы:
Если пациент видит, что система всегда даёт один и тот же совет независимо от деталей, он решит, что ей нельзя доверять — даже если совет корректный.

➡️

Рекомендательные алгоритмы:
Чрезмерно логичные или зацикленные рекомендации (например, «ты посмотрел фильм про космос — вот ещё 50 таких») вызывают раздражение и ощущение, что «модель тупит».

➡️

Диалоговые агенты:
Если ответы слишком шаблонны, люди не верят, что модель действительно "понимает". Лучше меньше точности, но больше контекстуальности.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

608 views18:58

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Мы запускаем онлайн-курс по машинному обучению для Data Science.

Хочешь войти в Data Science, но не знаешь, с чего начать?
А может, ты уже в теме, но чувствуешь, что знаний не хватает?

Старт курса — 12 августа, и это отличный шанс пройти весь путь — от теории до уверенного применения.

Что внутри:
— от линейных моделей и градиентного спуска до бустинга и рекомендательных систем
— реальные примеры, практика, задачи и живая менторская поддержка
— всё, что нужно, чтобы не просто разобраться, а применять ML в реальных проектах

Ведет курс Мария Жарова:
ML-инженер в Wildberries, преподаватель МФТИ, ТГУ и МИФИ, практик и автор канала @data_easy

🎁 По промокоду Earlybird — скидка 10.000 рублей, только до 27 июля.

Для первых 10 студентов мы подготовили эксклюзивный лонгрид по теме курса, который позволит начать учиться уже сейчас.

👉 Записаться на курс

665 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

❓ Зачем в машинном обучении изучают и моделируют враждебные воздействия (adversarial attacks), если в реальной жизни никто не «рисует шум» на картинки

Adversarial-примеры показывают, насколько модель может быть уязвима: малозаметный шум для человека способен полностью изменить её решение. Это значит, что модель не «понимает» суть, а опирается на хрупкие паттерны.

Анализ таких атак помогает выявлять слабые места и делать ИИ более надёжным — особенно там, где ошибка критична: в медицине, транспорте, безопасности.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

667 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

❓ Почему важно учитывать поведение пользователей при обучении рекомендательных моделей, даже если метрики кликов растут

Потому что модели могут усиливать нежелательные паттерны: подсаживать на бесконечный скролл, закреплять «информационные пузыри» или продвигать токсичный контент, если это даёт больше кликов. Поведение пользователей — не всегда признак того, что им полезно. Модель может подталкивать к действиям, которые в долгосрочной перспективе вредны. Поэтому важно учитывать не только CTR, но и долгосрочное влияние на пользователя и среду.

Библиотека собеса по Data Science

❤3👍2

694 views18:01

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Хороший ML-разработчик не начинает с нейросетей

На собеседовании по ML System Design кандидату дают задачу «предсказать отток», а он сразу лезет в нейросети. Красиво, модно, дорого.

Но профи думает иначе:

💭 Логрегрессия? Градиентный бустинг?
💭 А сколько у нас данных и времени?
💭 Что с интерпретируемостью?

Потому что не выбрать адекватную модель — это уже ошибка.

Нейросети — это круто. Но без понимания классического ML вы просто «подключаете модельку», а не строите решения.

➡️ На курсе разберём:

— линейные модели, деревья, PCA, кластеризацию
— метрики, переобучение, bias vs variance
— инженерные подводные камни, которые идут сразу после fit()

🎁 Скидка 10 000₽ по промокоду Earlybird, только до 27 июля.

А ещё — подарок для первых 10 участников: специальный лонгрид по теме курса, чтобы вы могли начать погружение в материал уже сегодня.

🔗 Успей записаться — и начни карьеру в Data Science уже через 3 месяца!

758 views18:43

Библиотека собеса по Data Science | вопросы с собеседований

📍 Почему выбор тестовой выборки может сильнее повлиять на выводы о модели, чем архитектура или гиперпараметры

Потому что если тестовая выборка не отражает реальные условия, любые выводы о «качестве модели» будут ложными.

Даже идеальная модель может провалиться, если тест не покрывает важные кейсы — например, редкие классы, пограничные случаи или будущие изменения среды.

В машинном обучении качество модели — это качество вывода о ней, и тестовая выборка — его основа. Это особенно критично в задачах с перекосом классов, изменяющейся средой и высокой ценой ошибки.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

700 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

😤 Устал листать туториалы, которые не складываются в картину

У тебя в голове уже есть логрегрессии, деревья, метрики и какая-то PCA, но системного понимания всё нет?

Пора с этим разобраться!

Наш курс по классическому ML:

— научит выбирать адекватные модели под задачу
— разложит метрики, переобучение и bias по полочкам
— покажет, что скрывается за fit/predict, и что с этим делать

🔔 До 27 июля по промокоду Earlybird — минус 10.000₽

P.S. Первые 10 участников получат эксклюзивный лонгрид, чтобы начать изучать тему ещё до старта курса.

👉 Поменяй свою жизнь: старт карьеры в AI — успей до закрытия набора!

695 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

👉 Зачем оценивать не только точность модели, но и её задержку (latency) и потребление ресурсов

Потому что модель — это не только алгоритм, но и часть живой системы, где важно, насколько быстро и стабильно она работает.

Даже самая точная модель может быть бесполезной, если отвечает медленно, не помещается в память устройства или «кладёт» сервер под нагрузкой. В реальных приложениях ценность — это баланс между качеством, скоростью и стоимостью.

Особенно критично это в мобильных, embedded-устройствах и real-time сервисах.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

660 views18:31

Библиотека собеса по Data Science | вопросы с собеседований

🤔 «Начни сразу с нейросетей — зачем тебе логрегрессия?»

Это один из худших советов для начинающего ML-разработчика. Зрелость — это понимать, где простого достаточно, а не тянуть трансформеры на любую задачу из-за хайпа.

Классика ML — это не допотопная теория, а база (bias/variance, деревья, метрики), без которой не понять Deep Learning.

⚡️ Хотите освоить этот фундамент на реальных задачах? Приходите на наш курс по классическому ML. Только хардкор, только продовые задачи!

📆 Старт — 12 августа.

Для первых 10 участников бонус — специальный лонгрид по теме курса, чтобы вы могли начать разбираться уже сейчас.

🎁 Последний день промокода Earlybird на скидку 10.000₽.

👉 Не упустите шанс!

652 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

❓

Как управлять случайностью в генетических алгоритмах, чтобы обеспечить воспроизводимость результатов

Генетические алгоритмы используют случайные процессы — инициализацию, выбор родителей, точки скрещивания и мутации. Это приводит к вариативности результатов.

Чтобы повысить воспроизводимость:
➕

Используют контроль начальных условий генератора случайных чисел, чтобы получить повторяемые последовательности в однопоточных запусках.

➕

Ведут детальный лог каждой особи и всех случайных решений, которые привели к её появлению — это помогает восстановить ход поиска.

➕

Проводят несколько независимых запусков с разными начальными условиями и анализируют разброс результатов — так оценивают стабильность алгоритма и параметры настройки.

➕

Помнят, что в многопоточных и распределённых вычислениях точная битовая воспроизводимость невозможна из-за особенностей параллельных операций и вычислений с плавающей точкой.

Главное — стремиться к воспроизводимости не в точности битов, а в качестве и поведении алгоритма в целом.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

778 views18:09

Библиотека собеса по Data Science | вопросы с собеседований

🔗 В чём ключевое отличие между предобучением self-supervised и supervised моделей, если обе используют один и тот же датасет

Разница не в данных, а в цели задачи (proxy task). Supervised-модель учится напрямую предсказывать метки — например, класс объекта. А self-supervised модель создаёт искусственную задачу (например, предсказать пропущенное слово или порядок кадров в видео), которая не требует ручной разметки.

➡️ Это позволяет модели выучить общие представления (features), которые полезны и для других задач.

Важно, что self-supervised обучение часто извлекает более структурированные и универсальные признаки, потому что не фиксируется на конкретной метке, а вынуждена «понимать» контекст и структуру входа.

➡️ На практике это даёт мощную и масштабируемую альтернативу ручной разметке — особенно при работе с текстом, изображениями или аудио.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

811 views17:59

Библиотека собеса по Data Science | вопросы с собеседований

🗂 Почему важно учитывать порядок признаков в табличных данных, даже если большинство моделей вроде бы инвариантны к нему

Хотя многие алгоритмы (например, деревья решений) действительно не чувствительны к порядку колонок, сам порядок может влиять на всё, что вокруг модели:
— на предобработку (например, при стандартизации пакетами или сохранении схемы);
— на обратную совместимость при обновлении моделей;
— на работу в продакшене, где порядок может нарушиться при сериализации/десериализации.

Более того, некоторые модели (особенно нейронные сети для табличных данных) могут использовать позиционную информацию, особенно если данные подаются как последовательность. А при autoML или feature selection шаги могут зависеть от начального порядка, если нет явной нормализации.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

763 views18:00

Библиотека собеса по Data Science | вопросы с собеседований

❌ Почему модель может работать хуже после удаления «казалось бы бесполезных» признаков

Потому что даже признаки, которые по отдельности кажутся слабыми или нерелевантными, могут играть ключевую роль в комбинации с другими. Это называется взаимодействие признаков (feature interaction). Модель может улавливать сложные зависимости между группами признаков, и удаление одного может «сломать» эту структуру.

Кроме того, признаки могут нести косвенную информацию: например, случайный ID клиента может коррелировать со временем регистрации, а значит — с поколением пользователей или сезоном. Даже если это кажется «шумихой», модель может использовать это как полезный сигнал.

Это одна из причин, почему автоматическая отборка признаков — не всегда безопасна, и почему важно анализировать модель целостно, а не только по значимости отдельных фичей.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥2

815 views17:37

Библиотека собеса по Data Science | вопросы с собеседований

👉 В вашей задаче данные поступают постепенно, а разметка появляется с задержкой. Как организовать обучение модели в таких условиях

Это ситуация с отложенной обратной связью — типична для рекомендательных систем, финтеха, healthtech и других отраслей.

Тут важно:

🔎

Буферизовать метки: хранить все входные данные и их предсказания, чтобы при появлении метки — привязать её к нужному входу.

🔎

Обучать с лагом: ввести обучающий цикл, который использует только старые (полностью размеченные) данные.

🔎

Использовать псевдоразметку или онлайн-сигналы: если задержка критична, можно временно использовать прокси-метки или слабые сигналы.

🔎

Контролировать data leakage: при любой задержке легко по ошибке обучиться на будущих данных.

🔎

Оценка через holdback-стратегии: часть данных можно специально не использовать для обучения, чтобы позже протестировать модель на будущем.

Такой подход ближе к stream learning или delayed feedback learning — важен там, где модель взаимодействует с миром, а не просто классифицирует CSV.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

767 views18:21

Библиотека собеса по Data Science | вопросы с собеседований

➡️

В вашей задаче класс «положительный» встречается крайне редко. Модель даёт 99% accuracy — но приносит ноль пользы.

Это ситуация дисбаланса классов, и такая высокая accuracy — иллюзия: модель просто всегда предсказывает «отрицательный» класс.

Важно:

➡️

Перейти к метрикам, чувствительным к редкому классу: F1, precision/recall, ROC AUC, PR AUC.

➡️

Попробовать балансировку: undersampling/oversampling, генерация данных (например, SMOTE).

➡️

Использовать взвешенные лоссы или кастомные метрики, чтобы усилить «наказание» за ошибки на редком классе.

➡️

Рассмотреть другой подход — например, не классификацию, а ранжирование, если цель — находить top-N полезных примеров.

➡️

Проконсультироваться с бизнесом: возможно, важна high precision, а recall можно жертвовать — или наоборот.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3❤2👍1

727 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

📈 Как вы будете оценивать качество модели, если у вас нет доступных «истинных» меток в продакшене

Это реальная проблема во многих продуктах — например, в рекомендательных системах, предсказаниях отмен заказов, финансовом скоринге и т.п.

Возможные подходы:

▶️

Делayed feedback: использовать метки, которые появляются с задержкой. Всё равно сохраняем предсказания и «догоняем» оценку позже.

▶️

Прокси-метрики: если нет ground truth, можно использовать поведенческие сигналы — например, клик или отказ (proxy for relevance).

▶️

Shadow-модель: запускать модель параллельно с текущей системой и сравнивать предсказания, без воздействия на пользователя.

▶️

A/B-тестирование: запускать часть трафика на новую модель и измерять бизнес-метрики (конверсии, выручку и т.д.).

▶️

Сравнение распределений: можно следить за prediction drift — если распределение выходов резко отличается от обучающего, это может быть сигналом о деградации.

▶️

Модель доверия: обучить вторую модель, которая предсказывает вероятность ошибки основной — своего рода safety layer.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

749 viewsedited 18:03

Библиотека собеса по Data Science | вопросы с собеседований

👉 Как бы вы поступили, если ваша модель показывает хорошие метрики, но бизнес-цель при этом не улучшается

Возможные причины и действия:

Неверные метрики: может быть, оптимизируется surrogate-метрика (например, ROC AUC), которая слабо коррелирует с бизнес-результатом.
→ Перейти к метрикам, отражающим бизнес (uplift, ROI, precision@top-K).

Неправильная точка принятия решения: модель даёт предсказания, но downstream-система их игнорирует или использует неправильно.
→ Проверить интеграцию: как именно модель влияет на решение.

Неверная целевая функция: возможно, модель обучена на задачу, которая не связана напрямую с целью (например, клик ≠ покупка).
→ Пересмотреть target или изменить бизнес-логику.

Эффект на поведение: модель меняет поведение пользователей так, что в итоге это ухудшает метрику (например, слишком агрессивная рекомендация вызывает отток).
→ Провести A/B-тест и анализ пост-эффектов.

Библиотека собеса по Data Science

❤4👍1🔥1

737 views17:06

Библиотека собеса по Data Science | вопросы с собеседований

❓ Как вы поймёте, что модель недостаточно сложна для вашей задачи, если при этом нет явных признаков недообучения по метрикам

Обычно недообучение проявляется через низкие метрики на тренировке и валидации. Но бывает, что метрики неплохие, а модель не захватывает важные зависимости.

Это может быть критично, особенно если:

✅

Плохая способность к обобщению на сложные случаи

— Например, модель уверенно справляется с типовыми примерами, но ошибается на edge cases, редких или более сложных подгруппах данных.

✅

Ошибки сконцентрированы в важной подвыборке

— Например, модель плохо работает на новых регионах, продуктах или временных периодах.

✅

Сильная зависимость от простых фичей

— Даже при высокой точности, если модель полагается только на "легкие" корреляции (например, средние значения), она может игнорировать тонкие сигналы.

✅

Модель плохо обучается на добавленных сложных признаках

— Если после добавления нетривиальных фич метрики почти не растут, возможно, архитектура модели не позволяет использовать их эффективно.

✅

Анализ ошибок вручную

— Просмотр ошибок показывает систематические промахи в логике, а не шум.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4😁2❤1

739 views18:16

About

Blog

Apps

Platform