Библиотека собеса по Data Science | вопросы с собеседований – Telegram

Библиотека собеса по Data Science | вопросы с собеседований

@ds_interview_lib

4.26K subscribers

467 photos

15 videos

1 file

562 links

Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197

Download Telegram

About

Blog

Apps

Platform

Библиотека собеса по Data Science | вопросы с собеседований

4.26K subscribers

Библиотека собеса по Data Science | вопросы с собеседований

❓ Как объяснить коэффициенты логистической регрессии без технических деталей

💡 Представим так:

У нас есть модель, которая помогает понять — произойдёт ли какое-то событие. Например: купит ли человек товар, кликнет ли на рекламу или подпишется на рассылку.

Каждый признак (фактор) — это как один из аргументов «за» или «против» исхода. У каждого есть своя «весомость» — коэффициент:
➡️ Если коэффициент положительный — этот фактор повышает шанс, что событие произойдёт.
➡️ Если отрицательный — наоборот, снижает вероятность.
⭐ Чем больше по модулю число — тем сильнее влияние этого фактора.

Чтобы понять, насколько фактор влияет, можно посмотреть на exp(коэффициент) — это показывает, во сколько раз увеличиваются шансы.

▶️ Например:
Если exp(коэффициент) = 1.5, это значит: каждый дополнительный «балл» этого признака повышает шансы на 50%.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.02K views17:53

Библиотека собеса по Data Science | вопросы с собеседований

👌 Как правильно инициализировать центроиды в k-means, чтобы не застрять в плохом локальном минимуме

Простая случайная инициализация (выбор k случайных точек из данных) может привести к плохому результату, особенно если точки окажутся слишком близко друг к другу или не отражают структуру данных.

🔥 Лучшее решение — использовать алгоритм k-means++

Он работает так:
1. Сначала выбирается одна случайная точка из данных.
2. Далее каждый следующий центр выбирается с вероятностью, пропорциональной квадрату расстояния до ближайшего уже выбранного центра.

Такой подход равномерно распределяет центры и уменьшает риск плохой сходимости. В большинстве случаев он ещё и ускоряет обучение.

💡 В сложных случаях (например, потоковые данные или неустойчивое распределение) можно использовать:
— Инициализацию на основе иерархической кластеризации.
— Несколько прогонов с разными начальными условиями и выбор лучшего результата по ошибке.

Библиотека собеса по Data Science

👍3

1.08K views17:56

Библиотека собеса по Data Science | вопросы с собеседований

❓

Зачем в нейронных сетях используется техника label smoothing

Label smoothing — это техника регуляризации, при которой вместо подачи на выход модели «жестких» меток (например, [0, 0, 1, 0]) используют «размягчённые» метки (например, [0.01, 0.01, 0.96, 0.01]).

Это снижает переуверенность модели в своих прогнозах: модель учится не делать слишком уверенные предсказания даже на обучающих данных.

Главные преимущества:

📝

Улучшение обобщающей способности (меньше переобучение).

📝

Меньшая склонность к переуверенности в своих ошибках.

📝

Иногда помогает добиться более высокой точности, особенно на задачах классификации с большим числом классов.

Техника особенно эффективна, когда есть шум или множество похожих классов.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

994 views18:07

Библиотека собеса по Data Science | вопросы с собеседований

❔

Какими методами можно интерпретировать сложные модели, например, случайные леса или нейронные сети

Интерпретация сложных моделей требует специальных подходов, так как в отличие от простой логистической регрессии у них нет очевидных коэффициентов:

1️⃣

Feature Importance — метод оценки важности признаков. В деревьях отслеживается, насколько каждый признак снижает неопределенность (impurity) при разбиениях.

2️⃣

Partial Dependence Plots (PDPs) — графики зависимости, которые показывают, как меняется прогноз модели при изменении одного признака, усредняя влияние остальных.

3️⃣

LIME (Local Interpretable Model-Agnostic Explanations) — создает локальные приближённые модели вокруг отдельных предсказаний для объяснения, как конкретный результат был получен.

4️⃣

SHAP (SHapley Additive exPlanations) — использует идеи теории игр, чтобы справедливо распределить вклад каждого признака в конкретное предсказание.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

924 views18:19

Библиотека собеса по Data Science | вопросы с собеседований

🔥 IT Breaking Memes — 30 000 ₽ за самую смешную IT-новость

Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🏆 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

Пример:
Реальная новость: «Гугл создала модель для общения с дельфинами».

Смешная альтернатива: «Нейросеть от Гугл обрабатывает видеопоток с камеры в свинарнике. ИИ следит, сколько свинья находится возле кормушки, не отталкивают ли ее собратья. Недокормленных докармливают, а переевшие пропускают следующую кормешку».

📅 Сроки: с 29 апреля по 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Ждем ваших новостей!

935 views13:01

Библиотека собеса по Data Science | вопросы с собеседований

Библиотека собеса по Data Science | вопросы с собеседований pinned a photo

13:01

Библиотека собеса по Data Science | вопросы с собеседований

❓

Как PCA работает с пропущенными значениями в данных

Метод главных компонент (PCA) сам по себе не умеет обрабатывать пропущенные значения — ему нужны полные строки данных для вычисления ковариационной матрицы или проведения SVD.

Однако есть несколько способов обойти это ограничение:

🔹

Удаление неполных строк (listwise deletion): самый простой вариант — убрать все строки с пропущенными значениями. Но это может сильно сократить объем данных и исказить результат, особенно если данные пропущены не случайно.

🔹

Импутация: замена пропусков на среднее, медиану, значения ближайших соседей (KNN) или с помощью более сложных статистических моделей. После этого можно применять стандартный PCA. Качество результата сильно зависит от точности импутации.

🔹

Expectation-Maximization PCA: специальная итеративная техника, которая попеременно оценивает пропущенные значения и обновляет компоненты PCA. Этот метод сложнее, но может дать более точные результаты, чем обычная импутация.

🔹

Robust PCA / матричное дополнение: альтернативные методы, подходящие для больших и структурированных наборов данных. Они способны восстанавливать недостающие элементы с сохранением низкоранговой структуры, аналогичной PCA.

⚠️ Важно: любой из этих подходов может внести искажения. Если пропущено слишком много данных, или пропуски носят систематический характер, то результат PCA может быть некорректным.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2

852 views18:38

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🐍✨ Пиши как профи: 10 Python-лайфхаков для новичков

Лайфхаки от разработчиков, обжёгшихся до вас

➡️ Что вас ждет внутри:
— почему if x == True: — это преступление
— как списковые включения экономят часы
— зачем линтер важнее кофе
— и почему def func(start_list=[]) может испортить тебе вечер
— как не сойти с ума от зависимостей (и что делать с виртуальными окружениями)
— секретный power move: dir(), help() и другие встроенные суперсилы

И всё это без занудства и «книг для чайников». Просто, по делу, с примерами и личным опытом от бывалых питонистов

📎

Статья

🔵 Начинайте свой путь в программировании и прокачивайте свои навыки с нашим курсом «Основы программирования на Python»

Proglib Academy #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

604 views09:45

Библиотека собеса по Data Science | вопросы с собеседований

💬

Можно ли эффективно обучать нейросети, если их функция потерь не является выпуклой

Да, можно. Хотя невыпуклые функции потерь теоретически сложнее для оптимизации, на практике разработаны множество техник, которые позволяют успешно обучать нейросети:

🔹

Инициализация весов (например, He или Xavier) помогает избежать плохих стартовых точек.

🔹

Batch Normalization стабилизирует и ускоряет обучение.

🔹

Адаптивные оптимизаторы (как Adam, RMSProp) и моментум помогают лучше проходить через сложные участки ландшафта.

🔹

Регуляризация и схемы изменения learning rate снижают риск переобучения и ускоряют сходимость.

Кроме того, в нейросетях с большим числом параметров локальные минимумы часто оказываются «мелкими» и дают схожее качество на валидации. На практике модели с такими минимумами часто обобщаются отлично — даже несмотря на всю теоретическую «хаотичность» функции потерь.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

825 views17:54

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

🤯 Как простая задачка поставила в тупик программистов

На собеседовании задали простой вопрос:

«В мешке числа от 1 до 100. Одно пропало. Как найти его? А если пропали два числа? Три? Или вообще k чисел?»

Эта задачка превратилась в одно из самых обсуждаемых тем на Stack Overflow.

➡️ Что внутри статьи:
— Как найти 1 пропущенное число (формула + код).
— Как находить 2 и больше пропущенных чисел (оптимальные алгоритмы).
— Алгоритм Мински–Трахтенберга–Зиппеля.
— Симметрические многочлены и тождества Ньютона (и зачем они нужны).
— Примеры кода на Python для всех случаев.

Если хочешь понять, как красиво решать задачи уровня собесов — обязательно прочитай статью.

👉 Переходи к статье

🔵 Чтобы получить оффер-мечты в Data Science, забирайте наш курс → «Математика для Data Science»

Proglib Academy #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

623 views08:45

Библиотека собеса по Data Science | вопросы с собеседований

❔

Можно ли использовать MSE или MAE для задач классификации

Обычно для классификации используют логистическую или кросс-энтропийную функцию потерь, но в ряде случаев MSE (среднеквадратичную ошибку) или MAE (среднюю абсолютную ошибку) всё же применяют:

🔸

Бинарная классификация с непрерывным выходом: если модель выдаёт не чистый класс, а значение от 0 до 1, можно рассматривать задачу как регрессию и сравнивать это значение с меткой (0 или 1) с помощью MSE или MAE. Но важно понимать, что такой подход даёт слабые градиенты и может сходиться медленнее, чем при использовании кросс-энтропии.

🔸

Порядковая классификация (ordinal): если классы имеют естественный порядок (например, маленький < средний < большой), использование MSE или MAE может быть оправдано — модель учится предсказывать ранг, и ошибки ближе к истине наказываются слабее, чем ошибки, далёкие от неё.

⚠️ Потенциальные проблемы:
• При несбалансированных классах MSE/MAE могут вводить в заблуждение
• Такие функции не дают вероятностной интерпретации, как логистическая регрессия
• Пороговое определение класса (например, всё, что > 0.5 = класс 1) может быть плохо откалибровано

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

919 views17:58

Библиотека собеса по Data Science | вопросы с собеседований

❓

Почему логистическая регрессия не подвержена переобучению так же сильно, как деревья решений или нейросети

Логистическая регрессия — это линейная модель, и ее склонность к переобучению значительно ниже, чем у более гибких моделей, таких как decision trees или нейросети. Вот почему:

1. Ограниченная сложность модели

Логистическая регрессия линейно разделяет пространство признаков, что ограничивает ее гипотезы (модельное семейство). Это значит, что она имеет высокое смещение (bias), но низкую дисперсию (variance). Переобучение обычно связано с высокой дисперсией, которой у линейной модели меньше.

2. Малая VC-дименсия

В отличие от деревьев решений, которые могут запомнить структуру обучающей выборки почти целиком, логистическая регрессия имеет гораздо более низкую VC-дименсию, а значит — меньше риск выучить шум.

3. Регуляризация встроена естественным образом

В логистическую регрессию часто добавляют L1 или L2 регуляризацию (например, через параметр

C

в `sklearn`). Это сдерживает веса модели и предотвращает переобучение.

4. Обучение через оптимизацию функции правдоподобия

Вместо того чтобы искать сложные деревья или веса, как в нейросетях, логистическая регрессия решает выпуклую задачу оптимизации. Это делает процесс более стабильным и предсказуемым.

🔍 Но важно: логистическая регрессия может переобучиться при высокой размерности данных (особенно если признаков больше, чем наблюдений), или при наличии коррелированных и нерелевантных признаков — в этих случаях регуляризация обязательно нужна.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

924 views18:15

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Какие практические соображения важны при выборе функции активации

Память, вычислительная эффективность, числовая устойчивость и простота реализации — всё это важные факторы.

Например, ReLU и её варианты являются простыми покомпонентными операциями, которые хорошо оптимизированы на современном оборудовании (GPU и TPU).

Функции типа сигмоида или tanh могут быть более затратными по вычислениям и подвержены переполнению или исчезающе малым значениям в условиях экстремальных входов.

Когда производительность критична, многие исследователи по умолчанию выбирают ReLU — она обеспечивает хороший баланс между точностью, вычислительной эффективностью и стабильностью.

Дополнительные соображения включают в себя:

➡️

требуемый диапазон входов и выходов для последующих слоёв;

➡️

вероятность возникновения исчезающих или взрывающихся градиентов;

➡️

регуляризирующий эффект некоторых функций активации (например, SELU способствует самонормализации при определённых условиях).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

877 views18:02

Библиотека собеса по Data Science | вопросы с собеседований

❔

Есть ли встроенные модели регрессии, которые напрямую работают с пропущенными данными

Да, некоторые модели на основе деревьев решений (включая реализации градиентного бустинга и случайных лесов) могут обрабатывать пропущенные данные внутренне. Например, определённые вариации деревьев решений могут использовать суррогатные разбиения или разделения по умолчанию для объектов с отсутствующими значениями признаков.

Это значит, что модель может выбрать альтернативный путь по дереву, если основной признак отсутствует.

Такие механизмы встроены, например, в:
➡️ XGBoost (можно задать missing),
➡️ LightGBM (имеет встроенную поддержку NaN),
➡️ CatBoost (автоматически обрабатывает пропуски).

Однако, несмотря на удобство, следует внимательно оценивать качество модели, особенно если:
➡️ пропусков много,
➡️ отсутствие значений связано с целевой переменной или другими признаками.

В таких случаях простая внутренняя обработка может быть недостаточной, и потребуется анализ природы пропусков или применение более обоснованных методов (импутация, маскирование и др.).

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

817 views18:17

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Азбука айтишника

🎓 Как выбрать свою роль в Data Science и не потеряться в терминах

Если вы только начинаете разбираться в Data Science — перед вами лабиринт из названий: data scientist, аналитик, ML-инженер, BI, архитектор... Кто чем занимается? Что нужно учить?

➡️

Что внутри статьи

— Кто такие Data Engineer

— Чем отличается Data Architect от инженера и зачем он нужен в big data проектах

— Чем занимаются Data Analyst и почему это отличная точка входа в карьеру

— Что делает настоящий Data Scientist

В статье разобрано всё: от задач до технологий, которые реально спрашивают на собеседованиях.

📎 Ссылка

Азбука айтишника #ликбез

Please open Telegram to view this post

VIEW IN TELEGRAM

640 views19:41

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Конкурс: 30 000 ₽ за самую смешную IT-новость

Напоминаем о конкурсе «Библиотеки программиста»: напишите самую смешную версию реальной новости про технологии.

👾 Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переписываете ее так, чтобы смеялись все.
3. Получаете деньги и славу.

🎁 Призы:
- 1 место: 30 000 ₽ + статус ведущего нового юмористического IT-канала
- 2 и 3 место: по 5 000 ₽ + вечный почет в IT-сообществе

🏆 Как будем оценивать:
Мы выложим новости всех участников в одном из наших телеграм-каналов. Те новости, которые наберут больше всего охвата, войдут в шорт-лист. Из шорт-листа подписчики и жюри выберут победителя.

📅 Сроки: прием новостей до 11 мая включительно

Для участия отправьте свою смешную новость в гугл-форму: https://forms.gle/6YShjgfiycfJ53LX8

Осталась неделя — ждем ваших новостей!

Конкурс на самую смешную IT-новость

Библиотека программиста запускает конкурс, который взорвет вашу ленту: создайте самую смешную альтернативную версию реальной IT-новости!

Правила просты:
1. Берете настоящую новость из мира технологий.
2. Переворачиваете её с ног на голову, чтобы смеялись…

839 views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Как принять решение: удалять выбросы или оставлять их

Всё зависит от природы выбросов — являются ли они реальными редкими случаями или ошибками в данных.

🔹 Если выброс отражает действительно существующее, но редкое наблюдение (например, необычно высокая цена на товар, которая действительно была на рынке), то удаление такого значения может привести к модели, игнорирующей важные, хоть и редкие, сценарии.

🔹 Если же выброс возник из-за ошибки ввода, дублирования или другого рода артефакта — его можно удалить без особого риска.

✅ Как принять обоснованное решение

Постройте три версии модели:

1. С выбросами.
2. Без выбросов.
3. С обработанными выбросами (например, винзоризацией или логарифмической трансформацией).

Сравните их по кросс-валидации: точности, стабильности, интерпретируемости.

Выберите подход, который даёт наилучший баланс между производительностью и объяснимостью.

📌 Контекст имеет значение

В медицине, например, выброс может указывать на критическое состояние пациента — и его ни в коем случае нельзя игнорировать. А в пользовательских логах выброс может быть признаком бот-активности.

Библиотека собеса по Data Science

❤6

940 views17:52

Библиотека собеса по Data Science | вопросы с собеседований

📱

Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров

Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:

❗️

Возможные стратегии

1. Уменьшенное значение k (Reduced k)

Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.

2. Чекпойнты и частичное повторное использование весов

Хотя обучение на каждом фолде требует разных данных, можно:

🟠

дообучать модель с уже натренированными весами,

🟠

использовать подходы transfer learning или fine-tuning.

Это не полностью корректно, но снижает затраты.

3. Параллельное и распределённое обучение

Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.

4. Субсэмплирование данных

При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

942 views17:53

Библиотека собеса по Data Science | вопросы с собеседований

❓ Как обрабатывается дрейф концепции при обучении моделей с несбалансированными классами во времени

Дрейф концепции возникает, когда со временем меняется распределение данных, в результате чего изменяется связь между признаками и метками. Это особенно критично при наличии несбалансированных классов — например, в задачах по выявлению мошенничества, где миноритарный класс может смещаться незаметно, но существенно.

В процессе обучения дрейф компенсируется регулярным обновлением или переобучением модели на актуальных данных, чтобы сохранить соответствие новым шаблонам.

Также применяются инкрементальные алгоритмы, способные адаптироваться к новым данным без полной переинициализации. Используется подход скользящего окна: устаревшие данные постепенно исключаются из обучающей выборки.

Дополнительно отслеживается динамика распределения миноритарного класса. При изменении его частоты или поведенческих характеристик пересматриваются подходы к выборке и настройки, чувствительные к дисбалансу. Метрики, такие как recall на новых поступлениях, фиксируют отклонения, сигнализируя о необходимости обновлений.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

941 views17:53

Библиотека собеса по Data Science | вопросы с собеседований

❓Как обнаружить и смягчить эффект популярности (popularity bias) в рекомендательной системе

Алгоритмы рекомендаций часто усиливают популярность уже популярных видео — их всё чаще показывают, в то время как новые или нишевые остаются незамеченными. Это создает эффект «богатые становятся богаче».

🔍 Как обнаружить

Посмотрите на логи рекомендаций — если небольшая доля контента получает основную массу показов, это тревожный сигнал. Обычно это «голова» распределения (head), тогда как «хвост» (long tail) игнорируется.

🛠 Методы смягчения

• Нормализация метрик (например, watch-time) с учетом числа показов — чтобы не усиливать положительную обратную связь.

• Поддержка длинного хвоста: в механизме отбора кандидатов добавить специальную логику, продвигающую менее популярные видео.

• Умное переупорядочивание (re-ranking): резервировать часть позиций в выдаче для менее популярных видео.

⚠️ Важно

• Слишком сильное наказание популярных видео может снизить удовлетворенность пользователя.

• Нельзя наказывать все тематики одинаково: специализированный контент может иметь честно низкие метрики, не из-за предвзятости, а из-за ниши.

Библиотека собеса по Data Science

❤5

961 views17:56

Библиотека собеса по Data Science | вопросы с собеседований

❓

Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍

One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.

📍

Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).

📍

Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:

📍

k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).

📍

k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

963 views19:06