Библиотека собеса по Data Science | вопросы с собеседований

🐁

Что делать, если вас интересует только определённая область ROC-кривой

В некоторых задачах важна не вся ROC-кривая, а только определённая её часть — например, области с очень малым уровнем ложноположительных срабатываний (FPR) или с очень высокой полнотой (TPR).

🔹 Частичная AUC (Partial AUC):
Можно вычислить AUC только для заданного диапазона FPR, например от 0 до 0.1. Это покажет, насколько хорошо модель работает именно в интересующей области.

🔹 Специализированные метрики:
Иногда вместо полной AUC используют показатели вроде Precision при фиксированном Recall или TPR при заданном FPR — они позволяют оценить качество модели именно в том диапазоне, который критичен для практического применения.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

545 viewsedited 18:31

Библиотека собеса по Data Science | вопросы с собеседований

🎲 Знаешь, что хуже всего на собесе?

Когда задают простой вопрос, а ты не можешь ответить.

🤔 Это ощущение, когда понимаешь:

«Блин, я это знаю... вроде... сейчас...»

От «я знаю...» до «сейчас объясню!» всего один курс.

✅ Алгоритмы и структуры данных — от Big O до задач криптографии.

✅ Python для разработчиков — пиши чистый и эффективный код.

✅ Архитектуры и шаблоны — строй системы, которые масштабируются.

✅ Основы IT — всё необходимое для входа в профессию.

Выбирай любой и забирай со скидкой 40% только до конца октября.

🔗 Выбрать курс

550 views15:00

Библиотека собеса по Data Science | вопросы с собеседований

➡️

Почему в старых архитектурах всё ещё встречаются функции активации tanh и sigmoid

Ранние нейронные сети часто использовали sigmoid и tanh, поскольку они:
✅ обеспечивали интерпретируемый выход (например, вероятностный в диапазоне 0–1),
✅ имели биологическое обоснование, напоминая активацию нейронов,
✅ были естественным выбором до популяризации ReLU.

В эпоху мелких сетей проблема исчезающих градиентов была не так заметна, поэтому sigmoid и tanh работали достаточно хорошо. Однако с ростом глубины сетей ReLU и её варианты стали предпочтительными — они ускоряют обучение и снижают риск затухания градиентов.

✏️ Тем не менее, в некоторых областях (например, старые модели NLP или речевые RNN) tanh и sigmoid по-прежнему используются — для совместимости, традиции или специфики домена.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

580 viewsedited 18:59

Библиотека собеса по Data Science | вопросы с собеседований

🤠 Всегда ли пропускные (skip) соединения полезны

В большинстве случаев — да, но не всегда. Skip-соединения (residual connections) действительно облегчают обучение глубоких сетей, помогая бороться с затуханием градиентов и ускоряя сходимость. Именно поэтому они стали стандартом в современных архитектурах (ResNet, Transformer и др.).

Однако есть и ограничения:
👉 Они увеличивают вычислительную и памятьную нагрузку, особенно в сетях вроде DenseNet, где происходит конкатенация большого числа промежуточных признаков.
👉 В неглубоких моделях их польза минимальна — сеть и без них способна эффективно обучаться.

В итоге skip-соединения почти всегда оправданы в глубоких моделях, но их применение следует сбалансировать с ресурсами и архитектурной сложностью.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

581 views19:31

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Как ускорить браузер

Закрой все вкладки со словами «MacBook», «купить ноутбук», «ноут в рассрочку». Потому что у нас есть решение лучше.

🔥 Proglib разыгрывает MacBook Pro 14. Формула простая: покупаешь любой курс до 15 ноября → учишься 2 недели → пишешь куратору #розыгрыш

Пока у тебя открыто 147 вкладок с ценами, кто-то уже прокачивает скилы и может забрать приз.

👉🏻 Выбрать курс для участия

507 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

😎

Как можно систематически подобрать ядро и его гиперпараметры для SVM

Обычно это делается с помощью кросс-валидации и перебора возможных комбинаций гиперпараметров:
➡️ Выбор типа ядра: пробуют несколько вариантов — линейное, полиномиальное, RBF (радиальное), сигмоидное и др.
➡️ Настройка гиперпараметров:
✔️ Для полиномиального ядра варьируют степень (degree) и коэффициент смещения (coef0).
✔️ Для RBF подбирают параметр gamma (определяет “радиус влияния”) и штраф C.

Методы подбора:
➡️ Grid Search: полный перебор заданных диапазонов параметров.
➡️ Random Search: случайные комбинации — быстрее, часто достаточно эффективно.
➡️ Bayesian Optimization: умный поиск с использованием вероятностных моделей, который быстрее находит хорошие параметры.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

513 viewsedited 18:46

Библиотека собеса по Data Science | вопросы с собеседований

➡️ Как условие Липшица помогает выбрать шаг при градиентном спуске

Если градиент функции является L-Липшицевым, то есть его изменение не превышает ( L \cdot |x - y| ), то можно показать, что выбор шага ( \eta \leq 1/L ) гарантирует устойчивую сходимость для выпуклых задач.

Интуитивно это означает:
✔️ Если шаг слишком большой, можно “перепрыгнуть” через минимум.
✔️ Если шаг не больше ( 1/L ), движение вдоль антиградиента будет достаточно плавным, чтобы не вызвать расходимости.

В невыпуклых задачах это условие также полезно — оно помогает избежать слишком резких шагов, обеспечивая более стабильное обучение, даже если глобальной сходимости гарантировать нельзя.

💡 Итого: знание константы Липшица ( L ) даёт теоретически обоснованный верхний предел для шага обучения ( \eta ), что помогает сделать градиентный спуск устойчивым.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

528 views18:18

Библиотека собеса по Data Science | вопросы с собеседований

😉

Может ли комбинация нескольких методов калибровки дать лучшие результаты, чем один метод

Теоретически можно попытаться комбинировать методы калибровки, например, применив temperature scaling к логитам, а затем подавая полученные вероятности на изотоническую регрессию.

🔛 Однако такие цепочки часто приводят к переобучению, особенно если размер валидационного набора недостаточен для поддержки нескольких трансформаций.

🔛 Некоторые методы калибровки, например изотоническая регрессия, уже достаточно гибки, чтобы корректно преобразовать вероятности. Добавление дополнительного слоя калибровки редко даёт заметный выигрыш, а лишь усложняет систему.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

501 views20:04

Библиотека собеса по Data Science | вопросы с собеседований

⚡️ Механизм запущен, часики тикают

Прямо сейчас кто-то уже купил курс со скидкой 40%, открыл первый урок и уже на пути к MacBook Pro 14.

А ты всё ещё читаешь этот пост...

⏰ Дедлайны не ждут:

31 октября — скидка 40% сгорает
15 ноября — розыгрыш MacBook

🎯 Правила участия:

→ купить любой курс до 31 октября
→ отучиться 2 недели
→ написать #розыгрыш куратору

🕊️ Не упусти свой шанс

467 views15:01

Библиотека собеса по Data Science | вопросы с собеседований

😐

Могут ли эмбеддинги ухудшиться при недостаточной регуляризации во время обучения

Да. Эмбеддинги, как и любые параметры модели, могут переобучиться или потерять смысловую структуру, если данных мало или регуляризация отсутствует.

Векторы могут разрастаться по величине без отражения полезных отношений между токенами.

Способы защиты:
👆 Применение weight decay или dropout в последующих слоях (или даже на самих эмбеддингах).
👆 Early stopping при начале переобучения.
👆 Контроль соотношения размера матрицы эмбеддингов и объёма данных: слишком большая матрица при малом датасете может приводить к запоминанию конкретных примеров вместо выучивания обобщённых представлений.

Регуляризация и мониторинг обучения помогают поддерживать эмбеддинги информативными и обобщающими.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

466 views19:26

Библиотека собеса по Data Science | вопросы с собеседований

👩‍🏫

Как выбирать между разными метриками нечистоты (impurity metrics) при построении деревьев решений

Популярные варианты: Gini impurity и энтропия (information gain).

Сравнение:
🧬 Gini impurity быстрее вычисляется и часто даёт похожие разбиения, но иногда слегка предпочитает разделения, изолирующие наиболее частый класс.
🧬 Entropy / Information gain отражает уменьшение неопределённости после разбиения, теоретически более «информативна», но вычисляется медленнее.

Выбор на практике: часто метрики дают схожие результаты, поэтому решение зависит от скорости обучения, размеров данных и поведения конкретного датасета. Экспериментальная проверка с кросс-валидацией может помочь определить лучший вариант для вашей задачи.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

421 views18:00

Библиотека собеса по Data Science | вопросы с собеседований

✨ Halloween Special — последний день магии! 👻

Успевай сегодня купить курсы со скидкой 40%!

А также участвуй в розыгрыше MacBook Pro 14 💻

После полуночи останется только тыква 🎃

🔮 Открой портал и выбери курс

396 views10:28

Библиотека собеса по Data Science | вопросы с собеседований

🎃

Чем отличаются bagging, boosting и stacking в контексте глубоких нейронных сетей

✔️

Bagging (Bootstrap Aggregating):
Тренирует несколько моделей на разных случайных подвыборках данных и усредняет или объединяет их предсказания.
В нейросетях аналогом может быть обучение с разными аугментациями данных или случайной инициализацией весов. Это снижает переобучение и повышает стабильность.

✔️

Boosting:
Обучает модели последовательно — каждая новая модель старается исправить ошибки предыдущей.
В глубоких сетях встречается реже, но идеи boosting можно реализовать через специальные функции потерь или адаптивные схемы обучения.

✔️

Stacking:
Использует предсказания нескольких базовых моделей как входы для метамодели (второго уровня), которая учится оптимально комбинировать эти выходы.
В deep learning это можно реализовать с помощью второй нейросети, обученной на выходах нескольких базовых моделей (ensemble blending).

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

390 views18:37

Библиотека собеса по Data Science | вопросы с собеседований

😎

Что такое сопряжённые априоры (conjugate priors) в байесовском выводе

Сопряжённые априоры — это такие априорные распределения, которые при комбинировании с конкретной функцией правдоподобия дают апостериорное распределение того же семейства, что и априорное.
Это делает байесовское обновление аналитически простым и позволяет получить закрытые формы постериора без численных методов.

Примеры:
🔛 Beta–Binomial: если вероятность успеха в биномиальном распределении имеет Beta-априор, то постериор тоже будет Beta.
🔛 Normal–Normal: если параметр среднего в нормальном распределении имеет нормальный априор, постериор остаётся нормальным.
🔛 Gamma–Poisson: если интенсивность (rate) Пуассона имеет Gamma-априор, то постериор также Gamma.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

354 views18:34

Библиотека собеса по Data Science | вопросы с собеседований

❓

Какова роль скорректированного (R^2) в выявлении переобучения линейной модели

Обычный (R^2) измеряет долю объяснённой дисперсии, но он всегда увеличивается при добавлении новых признаков, даже если они не несут полезной информации.

Скорректированный (R^2) учитывает количество признаков и штрафует за включение переменных, которые мало улучшают модель.

Интерпретация для обнаружения переобучения:
🔹 Если обычный (R^2) растёт, а скорректированный остаётся примерно на том же уровне или падает, это сигнализирует о том, что новые признаки не повышают реальную обобщающую способность модели.
🔹 Значительная разница между (R^2) и скорректированным (R^2) может указывать на переобучение.

Таким образом, скорректированный (R^2) помогает балансировать сложность модели и её качество, предотвращая слепое добавление признаков.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

321 views19:55

Библиотека собеса по Data Science | вопросы с собеседований

↪️

Существуют ли методы построения доверительного интервала для точности без предположений о распределении

Да. Один из самых распространённых распределительно-свободных методов — бутстреп. Он не требует предположений о нормальности или биномиальном распределении ошибок:

Непараметрический бутстреп:
➡️ Многократно выбираем выборки из тестового набора с возвращением.
➡️ Для каждой выборки вычисляем точность.
➡️ Затем строим доверительный интервал, например, по 2.5-му и 97.5-му процентилям.

🐸

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

187 views19:31

About

Blog

Apps

Platform