Библиотека собеса по Data Science | вопросы с собеседований

Какие ограничения можно добавить в функцию стоимости на практике

В реальных задачах можно учитывать различные ограничения:

▪️ Физические ограничения — например, в моделях физических процессов можно добавить штраф за нарушение законов сохранения энергии или массы.
▪️ Ресурсные ограничения — в рекомендательных системах можно ограничивать бюджет рекомендаций или обеспечивать справедливость, штрафуя за отклонения от заданных метрик.
▪️ Чувствительность к риску — в финансовых моделях можно добавить штраф за высокие риски, например, используя Value at Risk (VaR) или Conditional Value at Risk (CVaR).

Библиотека собеса по Data Science

❤2

1.24K views19:31

Библиотека собеса по Data Science | вопросы с собеседований

Как выбрать подходящие коэффициенты веса для многозадачных функций потерь

В большинстве случаев коэффициенты веса для многозадачных функций потерь подбираются с помощью эмпирической настройки гиперпараметров. Однако существуют и автоматизированные подходы, такие как:

🔹 GradNorm, который автоматически обучает веса, балансируя величины градиентов для каждой задачи.

🔹 Веса на основе неопределенности, где вес каждой задачи обратно пропорционален оценке ее шума или неопределенности.

Модели могут итеративно настраивать эти веса в процессе обучения. Лучший подход часто зависит от конкретных задач, объема данных и вычислительных ограничений.

Библиотека собеса по Data Science

❤2

1.5K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

удалил(-а) Вас из группы

😁37🌚24😢10🔥3🎉1

1.39K views10:27

Библиотека собеса по Data Science | вопросы с собеседований

Как обеспечить устойчивость модели при появлении новых неизвестных признаков

▪️ Мониторинг данных — отслеживайте распределение признаков в продакшене, чтобы выявлять новые категории или признаки. Автоматические проверки помогут зафиксировать изменения.

▪️ Регулярное переобучение — настройте процесс периодического обновления модели, если новые признаки становятся значимой частью данных.

▪️ Эмбеддинги и хеширование — используйте методы, которые позволяют корректно обрабатывать ранее неизвестные категории.

▪️ Резервные представления — для неизвестных признаков можно использовать «unknown embedding» или специальный индекс, пока модель не будет обновлена.

Библиотека задач по Data Science

❤3👍2

1.33K views18:03

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🪄 Визуальные вычисления в Power BI: прокачиваем условное форматирование

Теперь настраивать условное форматирование в Power BI можно без сложных DAX-формул!

Разбираем, как новые визуальные вычисления помогают создавать динамичные, адаптивные и стильные отчеты, которые мгновенно реагируют на изменения данных.

⭐️ Пора сделать отчеты действительно интерактивными!

🔗

Ссылка на статью: https://proglib.io/sh/lsb0fEuYSv

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

926 views08:43

Библиотека собеса по Data Science | вопросы с собеседований

Как снижение размерности влияет на One-vs-Rest и One-vs-One

🔹 One-vs-Rest (OVR):

— Чувствителен к выбору признаков, так как каждый классификатор выделяет один класс против всех остальных.

— Если убрать важные признаки, отличающие класс, модель может ухудшить предсказания.

— Глобальное снижение размерности (например, PCA) может потерять информацию, важную для отдельных классов.

🔹 One-vs-One (OVO):

— Каждый классификатор фокусируется только на двух классах, поэтому локальный отбор признаков может дать лучшее разделение.

— Разные классификаторы могут использовать разные наборы признаков, что требует сложного управления.

— При большом числе классов возможно переобучение из-за небольших выборок для каждой пары.

⚡ Итог:

При OVR полезно использовать глобальное снижение размерности, но с осторожностью. При OVO можно применять локальный отбор признаков, но важно избегать переобучения.

Библиотека собеса по Data Science

👍2❤1

1.1K views18:52

Библиотека собеса по Data Science | вопросы с собеседований

Какие компромиссы при выборе более сложной модели для маленького, но чистого датасета, versus более простой модели для большого, но шумного датасета

▪️ Сложная модель на маленьком, но качественном датасете:

— Может лучше обобщать, если шум минимален, потому что на таком датасете модель фокусируется на сильных, стабильных паттернах.

— Однако, сложные модели могут переобучаться при недостаточном объеме данных, особенно если выборка не отражает всю разнообразие распределения данных.

▪️ Простая модель на большом, шумном датасете:

— Простая модель может быть более устойчивой к выбросам и случайному шуму, если данных достаточно, чтобы сгладить несоответствия.

— Если шум не слишком велик, то большой датасет может позволить модели выявить общие тенденции, несмотря на неточности.

▪️ Подводные камни и крайние случаи:

— Несоответствие между емкостью модели и размером данных: сложная модель может запомнить маленькие подмножества данных, не научившись обобщать.

— Чрезмерное упрощение при сильном шуме: если датасет слишком шумный и при этом используется простая модель, можно недообучиться, упустив важные детали.

— Сдвиги в распределении данных: сложная модель может случайно выучить артефакты, которые встречаются только в маленькой выборке, в то время как простая модель на большом датасете может схватывать более обобщенные особенности.

Библиотека собеса по Data Science

❤2👍1

1.18K views17:00

Библиотека собеса по Data Science | вопросы с собеседований

Как взаимодействует feature engineering с интерпретируемостью модели

Feature engineering (инженерия признаков) позволяет преобразовывать необработанные данные в признаки, которые лучше отражают знания предметной области.

▪️ Это может повысить точность модели, но также может снизить интерпретируемость, особенно если используются нелинейные преобразования или сложные комбинации исходных признаков.

▪️ Тем не менее, интерпретируемая инженерия признаков, основанная на экспертных знаниях, может упростить понимание того, почему модель принимает те или иные решения. Например, использование понятных категорий вроде «возрастная группа» вместо точного возраста может помочь заинтересованным сторонам лучше понять поведение модели.

🔑 Важно:
Документировать, как и почему создавался каждый признак. Это делает поведение модели более прозрачным и укрепляет доверие к её прогнозам.

Библиотека собеса по Data Science

👍3❤1

1.08K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

Как справляться с огромными пространствами поиска в генетических алгоритмах для нейросетей

Генетические алгоритмы исследуют гигантские пространства архитектур: каждая комбинация слоёв, активаций и гиперпараметров входит в возможное множество решений.

При масштабных сетях вычислительная стоимость быстро растёт — каждую архитектуру нужно хотя бы частично обучить для оценки пригодности.

⭐

Практические подходы:

➡️

Поэтапный (staged) поиск: сначала простые модели и ограниченный набор параметров, затем — расширение до более сложных конфигураций.

➡️

Суррогатные модели: замена оценки полноценной модели на прокси-оценку с помощью облегчённых сетей.

➡️

Раннее завершение обучения: сокращение количества эпох или досрочное завершение обучения при отсутствии улучшения.

⭐

Подводный камень:

➡️

Суррогаты и частичное обучение могут искажать оценку: некоторые архитектуры обучаются медленно, но в долгосрочной перспективе превосходят остальных.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1

1.02K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🔍 Как скрытые состояния в HMM отличаются от скрытых представлений в RNN и как это влияет на интерпретируемость

🧠 Скрытые марковские модели (HMM):
В HMM скрытые состояния — это дискретные латентные переменные с четким вероятностным значением. Каждое состояние соответствует конкретному режиму или явлению (например, «дождливо» или «солнечно» в модели погоды), что способствует интерпретируемости. Переходы между состояниями описываются матрицей вероятностей.

🤖 Рекуррентные нейронные сети (RNN):
В отличие от HMM, скрытые состояния в RNN — это непрерывные векторы, которые обучаются автоматически с помощью градиентного спуска. Они могут кодировать сложные аспекты истории последовательности, но не всегда легко интерпретируемы. Каждый элемент скрытого состояния может быть связан с более сложными зависимостями, которые сложно трактовать в явной форме.

💡 Главная проблема:
При попытке трактовать скрытые состояния в RNN как дискретные состояния в HMM можно столкнуться с ошибками. Непрерывные скрытые представления могут не иметь четких «меток», что затрудняет их интерпретацию и объяснение. Важно учитывать, что RNN может захватывать более сложные, но менее интерпретируемые зависимости.

⚠️ Как избежать ошибок:

Не стоит пытаться трактовать скрытые состояния RNN как дискретные. Лучше использовать методы интерпретации, такие как визуализация внимания, чтобы понять, как скрытые состояния влияют на выход модели.

Библиотека собеса по Data Science

❤3👍2

2.7K views18:02

Библиотека собеса по Data Science | вопросы с собеседований

🧠 Градиентный спуск: когда сходимость гарантирована, а когда — нет

В линейной регрессии с функцией потерь в виде среднеквадратичной ошибки (MSE) задача выпуклая — это значит, что существует единственный глобальный минимум, и градиентный спуск (если не мешают численные ошибки) гарантированно к нему сойдётся.

🔁 Если расширить линейную регрессию, применяя нелинейные преобразования (например, полиномиальные признаки), или перейти к глубоким нейросетям, ситуация меняется: поверхность функции потерь становится невыпуклой, появляются локальные минимумы и седловые точки.

📉 В таких случаях градиентный спуск может:

▪️ сойтись к локальному минимуму

▪️ застрять на плато (участке с малыми градиентами)

▪️ не достичь глобального оптимума

💡 Что помогает:

▪️ оптимизаторы с моментумом (например, Adam, RMSProp)

▪️ адаптивное изменение learning rate

▪️ периодический «рестарт» обучения

⚠️ Подводный камень:

Можно ошибочно считать, что градиентный спуск всегда работает, как в линейной регрессии. Но в невыпуклых задачах сходимость к глобальному минимуму не гарантируется.

Библиотека собеса по Data Science

❤2👍1

965 views18:08

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

📚 13 ресурсов, чтобы выучить математику с нуля — подборка, которую просили

Хочешь прокачаться в математике для Data Science, ML или просто чтобы понимать, что происходит в формулах. Лови список лучших источников, которые собрали на Proglib.

➡️ Что внутри:
• Книги: от Пойи и Перельмана до Хофштадтера
• Советы: как учить, с чего начать, как не сдаться
• Математика для Data Science: разбор тем и формул
• Ссылки на форумы и задачи
• Как не бояться, если всё кажется сложным
• Что читать, если ты гуманитарий и страдал от школьной алгебры

✍️ Простой язык, много примеров и ноль академического занудства.

🔵 Для полного понимания Архитектуры, забирайте наш курс → «Архитектуры и шаблоны проектирования»

👉 Читай статью тут

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

789 views08:49

Библиотека собеса по Data Science | вопросы с собеседований

🤔 Почему обратимая матрица сохраняет объем в пространстве

🔹 Если рассматривать матрицу с геометрической точки зрения, она выполняет преобразование векторов в n-мерном пространстве. Когда матрица обратима, это означает, что преобразование является биективным, то есть оно не «сжимает» пространство в подпространство меньшей размерности.

🔹 Говоря проще, обратимая матрица сохраняет объем (хотя и может вращать или искажать его), но не уменьшает количество измерений.

🔹 Если ранг матрицы уменьшается, преобразование отображает векторы в пространство меньшей размерности, что означает потерю информации. В геометрии это проявляется в том, что объем пространства «сплющивается» или искажается до нулевого объема, что и приводит к нулевому детерминанту.

Библиотека собеса по Data Science

❤3👍3🔥1

997 views18:06

Библиотека собеса по Data Science | вопросы с собеседований

📌 Почему «логистическая регрессия» — это всё ещё регрессия, а не классификация

На первый взгляд, логистическая регрессия решает задачу классификации — ведь результатом часто становится 0 или 1. Но суть метода — в другом.

🔹 Что происходит на самом деле:

Модель вычисляет линейную комбинацию признаков, а затем пропускает её через сигмоиду — так получается число от 0 до 1, которое интерпретируется как вероятность принадлежности к положительному классу.

🔹 Почему это регрессия:

Потому что модель всё равно оптимизирует непрерывную функцию — отрицательное логарифмическое правдоподобие (log-loss), а не просто учится выбирать класс. Это приближает её к регрессионным методам: мы не просто «присваиваем» метку, а подгоняем параметры, как в классической регрессии.

🔹 А что насчёт классификации:

Классификацию мы получаем постфактум — когда применяем порог (обычно 0.5) к предсказанной вероятности.

⚠️ Главное — не путать внешний вид (0 или 1) с внутренней механикой. Логистическая регрессия — это регрессия, просто на логарифме вероятностей.

Библиотека собеса по Data Science

👍6❤1

1.07K views18:05

Библиотека собеса по Data Science | вопросы с собеседований

❓

Как избежать численной нестабильности в функции softmax

Когда входные значения (логиты) слишком велики по модулю, экспоненты в softmax могут привести к переполнению — например, e^{1000} становится слишком большим числом для компьютера.

✔️

Решение: вычитание максимума

Перед применением softmax нужно просто вычесть максимум из всех логитов:

Вместо e^{z_i} считаем e^{z_i − max(z)}

Это не изменит результат, потому что одинаковое смещение в числителе и знаменателе сократится.

👉

Почему это работает:

— Сдвигаем логиты ближе к нулю
— Избегаем переполнения экспоненты
— Повышаем численную стабильность

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

892 views17:51

Библиотека собеса по Data Science | вопросы с собеседований

6:39

Media is too big

VIEW IN TELEGRAM

🙈 Что скрывает дисперсия: разгадка секрета точных ML-моделей

Представьте, что вы строите модель, которая прекрасно работает на тренировочных данных, но стоит подать ей новые примеры... и всё рушится. Знакомо? За этим почти всегда скрывается неправильное обращение с дисперсией.

🧐 Но что, если есть простая формула, способная:
• Мгновенно определить, насколько «разбросаны» ваши данные

• Значительно улучшить точность ваших ML-моделей

• Помочь обнаружить аномалии, которые вы раньше не замечали

В нашем вебинаре мы раскрываем все секреты дисперсии — без сложных терминов и занудных объяснений. Вы узнаете, почему дисперсия — как соль: без нее все пресно, а с переизбытком — несъедобно.

Хотите узнать, как находить идеальный баланс в своих моделях, причем тут Random Forest и много другого о Data Science?

➡️

Тогда смотрите бесплатный вебинар от Proglib: https://proglib.io/w/41b975da

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.02K viewsedited 18:04

Библиотека собеса по Data Science | вопросы с собеседований

❓

Как метод силуэта отличается от метода локтя

Оба метода помогают выбрать оптимальное количество кластеров (k), но делают это по-разному:

📍

Метод локтя:
— Основан на внутрикластерной дисперсии (сумме квадратов расстояний до центров кластеров)
— При увеличении количества кластеров дисперсия снижается
— Нужно найти точку, в которой снижение становится менее выраженным — ту самую «локтевую точку»
— Минус: нахождение локтя субъективно и может быть неочевидным

📍

Метод силуэта:
— Для каждой точки рассчитывается оценка силуэта — насколько хорошо она вписывается в свой кластер и насколько далеко от других
— Средняя оценка по всем точкам показывает качество кластеризации
— Позволяет интерпретировать качество кластеров более детально
— Часто даёт более чёткий выбор оптимального k

📍

Вывод:
— Метод локтя проще в реализации и быстрее на больших датасетах.
— Метод силуэта — более интерпретируемый и точный, особенно когда нужно оценить, насколько хорошо модель «чувствует» структуру данных.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

932 viewsedited 17:54

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Библиотека питониста | Python, Django, Flask

🖼 ТОП-5 структур данных для обработки изображений

Хотите разобраться, как обрабатывать изображения в компьютерном зрении или графике?

Всё начинается с правильных структур данных. Они помогают хранить и анализировать пиксели, их связи и расположение.

👉

В этой статье — подборка топ решений и советы, как их использовать.

Библиотека питониста

Please open Telegram to view this post

VIEW IN TELEGRAM

645 views08:00

Библиотека собеса по Data Science | вопросы с собеседований

🆚 Как сравниваются методы перерасчёта градиента и focal loss при работе с несбалансированными классами

🔘 Focal loss добавляет коэффициент, который уменьшает вклад уже хорошо классифицированных примеров, тем самым фокусируя обучение на сложных, часто ошибочно классифицируемых объектах. Это особенно полезно, когда модель быстро обучается на «лёгких» примерах и игнорирует «трудные».

🔘 Gradient re-scaling (пересчёт градиента с учётом частоты классов) нацелен на устранение дисбаланса между классами, регулируя вклад каждого класса в градиент. Часто это реализуется как взвешивание классов.

📍

Сравнение:
— Focal loss фокусируется на сложности примеров, а не на частоте классов.
— Gradient re-scaling напрямую учитывает частоту классов, но не различает лёгкие и трудные примеры внутри одного класса.

В задачах с сильным дисбалансом имеет смысл комбинировать оба метода — использовать пересчёт градиентов по классам и применять focal loss, чтобы дополнительно усилить обучение на сложных примерах.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

963 views17:54

Библиотека собеса по Data Science | вопросы с собеседований

⏱

Как обеспечить последовательность очистки данных для временных рядов в обучающем и тестовом наборах данных с учётом разных временных окон

Для временных рядов тестовый набор обычно относится к более позднему временному окну, чем обучающий. Если распределение временного ряда изменяется, важно, чтобы шаги очистки (например, заполнение пропусков) и создание признаков (например, скользящие средние) не использовали данные из будущего.

✅ Преобразования (например, скользящее среднее) следует рассчитывать только на основе прошлых данных, используя тренировочное окно для выбора стратегии очистки, а затем применяя её к тестовому окну без перерасчёта с использованием будущих данных.

⚠️ Подводный камень

Некоторые методы очистки могут неявно использовать будущие данные. Например, если для заполнения пропусков используется медиана по всему набору данных, можно случайно использовать данные из будущего. Это приводит к утечке данных.

✅ Правильный подход — использовать историческую информацию для очистки и создания признаков, строго следуя причинной логике.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

948 views17:54

About

Blog

Apps

Platform