Библиотека собеса по Data Science | вопросы с собеседований
4.3K subscribers
447 photos
11 videos
1 file
477 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
Что вы знаете про использование марковских цепей в анализе последовательностей?

Марковские цепи используются в анализе последовательностей данных, таких как временные ряды и текст. Основная идея марковских цепей заключается в предположении, что будущее состояние системы зависит только от её текущего состояния, а не от всей истории предыдущих состояний. Это известно как свойство Маркова или отсутствие памяти. В контексте последовательностей это означает, что следующий элемент в последовательности зависит только от текущего элемента.

Также применяются скрытые Марковские модели. Они представляют из себя марковские цепи, для которых нам известны начальная вероятность и матрица вероятностей переходов. Скрытыми модели называется потому, что мы не имеем информации о текущем состоянии в них.

✔️Скрытые Марковские модели используются, например, для моделирования фонем и слов в системах распознавания речи. Также Марковские модели применимы в моделировании временных рядов финансовых данных, таких как цены на акции.

#middle
👍91
Что за алгоритм DBSCAN и как его использовать?

Density-Based Spatial Clustering of Applications with Noise (DBSCAN) — это алгоритм кластеризации данных. В его основе лежит понятие плотности; кластеры определяются как области высокой плотности, разделённые областями низкой плотности.

✔️Для использования DBSCAN нужно определить два ключевых параметра: eps (радиус поиска соседей для каждой точки) и min_samples (минимальное количество точек, необходимое для формирования плотного региона). Алгоритм находит некоторую центральную точку кластера. Таковой она считается, если содержит более min_samples в радиусе eps. После того как центральная точка кластера определена, алгоритм включает в список обхода все доступные для неё точки в пределах eps. Процесс повторяется. По сути, алгоритм пытается расширить кластер. Если точка не достигает порога min_samples, она помечается как шум.

DBSCAN эффективен для данных с кластерами неправильной формы и хорошо справляется с выбросами.

#junior
#middle
🔥102💯2🥰1