Machine learning Interview
43.3K subscribers
1.21K photos
88 videos
14 files
819 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
ПОЧЕМУ ВЫ ИСПОЛЬЗУЕТЕ ЭТОТ АЛГОРИТМ?

Сьюзан Шу Чанг, специалист по обработке данных из Bell, говорит, что по мере прохождения процесса вам следует ожидать таких вопросов: «Почему?». «Я [обычно задаю это] в ответ на то, что кандидат мог упомянуть в качестве ответа в тематическом исследовании науки о данных. Им нужно обосновать это [и показать], что они знают все за и против, а не просто предлагают это, потому что это звучит круто».
Итог: есть много вариантов подхода к проблеме - вам нужно показать, что вы можете критически относиться к той, которую решите использовать.

@machinelearning_interview
👍5
КАК БЫ ВЫ ПОДОШЛИ К ПОНИМАНИЮ ТОГО, КАКИЕ ОШИБКИ ДОПУСКАЕТ АЛГОРИТМ?

Этот вопрос касается демонстрации ваших навыков решения проблем, помимо выявления ошибки в первую очередь, поэтому сосредоточьте внимание на действенных шагах. Он исходит от Джейсона Дэвиса, генерального директора и соучредителя Simon Data, поставщика платформы данных о клиентах (CDP). Вот почему это нравится Дэвису: «Я хочу видеть, что они думают о проблеме с разных сторон. В Simon Data ключевой частью нашего предложения является партнерство с нашими клиентскими брендами, которое помогает им решать сложные бизнес-задачи. Нам нужен кандидат, который рассмотрит, плохи ли данные или есть ли в алгоритме какие-либо непредвиденные предубеждения, которые мы можем устранить, но правильный кандидат также подумает, не ограничиваясь технической проблемой, и спросит, правильно ли мы моделируем бизнес. проблема для конкретного клиента ».
Итог: для подобных вопросов сосредоточьтесь на действии, например, на том, какие дальнейшие шаги вы предпримете для решения проблем, и вы не сойдете с пути.

@machinelearning_interview
👍5
КАКИЕ СПЕЦИАЛИСТЫ ПО ДАННЫМ ИЛИ СТАРТАПЫ, ОСНОВАННЫЕ НА НАУКЕ О ДАННЫХ, ВАМ БОЛЬШЕ ВСЕГО НРАВЯТСЯ И ПОЧЕМУ?

Даже если вы начинаете заниматься машинным обучением, вы должны быть в курсе тенденций и громких имен в отрасли. Этот вопрос определяет, насколько вы погружены в [науку о данных, машинное обучение, чем бы вы ни занимались], так что как лучше подготовиться? Имейте наготове несколько имен (вроде ваших любимых влиятельных лиц).

@machinelearning_interview
👍5
Какой у вас опыт работы с инструментами для работы с большими данными, такими как Spark, которые используются в машинном обучении?

На уровне предприятия Apache Spark играет важную роль в масштабировании моделей машин и обеспечивает аналитику больших данных в реальном времени.

Spark – один из наиболее часто используемых инструментов машинного обучения для работы с большими данными, и он, вероятно, поднимется по крайней мере в некоторых из вопросов собеседования по машинному обучению для должностей, связанных с обработкой больших данных. Это обычная часть вопросов на собеседовании по машинному обучению для профессионалов с опытом.

Документация по Apache Spark

@machinelearning_interview
👍7
Я построил линейную регрессионную модель, показывающую 95%-ный доверительный интервал.

Означает ли это, что существует 95%-ная вероятность, что коэффициенты моей модели верно оценивают функцию, которую я хочу аппроксимировать? (Подсказка: на самом деле это означает 95% времени…)

@machinelearning_interview
👍6🔥1
КАКОВА ЦЕЛЬ A / B ТЕСТИРОВАНИЯ?

Ответ
Вичорек добавляет этот вопрос в смесь, которую она описывает как «тест на общие знания». Для этого и всех собеседований по машинному обучению и науке о данных убедитесь, что вы знаете лучшие практики в своей области. Вас спросят о них.
Итог: знайте общие области машинного обучения и / или науки о данных, а также каковы текущие стандарты, а также почему они являются стандартами.

Подробнее

@machinelearning_interview
👍4
Не кажется ли вам, что временной ряд — это очень простая задача линейной регрессии с единственной переменной отклика и с единственным предиктором — временем? В чём проблема метода линейной регрессии (необязательно с единственным линейным членом, с многочленами тоже) в случае данных временного ряда? (Подсказка: прошлое указывает на будущее…)

@machinelearning_interview
👍5👎1
Обработка null-значений, синтаксических ошибок, дубликатов столбцов и строк

От незаполненных полей в датасете никуда не деться. Каждое влияет на погрешность по-своему. Существует целая область, изучающая методы работы с null-полями. Однажды на собеседовании меня просили в деталях рассказать о каждом из них.

Синтаксические ошибки возникают, когда данные в датасет добавлялись вручную, например через форму. Из-за этого можно получить ненужные уровни категорий, как «Горячий», «ГоРяЧий» и «горячий/n» и т. д.

Напоследок о дубликатах. Повторяющиеся столбцы бесполезны, а вот повторение строк искажает баланс данных в сторону одного класса.

@machinelearning_interview
🔥9👍4
Есть данные о длительности звонков в колл-центр. Разработайте план кодирования и анализа этих данных. Приведите пример, как может выглядеть распределение этих данных. Как бы вы могли проверить, хотя бы графически, подтверждаются ли ваши ожидания?

Ответ

Чтобы очистить, исследовать и представить данные, я бы провел EDA – Exploratory Data Analysis (разведочный анализ данных). В процессе EDA я бы построил гистограмму длительности звонков, чтобы увидеть их распределение.

Можно предположить, что длительность звонков следует логнормальному распределению. Длительность звонка не может быть отрицательной, так что нижнее значение равно 0. На другом конце гистограммы будет небольшое количество очень длинных звонков.

Пример логнормального распределения
Пример логнормального распределения
Чтобы подтвердить, распределена длительность звонков логнормально или нет, мы могли бы использовать график КК (QQPlot).

@machinelearning_interview
👍11🔥1
Счетчик Гейгера записывает 100 радиоактивных распадов за 5 минут. Найдите приблизительный 95% интервал для количества распадов в час.

Ответ

Поскольку это задача на распределение Пуассона, среднее = лямбда = дисперсия, что также означает, что стандартное отклонение = квадратному корню из среднего.
Доверительный интервал 95% соответствует z-оценке 1.96.
Одно стандартное отклонение = 10.
То есть, доверительный интервал равен

100 +/- 19.6 = [964.8, 1435.2].

@machinelearning_interview
👍14🔥5👎2
Вопрос с собеседования на DS. "Для чего нужна повторная выборка?"

Ответ

Повторная выборка выполняется в любом из этих случаев:

*Оценка точности статистических данных выборок путем использования подмножеств доступных данных или рисования случайным образом с заменой из набора точек данных.
*Подстановка меток в точках данных при выполнении тестов значимости.
*Проверка моделей с использованием случайных подмножеств (самонастройка, перекрестная проверка).

#собес

@machinelearning_interview
👍13🔥4
Расскажите, какой обычно бывает разница между административным набором данных и данными, полученными в результате эксперимента? Какие проблемы обычно встречаются в административных данных? Как экспериментальные данные позволяют справиться с этими проблемами, и какие проблемы они могут принести?

Административные наборы данных – это обычно наборы, используемые правительством или иными организациями для нужд, не связанных со статистикой.

Административные данные обычно больше, и их дешевле получить, чем экспериментальные данные. Вместе с тем, административные наборы данных часто не содержат всех данных, которые могут понадобиться, и могут храниться в неудобном формате. В них также встречаются ошибки и пропуски.

@machinelearning_interview
👍15🔥1
Что такое ошибка отбора (в отношении данных), и почему она важна? Как предварительная обработка данных может ухудшить ситуацию?

Ответ

Ошибка отбора – это выбор для анализа людей, групп или данных методом, не обеспечивающим должную рандомизацию, в результате чего выборка не является репрезентативной.

Существуют следующие виды ошибок отбора:

ошибка выборки: выборка, полученная не в результате случайного отбора.
интервал времени: выбор особого интервала времени, поддерживающего желаемый вывод – например, исследование продаж перед Рождеством.
воздействие: включает клиническую уязвимость, протопатическую ошибку и ошибку показателей (подробнее см. здесь).
ошибка данных: выборочное представление фактов, избирательный подход, выборочное цитирование.
ошибка истощения: включает «ошибку выжившего», когда в анализ включаются только те, кто «пережил» длительный процесс и «ошибку неудачников», когда в анализ включаются только те, кто потерпел неудачу.
Обработка пропущенных данных может усилить влияние ошибок отбора. Например, если вы заменяете значения null на средние значения, вы добавляете в данные ошибку, поскольку считаете, что данные не имеют такого разброса, который они могут иметь на самом деле.

@machinelearning_interview
👍6🔥3
Data Study - канал с полезными и практическими материалами про аналитику данных, бизнес-анализ и развитие soft-навыков от ведущего BI аналитика.

На канале Даниил также организовывает бесплатные вокршопы по обсуждению аналитических тем.

Воркшоп по теме создания data-продуктов в компания

Статья на habr про оконные функции простым языком

Шаблон оформления документации про профайлинге нового data-источника

Материалы канала помогут улучшить профессиональные навыки в аналитике.

🎁 Большой бонус: бесплатный гайд по профессии аналитика данных, чтобы еще лучше погрузиться в специализацию аналитика

Подписаться 👨‍💻
🔥10