Библиотека собеса по Data Science | вопросы с собеседований
4.32K subscribers
423 photos
10 videos
1 file
407 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
Назовите ключевые гиперпараметры нейронной сети

Гиперпараметры — это конфигурационные настройки нейросети, которые задаются ещё до начала обучения. Вот ключевые:

▪️Способ инициализации весов
Это довольно сильно может повлиять на сходимость модели.

▪️Количество скрытых слоёв
Также характеризуется глубиной нейросети.

▪️Количество нейронов на слой
Этот параметр позволяет регулировать то, насколько сложные паттерны способна захватывать нейросеть.

▪️Функция активации
Привносит нелинейность в модель.

▪️Функция потерь
Определяет, насколько хорошо модель обучается, измеряя разницу между предсказанными и фактическими значениями.

▪️Оптимизационный алгоритм
Алгоритм, который используется для настройки весов нейросети во время обучения.

▪️Learning rate (скорость обучения)
Устанавливает размер шага при обновлении весов нейросети. Очень высокий или низкий learning rate может замедлить или даже остановить обучение модели.

#глубокое_обучение
Допустим, вам надо предсказать доход человека. У вас есть все необходимые признаки, а данных достаточно. После построения модели как вы определите, что она получилась хорошей?

Чтобы оценить, что построенная модель для предсказания доходов человека получилась хорошей, нужно сделать следующее:

▪️Выбрать метрику качества модели: MAE (Mean Absolute Error), MSE (Mean Squared Error) или RMSE (Root Mean Squared Error). Она поможет понять, насколько точно модель предсказывает целевую переменную.

▪️Разделить имеющиеся данные на две части — обучающую и тестовую выборки. Обучающая выборка используется для построения модели, а тестовая — для оценки её качества. Это необходимо для предотвращения переобучения, когда модель хорошо работает на обучающих данных, но плохо на новых примерах.

▪️После построения модели на обучающих данных следует проверить её качество на тестовых данных. Если значения метрик на обучающей и тестовой выборках не сильно различаются, это указывает на то, что модель не переобучилась и способна давать хорошие предсказания.

▪️Дополнительно можно использовать кросс-валидацию для более точной оценки стабильности модели. Это поможет удостовериться, что модель демонстрирует хорошие результаты на различных подвыборках данных.

#машинное_обучение
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Назовите достоинства и недостатки рекуррентных нейронных сетей

🔹Достоинства

▫️Рекуррентные нейронные сети (RNN) способный справляться с с анализом временных рядов, текста и других типов данных, которые можно назвать последовательностями.
▫️Они могут моделировать долгосрочные зависимости в данных.
▫️RNN используют одни и те же веса (W) на каждом шаге, что делает размер модели независимым от длины последовательности.

🔹Недостатки

▫️При обучении RNN часто сталкиваются с проблемой исчезающего градиента, то есть ситуацией, когда градиенты становятся экстремально малы. Также может случиться обратная ситуация: проблема взрывающегося градиента.
▫️Из-за своей структуры RNN могут быть сложны в обучении и требуют больших вычислительных ресурсов.
▫️Несмотря на то, что RNN могут запоминать предыдущие состояния, их «память» ограничена, и они могут забывать информацию через несколько шагов.

#глубокое_обучение
Вы заметили, что ваша модель недообучена. Что бы вы предприняли?

Можно рассмотреть несколько методов.

▪️Увеличить сложность модели.
Если речь идёт о нейросети, то можно попробовать увеличить количество слоёв или нейронов на слой. Если, например, вы используете полиномиальную регрессию, то можно взять более высокую степень полинома.

▪️Добавить больше релевантных признаков.

▪️Снизить влияние регуляризации.

▪️Увеличить продолжительность обучения.

▪️Взять больше данных (если можно).

#машинное_обучение
Можно ли сделать отбор признаков с помощью регуляризации LASSO?

Да, регуляризация LASSO может быть использована для отбора признаков. Она добавляет к функции потерь регуляризирующий член, который является суммой абсолютных значений коэффициентов регрессии, умноженной на коэффициент регуляризации. Это приводит к тому, что некоторые коэффициенты становятся равными нулю. Таким образом, LASSO автоматически выбирает наиболее важные признаки и исключает неинформативные, устанавливая их коэффициенты в ноль.

#машинное_обучение
Что такое стоп-слова в NLP и как с ними работать?

Стоп-слова — это распространённые в языке слова, которые практически не несут смысловой нагрузки. Чаще всего это артикли, междометия, союзы и т.д. Например, в английском языке стоп-словами могут быть the, a и an.

В рамках подготовки текста к NLP-задачам стоп-слова обычно удаляются, так как они могут добавить много шума. Универсального способа определить список стоп-слова нет. Однако можно пользоваться готовыми инструментами. Так, в библиотеке NLTK есть предустановленный список. Перед первым использованием вам понадобится его скачать: nltk.download('stopwords'). После скачивания можно его импортировать и посмотреть на сами слова.

#NLP
Что вы знаете о теореме Чебышева?

Теорема Чебышева, или неравенство Чебышева, утверждает, что случайная величина в основном принимает значения, близкие к своему среднему. Если говорить точнее, то неравенство позволяет дать оценку вероятности того, что случайная величина примет значение, далёкое от своего среднего.

Неравенство также можно интерпретировать так: вероятность того, что случайная величина X отклоняется от своего математического ожидания на более чем k стандартных отклонений, не превышает 1/k². Это утверждение справедливо для любых распределений с конечной дисперсией и не требует предположений о форме распределения.

#статистика
Можете ли вы объяснить модель ARIMA?

Модель ARIMA используется для прогнозирования временных рядов. Она сочетает три ключевых компонента: авторегрессию (AR), интегрирование (I) и скользящую среднюю (MA).

▪️Авторегрессия
Компонент авторегрессии улавливает взаимосвязь между текущим наблюдением во временном ряду и определённым числом предыдущих наблюдений. Предполагается, что текущее значение линейно зависит от своих прошлых значений.

▪️Интегрирование
Интегрирование используется для превращения временного ряда в стационарный, устраняя тренды или сезонность.

▪️Скользящая средняя
Компонент скользящей средней учитывает зависимость между текущим наблюдением и ошибками предсказаний, сделанных на основе предыдущих наблюдений.

Сочетая эти три компонента, модель ARIMA может улавливать различные зависимости. Стоит отметить, что существуют вариации модели ARIMA, такие как SARIMA (Seasonal ARIMA), которая включает дополнительные сезонные компоненты.

#машинное_обучение
А у вас уже было реальное техническое интервью на позицию дата-сайентиста/специалиста по машинному обучению?
Anonymous Poll
47%
Пока не было
19%
Было, один раз
34%
Было и не раз
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы
Азбука айтишника — здесь мы познаем азы из мира программирования

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Библиотека разработчика игр | Gamedev, Unity, Unreal Engine
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👨‍🏫 Мишель Талагран: 5 советов молодым математикам

Французский математик Мишель Талагран делится пятью ключевыми советами для молодых математиков, чтобы помочь им достичь успеха в карьере.

🔗 Прочесть всё в подробностях
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что такое z-оценка?

Z-оценка (z-score) — это мера в статистике, которая показывает, насколько значение отклоняется от среднего значения распределения.

Она рассчитывается по формуле, указанной на картинке, где:
x — значение, для которого рассчитывается z-оценка,
μ — среднее значение выборки или популяции,
σ — стандартное отклонение выборки или популяции.

Z-score применяется для следующего:

▪️Стандартизация данных, приведение к единому масштабу.
▪️Анализ аномалий.
▪️A/B-тестирование.

#статистика