Библиотека собеса по Data Science | вопросы с собеседований
4.32K subscribers
424 photos
10 videos
1 file
409 links
Вопросы с собеседований по Data Science и ответы на них.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/7dfb7235

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://t.me/proglibrary/9197
Download Telegram
📊 Где изучать Data Science в 2024 году?

Занимаясь наукой о данных, приходится постоянно учиться. Предлагаем вашему вниманию актуальный обзор из 25 новых книг, курсов, видеолекций и блогов для оттачивания мастерства в Data Science.

🔗 Читать статью
🔗 Зеркало
Какова размерность эмбеддингового слоя в Transformer?

Размерность эмбеддингового слоя определяется двумя параметрами: размером словаря и размерностью эмбеддингов.

▪️Размер словаря (Vocab Size) — это количество уникальных токенов или слов, которое может обрабатывать модель. Эта величина определяется во время обучения модели и зависит от данных, на которых она обучается.
▪️Размерность эмбеддингов (Embedding Dimension) — это количество признаков, используемых для представления каждого токена. Эта размерность обычно фиксирована для данной модели и совпадает с размерностью скрытых слоёв модели.

Таким образом, матрица эмбеддингов в Transformer имеет размерность, равную размеру словаря x размерности эмбеддингов.

#NLP
#глубокое_обучение
💻🚀🏰 Как мы создали ИИ-стартап на хакатоне выходного дня в Германии

Инженер ПО рассказал нам о своих выходных на хакатоне в Кельне, где с командой пытался создать AI-стартап всего за два дня. Участники прошли путь от подачи идей в пятницу вечером до демонстрации работающего приложения к воскресенью.

В качестве бонуса автор привёл список основных пунктов, которые необходимо выполнить для создания стартапа.

🔗 Читать статью
🔗 Зеркало
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/61c44272

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/61c44272
Please open Telegram to view this post
VIEW IN TELEGRAM
Назовите основную особенность рекуррентных нейронных сетей

Рекуррентные нейросети применяют для обработки последовательностей. Почему же они подходят под эту задачу?

В обычные нейросети на вход подаётся один объект A, который затем проходит через всю сетку и преобразуется в некий выход. Нейронной сети совершенно неважно, какие объекты вы подавали до A. Они никак не повлияют на выход. В последовательностях же нередко оказывается важна информация от предыдущих объектов.

Рекуррентная нейросеть использует историю подачи объектов для создания выходов. С точки зрения математики тут идея такая: мы будем подавать на вход сети уже два объекта — объект A и некоторое выходное значение, возникшее при обработке предыдущего объекта. Именно оно выступает в качестве «ячейки» памяти, позволяя модели учитывать информацию из предыдущих шагов.

#глубокое_обучение
📈 Стать аналитиком Big Data: пошаговое руководство 2024

Big Data — это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления. Аналитики больших данных находят и исследуют в них закономерности с помощью специальных программных средств.

В нашей обновлённой статье рассказываем, какие знания, онлайн-курсы, подкасты и книги помогут начать карьеру в сфере Big Data без специального образования🧑‍🎓

🔗 Читать статью
🔗 Зеркало
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
За что отвечает температура в softmax?

Softmax используется для перевода логитов (сырых выходов модели) в вероятности. То есть она преобразует изначальный вектор чисел в вектор значений, которые в сумме не превышают единицу. Это позволяет интерпретировать выходы модели как вероятности принадлежности к различным классам.

Однако есть небольшая проблема. Значения на выходном слое могут быть очень разнообразными. И как следствие после применения слоя softmax можно получить распределение вероятностей, где большое ненормализированное значение будет иметь наибольшую вероятность. В таких задачах, как генерация текста, это означает, что модель будет всегда выбирать только самые ожидаемые слова. Регулировать эту ситуацию позволяет температура.

Каждое значение модели просто делится на температуру. Когда температура низкая, модель даёт более уверенные ответы. Когда высокая — менее уверенные.

#глубокое_обучение
⚡️Proglib запускает канал про ИИ для генерации звука

Там мы будем рассказывать про все существующие нейросети, которые генерируют музыку и голос — с пошаговыми инструкциями, инструментами и лайфхаками.

⭐️генерация голоса и музыки
⭐️замена и перевод речи
⭐️распознавание звуков

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Представьте, что вы моделируете окупаемость инвестиций (ROI). Вы решили использовать простую линейную регрессионную модель, чтобы оценить, приведёт ли увеличение затрат к увеличению выручки. Cкорректированный R-квадрат равен 0.72, а p-значение составляет 1.09e-9. Какую часть дисперсии данных объясняет ваша модель и можно ли назвать результат значимым?

Значение R-квадрата является статистической мерой того, насколько близко данные находятся к линии регрессии. Значение, равное 0.72, указывает на то, что модель объясняет 72% дисперсии.

Что касается значимости статистического результата, то обычно устанавливают значимость на уровне 95% или даже 98%. Небольшое p-значение (обычно меньше или равно 0.05, что соответствует 95% уверенности) указывает на статистическую значимость. Поскольку данное p-значение меньше этого уровня, результат можно считать значимым.

#машинное_обучение
Разработайте рекомендательную систему для приложения

Когда вам задают такой вопрос, в первую очередь вы должны сами задать уточняющие вопросы. Вот возможный сценарий:

▪️Какое это приложение?
Это приложение для обмена фотографиями.
▪️Какая у нас целевая аудитория?
У нас нет специфической аудитории. Это продукт для глобального рынка.
▪️Могу ли я в таком случае назвать целью рекомендательной системы вовлечение пользователей?
Да.

Алгоритм действий:
1. Определяемся с возможными ограничениями на показ фото в ленте. Например, у нас могут быть настройки, позволяющие пользователям делиться фотографиями только со своими контактами.
2. Все фото, которые соответствуют условиям, попадают в пул снимков, доступных для рекомендаций.
3. Далее вступает в работу алгоритм рекомендаций, который определяет, какие фото показывать и в каком порядке. На ранних этапах приложения можно показывать все фотографии в бесконечном скролле. Затем можно использовать алгоритм на основе правил, а после переключиться на алгоритм, который будет показывать фото в таком порядке, чтобы оптимизировать время просмотра. Таким образом, время просмотра будет главным показателем.

Вот какие признаки могут использоваться для построения модели:
▫️Тип фото, с которым пользователь взаимодействует максимально;
▫️Близость отношений между отправителем и зрителем;
▫️Свежесть/актуальность фото;
▫️Показатели вовлечённости (комментарии, лайки и т.д.).

#машинное_обучение
Что вы знаете про биномиальное распределение? Зачем оно нужно в Data Science?

Биномиальное распределение в основном моделирует количество успешных исходов в фиксированном числе испытаний. В целом, позволяет характеризовать испытания с помощью двух параметров n и p, представляющих количество испытаний и вероятность успеха в одном испытании соответственно.

На практике биномиальное распределение можно использовать для определения вероятности определённого числа успехов, таких как продажи, за определённый период для нового продукта. Кроме того, биномиальное распределение помогает понять вероятностное распределение числа клиентов, обслуживаемых в течение временного интервала.

#статистика
Можете ли вы объяснить, как GAN генерируют изображения?

Обычная генеративно-состязательная сеть (Generative Adversarial Networks, GAN) состоит из двух основных компонентов: генератор и дискриминатор. Первая генерирует новые данные, стремясь создать изображения, которые выглядят как настоящие. Вторая пытается отличить сгенерированные изображения от реальных.

На вход генератора подается случайный вектор (шум). Генератор преобразует этот вектор в изображение, используя серию слоёв, которые постепенно увеличивают размерность данных и добавляют детали. На выходе получается изображение, которое затем оценивается дискриминатором. Цель дискриминатора — правильно классифицировать изображения как реальные или нет. Если он ошибается, то генератор получает сигнал, как улучшить свои изображения.

#глубокое_обучение
Что вы знаете про фреймворк Optuna? Зачем он нужен?

Optuna — это фреймворк для автоматической оптимизации гиперпараметров в задачах машинного обучения. Он использует Gaussian Process-Based Sampler для байесовской оптимизации, который основывается на гауссовских процессах. Помимо этого, Optuna применяет алгоритмы для ранней остановки бесперспективных экспериментов.

В контексте фреймворка употребляются два понятия:
▪️Study — оптимизация на базе целевой функции
▪️Trial — одно выполнение целевой функции.

Также Optuna позволяет легко распараллелить процесс поиска гиперпараметров. Для отслеживания процесса можно использовать dashboard с визуализацией обучения в реальном времени.

🔗 Ссылка на документацию

#машинное_обучение
Выберите возможный эффект, который последует за увеличением минимального количества примеров на лист в дереве решений:
Anonymous Quiz
42%
Размер дерева решений увеличивается
58%
Размер дерева решений уменьшается
Объясните механизм multihead attention

Механизм attention используется в трансформерах. Он позволяет заставить модель «обращать внимание» на важные слова в предложении. Multihead attention расширяет эту идею, используя несколько «голов» внимания для одновременного анализа информации как бы с разных точек зрения. Каждая «голова» работает независимо, позволяя модели захватывать разнообразные взаимосвязи и зависимости в данных.

На практике мы делим весь эмбеддинг и прогоняем каждую часть через разные матрицы. Так мы получаем разнообразные представления. Плюсом к этому идёт возможность распараллелить процесс. В итоге результаты всех независимых механизмов внимания объединяются и проходят через линейный слой для получения финального представления.

#глубокое_обучение
#NLP
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
У вас есть данные о продолжительности звонков в колл-центр. Как может выглядеть распределение? Как вы можете проверить свои предположения?

Для начала проведём предобработку данных. Заполнять пропуски в них мы не будем. Нулевые значения достаточно просто удалить.

Наше предположение состоит в том, что данные должны следовать логарифмически нормальному распределению. Можно использовать график квантиль-квантиль (Q-Q). Нам нужно выбрать набор интервалов для квантилей. На графике точка (x, y) будет соответствовать одному из квантилей второго распределения (координата y), нанесённому на тот же квантиль первого распределения (координата x). Таким образом, линия является кривой с параметром, обозначающим номер интервала для квантиля.

Если сравниваемые два распределения похожи, точки на графике Q — Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q — Q будут приблизительно лежать на линии, но не обязательно на линии y = x.

#статистика