Библиотека собеса по Data Science | вопросы с собеседований

У вас есть данные о продолжительности звонков в колл-центр. Как может выглядеть распределение? Как вы можете проверить свои предположения?

Для начала проведём предобработку данных. Заполнять пропуски в них мы не будем. Нулевые значения достаточно просто удалить.

Наше предположение состоит в том, что данные должны следовать логарифмически нормальному распределению. Можно использовать график квантиль-квантиль (Q-Q). Нам нужно выбрать набор интервалов для квантилей. На графике точка (x, y) будет соответствовать одному из квантилей второго распределения (координата y), нанесённому на тот же квантиль первого распределения (координата x). Таким образом, линия является кривой с параметром, обозначающим номер интервала для квантиля.

Если сравниваемые два распределения похожи, точки на графике Q — Q будут приблизительно лежать на линии y = x. Если распределения линейно связаны, точки на графике Q — Q будут приблизительно лежать на линии, но не обязательно на линии y = x.

#статистика

❤2

1.16K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

В чём разница между обнаружением объектов (object detection) и сегментацией изображения?

И то, и другое — задачи компьютерного зрения, которые предполагают анализ и понимание содержания изображений. Однако разница между ними есть.

▪️Обнаружение объектов.

Цель заключается в идентификации и локализации объектов и представлении их в виде ограничивающих рамок с соответствующими метками. Используется, например, в бесплотных автомобилях для обнаружения пешеходов и транспортных средств.

▪️Сегментация изображений.

Здесь цель — разделить изображение на несколько областей, или сегментов. Обеспечивает постановку меток на уровне пикселей для всего изображения. Используется в задачах, требующих анализа на уровне пикселей, таких как диагностика по медицинским изображениям.

#глубокое_обучение
#компьютерное_зрение

❤1

1.29K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Что делать, если AUC < 0.5?

В случае бинарной классификации AUC эквивалентна вероятности того, что классификатор присвоит большее значение положительному классу (класс 1) по сравнению с отрицательным (класс 0). Если AUC < 0.5, это означает, что модель предсказывает хуже случайного угадывания, однако инвертирование предсказанных значений может сделать модель полезной, так как она фактически «ошибается» в противоположную сторону.

#машинное_обучение

❤6👍1

1.23K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Чем сезонность отличается от тренда во временных рядах?

Оба этих термина возникают при декомпозиции временного ряда, то есть разложении его на составляющие.

▪️Тренд характеризует плавное долгосрочное изменение временного ряда. Он может быть восходящим, нисходящим или постоянным.
▪️Сезонность отображает циклические изменения временного ряда с постоянным периодом.

Рассмотрим на примере. Допустим, у нас есть данные по продажам помидоров в сети супермаркетов. Мы можем заметить, что на протяжении нескольких лет наблюдается общий рост продаж (тренд), а внутри каждого года есть пики и спады, связанные с сезонами (сезонность). Так, летом продажи могут увеличиваться из-за высокого спроса и предложения, а зимой — снижаться.

#машинное_обучение

👍6

1.16K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

Коротко опишите процесс обучения нейронной сети

Нейронные сети принимают обучающие данные и веса и выдают предсказания и значения функции потерь. В процессе обучения на каждой итерации выбирается небольшой пакет обучающих данных, батч. Каждый батч проходит через цикл обучения, который выглядит следующим образом:

▪️Прямой проход.
— Вычисляется взвешенная сумма входов в каждом нейроне.
— К этой сумме применяется функция активации.
— Предсказывается выход и вычисляется разницу между предсказанным и реальным значением.

▪️Обратный проход.
— Вычисляется градиент функции потерь по отношению к весам, используя метод обратного распространения ошибки (backpropagation).
— Градиенты используются для обновления весов.

Эти шаги повторяются до тех пор, пока не будет достигнут какой-нибудь критерий остановки, например заданное количество эпох или достижение желаемой точности на валидационном наборе данных.

#глубокое_обучение

1.24K views13:03

Библиотека собеса по Data Science | вопросы с собеседований

⚡️

Proglib запускает канал про ИИ в сфере видео

Вот несколько топовых постов за последнее время:

⭐️Инструмент, который сам делает короткие вертикальные видео из ваших длинных роликов, например, на ютуб
⭐️Подборка нейро-генераторов видео с пробным периодом
⭐️Анонс ИИ-«нетфликса», который будет штамповать вам мультики по запросам

👉

Подписывайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

1.05K views07:13

Библиотека собеса по Data Science | вопросы с собеседований

Почему метод опорных векторов (SVM) так называется?

Допустим, перед нами стоит задача бинарной классификации. Тогда главная цель классификатора SVM — найти уравнение разделяющей гиперплоскости в пространстве данных, которая бы разделила два класса неким оптимальным образом. У обученной модели все объекты, попадающие по одну сторону от построенной гиперплоскости, будут предсказываться как первый класс, а объекты, попадающие по другую сторону — как второй класс.

При обучении SVM веса должны быть подобраны таким образом, чтобы объекты классов лежали как можно дальше от разделяющей гиперплоскости. Так, алгоритм максимизирует зазор (margin) между гиперплоскостью и объектами классов, которые расположены ближе всего к ней. Эти объекты и называют опорными векторами.

#машинное_обучение

🔥6👾2

1.13K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

1.11K views06:03

Библиотека собеса по Data Science | вопросы с собеседований

У вас есть языковая модель. Что произойдёт с новым словом из тестового датасета, которое не присутствовало в обучающем датасете?

В языковой модели новое слово из тестового датасета будет рассматриваться как неизвестное, ведь оно не является частью изученного векторайзером словаря. Модель может:

▪️Игнорировать слово;
▪️Воспользоваться встроенными механизмами обработки редких или неизвестных слов, такими как применение специальных токенов.

Результат будет зависеть от конкретной реализации и архитектуры модели.

#NLP

1.08K views13:02

Библиотека собеса по Data Science | вопросы с собеседований

✍️Библиотека программиста» находится в поиске автора оригинальных статей

Кто нужен?
● Энтузиасты (джуны и выше), которые держат руку на пульсе, читают помимо книг зарубежные техноблоги
● Энтузиасты, которым есть что сказать

Тематика
● DevOps
● В четырех случаях из пяти вы предлагаете тему статьи

Объем
● От 7 до 15 тыс. знаков без учета кода
● 2-3 статьи в месяц

Оплата
● 8к руб. за статью
● Работаем с самозанятыми (компенсируем налог), ИП

Я пишу «так себе», что делать?
Чтобы написать статью, которую не стыдно опубликовать, достаточно овладеть инфостилем. У нас есть бесплатный курс для начинающих копирайтеров «Статьи для IT: как объяснять и распространять значимые идеи». Время прохождения курса: 1-2 недели.

✉️Пишите на hello@proglib.io

1.16K views11:17

Библиотека собеса по Data Science | вопросы с собеседований

Что такое критерий Колмогорова-Смирнова?

Он позволяет строить статистический тест, который сравнивает эмпирическую функцию распределения выборки с теоретическим распределением. Например ⬇️

Нам дано непрерывное распределение F и выборка, полученная из неизвестного распределения. Нужно выбрать между двумя гипотезами: выборка была получена из распределения F; выборка была получена не из распределения F.

Для теста построим по выборке эмпирическую функцию распределения. Для каждого элемента посмотрим, насколько различаются в этой точке функция распределения и эмпирическая функция распределения. Затем посмотрим на максимум среди всех таких чисел. Этот максимум и будет статистикой теста Колмогорова-Смирнова.

Если нулевая гипотеза выполнена, то при увеличении объёма выборки распределение статистики теста стремится к распределению Колмогорова. Для принятия решения используется одностороннее критическое множество. Критическое значение определяется на основе квантилей распределения Колмогорова.

#статистика

❤7

1.57K views13:00

Библиотека собеса по Data Science | вопросы с собеседований

🎮

Новый канал по разработке игр

Мы наконец-то запустили канал по разработке игр — теперь все самое важное и полезное из мира геймдева можно узнать в одном месте.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

1.12K views07:38

Библиотека собеса по Data Science | вопросы с собеседований

Объясните, почему Случайный лес (Random Forest) моделирует нелинейные зависимости?

Случайный лес — это ансамблевый метод машинного обучения, который строит множество решающих деревьев и объединяет их прогнозы для получения более точных результатов. При построении Random Forest не делается никаких предположений о линейности данных. И сам алгоритм не предполагает использования таких предположений.

Например, один и тот же признак может быть использован несколько раз с различными критериями деления и на разных уровнях дерева. Кроме того, каждое дерево в Случайном лесе строится на основе случайного подмножества данных. Это приводит к тому, что разные деревья моделируют разные аспекты зависимостей.

#машинное_обучение

❤8

1.18K views13:02

Библиотека собеса по Data Science | вопросы с собеседований

Что называют шумом в данных?

Шум в данных — это присутствие случайных или нерелевантных вариаций значения какого-либо признака, которые не отражают взаимосвязь этого признака с таргетом. Причинами шума в данных могут быть:

▫️ошибки измерения;
▫️аномалии;
▫️человеческий фактор.

Наличие в данных шума — проблема для алгоритмов машинного обучения. Шум может стать причиной переобучения, ведь модель будет подстраиваться под нерелевантные вариации признака, и, как только ей покажут тестовые, не зашумленные данные, начнёт плохо работать.

Для устранения шума можно использовать разные техники, например регуляризацию, отбор признаков и методы очистки данных.

#машинное_обучение

👍3

1.12K views12:01

Библиотека собеса по Data Science | вопросы с собеседований

👀Что из этого сгенерировала нейросеть?

Подписывайтесь на наш новый канал про нейросети для создания изображений, там есть:

🌸Новые нейросети и инструменты, например, вот модель генерирует картинки по наброску

🌸

Промты для разных задач

🌸

Лайфхаки по использованию нейросетей

👉

Подписывайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

1.04K views07:53

Библиотека собеса по Data Science | вопросы с собеседований

Что такое прунинг (pruning) дерева решений?

Прунинг ещё могут называть усечением или редукцией. Это процесс упрощения структуры уже построенного дерева путём удаления некоторых вершин.

Как правило, удаляются вершины, которые вносят минимальный вклад в точность модели. То есть сначала дерево строится жадно без ограничений, а затем проводится усечение. Необходимо добиться того, чтобы итоговое качество упало не сильно, но дерево начало подходить под условия регуляризации. Качество стоит измерять на отдельной, отложенной выборке.

Для чего это делается? При жадном построении алгоритм часто создаёт дерево, которое полностью учитывает обучающие данные, включая шум. Это может привести к переобучению, когда модель теряет способность хорошо обобщать на новых данных.

#машинное_обучение

1.07K views12:02

Библиотека собеса по Data Science | вопросы с собеседований

Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

☕Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ

1.09K views06:02

Библиотека собеса по Data Science | вопросы с собеседований

Proglib запускает канал Азбука айтишника

Подписывайтесь на наш новый канал про айти для неайтишников — для совсем новичков и тех, кто постоянно взаимодействует с айтишниками.

У нас есть рубрики:

⭐

База — в ней рассказываем про термины из IT простым языком

⭐

Проект — объясняем, из чего состоят айтишные проекты и сколько они могут стоить

⭐

Психология айтишника — тут говорим про софт-скиллы, особенности работы и взаимодействия

👉Подписывайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

994 views08:25

Библиотека собеса по Data Science | вопросы с собеседований

Forwarded from Proglib.academy | IT-курсы

⭐

13 ресурсов, чтобы выучить математику

Некоторые разработчики утверждают, что математика не обязательна, в то время как другие считают, что без её фундаментальных знаний невозможно стать программистом. Если вас мучает ее математическое незнание, то скорее читайте нашу статью.

🔗 Статья

Чтобы лучше разбираться в математике, прикрепляем наш курс:

🔵

Математика для Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

891 views11:38

Библиотека собеса по Data Science | вопросы с собеседований

Как быть с категориальными предикторами при построении линейной регрессии?

Их, конечно, нужно привести к числовому виду. Как именно это сделать, нужно решать, исходя из вида категориальной переменной.

▫️ Номинальная.
У таких переменных нет естественного порядка, и они обычно представляют собой различные категории, такие как цвета, пол и т.д. Для кодирования номинальных переменных чаще всего используется метод one-hot кодирования. При этом каждая категория представляется отдельной бинарной переменной (столбцом), где 1 означает наличие этого признака, а 0 — его отсутствие.

▫️ Порядковая.
Такие переменные имеют естественный порядок, например, оценки уровня образования или уровни удовлетворённости. Для таких переменных можно использовать порядковое кодирование, где каждая категория получает числовое значение, отражающее её ранг. Например, «низкий», «средний» и «высокий» уровень удовлетворенности можно закодировать как 1, 2 и 3 соответственно.

#машинное_обучение

👍8

1.18K views12:00

Библиотека собеса по Data Science | вопросы с собеседований

Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/61c44272

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/61c44272

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

1.13K views07:46

About

Blog

Apps

Platform