Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Визуализация данных Apache Hive с Microsoft Power BI с использованием ODBC в Azure HDInsight

В этой статье описано, как подключить Microsoft Power BI Desktop к Azure HDInsight с использованием ODBC и визуализировать данные Apache Hive.

Читать

@data_analysis_ml
«Time-to-market важнее pixel-perfect»: как мы разрабатывали BI-инструмент в «Яндексе»

Руководитель Yandex DataLens Роман Колеченков рассказывает, сколько нужно гипотез и терпения, чтобы превратить сложную внутреннюю систему аналитики в сервис десятков тысяч пользователей.

Читать

@data_analysis_ml
Профессия аналитик: 13 специализаций. Чем они занимаются?

1. Бизнес-аналитик
2. Аналитик данных
3. Аналитик финансов
4. Системный аналитик
5. Веб-аналитик
6. Аналитик-1С
7. Аналитик маркетплейсов (Wildberries и тд)
8. SMM-аналитик
9. Продуктовый аналитик
10. BI-аналитик
11. UX-аналитик
12. Game аналитик
13. Аналитик качества данных

Читать статью

@data_analysis_ml
👀Оперативный мониторинг ML и ПО-метрик в одной платформе
В реальных системах машинного обучения важно вести непрерывное наблюдение за данными и моделями. Даже сама ML-модель осталась прежней, характер данных мог измениться, что может непосредственно повлиять на пользователей. Сегодня на рынке существует множество платформ, предназначенных для мониторинга ПО, куда собираются различные системные и бизнес-метрики, чтобы отражать наиболее важные данные на наглядных дэшбордах и генерировать уведомления. Например, Grafana, Datadog, Graphite и пр.
Также есть средства для мониторинга ML-систем машинного обучения типа Neptune, Amazon SageMaker Model Monitor, Censius и прочие MLOps-средства. Но можно объединить наблюдение за работой системы машинного обучения с классическим инженерным мониторингом ПО на одной платформе. Это достижимо с помощью New Relic, телеметрической платформы удаленного мониторинга мобильных и веб-приложений, которая позволяет собирать, исследовать и получать оповещения обо всех данных телеметрии из любого источника в одном месте. Благодаря интеграции со многими open-source инструментами New Relic может работать с различными источниками и приемниками данных.
Отправка данных из ML-систем в New Relic реализуется с помощью Python-библиотеки ml-performance-monitoring с открытым исходным кодом, которая доступна на GitHub (https://github.com/newrelic-experimental/ml-performance-monitoring).
https://towardsdatascience.com/monitor-easy-mlops-model-monitoring-with-new-relic-ef2a9b611bd1
Логичные дашборды для департамента логистики

лиентского сервиса. И хороший дашборд для логистики — это рабочий инструмент для принятия эффективных решений по сокращению затрат и по обеспечению клиентского сервиса. Меня зовут Максим Коровин, я отвечаю за дашборды в логистике, и в этом посте расскажу, как всё устроено.

На какие вопросы отвечают такие дашборды и для кого они?
Целевая аудитория этих дашбордов довольно широкая. Это и управленческий персонал конкретного склада (скажем, директор склада или складского аналитического центра), и диспетчерский центр всей компании, и директор по логистике, и курирующие члены Правления. В общем, запросы и уровни доступа у всех разные, но удобно должно быть всем.

Читать дальше

@data_analysis_ml
BPMN2_0_Poster_RU.pdf
272.7 KB
шпаргалка по BPMN 2.0: "BPMN 2.0 – Метамодель и нотация бизнес-процессов"

@data_analysis_ml
#Вакансия: Data Engineer (Middle)

📍 В классном офисе в Москве/гибрид;
📍200-350К руб., белая ЗП или ИП;
📍Большой датасет, интересные задачи, возможность влиять на продукт.

ОБЯЗАННОСТИ

Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных;
Обеспечивать SLA и качество данных;
Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.
ТРЕБОВАНИЯ
Хорошее знание технологий из стека: Python, SQL, Spark, Airflow;
Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных;
Опыт продуктовой разработки в технологических компаниях.

БУДЕТ ПЛЮСОМ:
Опыт работы с облаками, особенно, с Яндекс.Облаком;
Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python;
Опыт работы с моделями машинного обучения в продакшене;
Опыт работы с базами данных для аналитики, особенно, с ClickHouse.

Понравилась вакансия? Присылай CV @naikava
This media is not supported in your browser
VIEW IN TELEGRAM
Добро пожаловать в мир главного ит тренда - машинного обучения: @machinelearning_ru

В канале вы найдет :
📃Статьи ,
📚Книги
👨‍💻 Код
🔗Ссылки

и много другой полезной информации
#ArtificialIntelligence #DeepLearning
#MachineLearning #DataScience
#Python

1 канал вместо тысячи учебников и курсов 👇👇👇

🤖 @machinelearning_ru
Продолжим разбираться в сортах разных аналитиков, а именно: Бизнес-аналитик, Системный аналитик, продуктовый аналитик, аналитик данных и web-аналитик

Само понятие «профессия аналитик» очень широкое. У аналитиков, как и у других профессий, например врачей или инженеров, есть деление на узконаправленные специализации, ведь один человек не может хорошо разбираться во всех вопросах сразу. К таким специализациям можно отнести: бизнес-аналитика, системного аналитика, продуктового аналитика, аналитика данных, web-аналитика и тд.

Во многих компаниях данные специализации могут пересекаться и выполняться один и тем же специалистом, все зависит от сферы деятельности компании и от ее требований, от самого специалиста. Например может быть роль Бизнес/Системный аналитик.

Также вы легко сможете перейти из одной в другую специализацию на своём карьерном пути, но есть и более узконаправленные, выделяющиеся из общего потока.

Для детального погружения, предлагаю прочесть пару статей:

Я в аналитики пойду, пусть меня научат: советы по входу в профессию для начинающих - Статья поможет нам разобраться с ответом на один из самых частых вопросов: как стать аналитиком? Еще раз проведя грань между системным и бизнес-аналитиком, а также продуктовым аналитиком, аналитиком данных и веб-аналитиком.

Зачем вам столько аналитиков: чем бизнес-аналитик отличается от системного и Data Analyst’а - в данной статье пойдет речь в чем сходства и отличия 3-х разных профессий: бизнес-аналитика, системного аналитика и Data Analyst’а (аналитика данных)

@data_analysis_ml
Данные часто могут сделать решения хуже, а не лучше. Этот пост в блоге дает пример одной из таких ситуаций.

https://saturncloud.io/blog/relying-too-much/

@data_analysis_ml
😱Запросы в гугле и твиты помогут предсказать следующий всплеск заболеваемости

Так, отзывы на ароматические свечи Yankee Candles в интернет магазинах были дополнительным индикатором распространения нового штамма. В конце 2021 года как раз посыпались жалобы от покупателей на отсутствие аромата и неприятный запах у свечей. Исследователи построили график роста отрицательных отзывов, и он очень смахивал на всплеск заболеваемости омикроном (на картинке как раз он).

Несчастным свечкам досталось еще и в начале пандемии: оценка ранее любимых покупателями свечей за год потеряла целую звезду. Помимо отзывов на свечи, ученые заметили связь с ростом поиска доставок сиропов от кашля и куриного супа с лапшой

Исследователи предлагают ориентироваться не только на число подтвержденных случаев, а еще и на такие специфические цифровые следы: авторы их назвают «хлебными крошками». Ученые считают, что эти маркеры помогут предсказать следующие волны заболеваемости, и тогда мы сможем как следует к ним подготовиться🌊
5 полезных запросов для MS SQL

За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.

https://tproger.ru/articles/5-poleznyh-zaprosov-dlja-ms-sql/

@data_analysis_ml
🔎 Анализируем речь с помощью Python: Сколько раз в минуту матерятся на интервью YouTube-канала «вДудь»?

Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».


Читать дальше

@data_analysis_ml
Как повысить эффективность логистики с помощью неклассических тестов?

Ответ можно найти в последней статье Delivery Club на Хабре. В ней команда операционных аналитиков поделилась тонкостями эксперимента по внедрению switchback A/B-тестов. Вы узнаете об особенностях таких тестов, сути сетевого эффекта, об этапах запуска switchback A/B-эксперимента в логистике и его итогах.

Подробнее по ссылке.
📊 Фреймворк для Анализа Временных Рядов на Python

Простой в использовании и универсальный фреймворк для анализа временных рядов

Статья: https://denshub.com/ru/kats-for-time-series-analysis/

Официальная страница: https://facebookresearch.github.io/Kats/

Kats Python package: https://pypi.org/project/kats/0.1.0/

Репозиторий исходной кода: https://github.com/facebookresearch/kats

@data_analysis_ml
🟢 Создание полярной диаграммы JS за 4 шага

Полярные диаграммы часто выглядят впечатляюще, что заставляет некоторых людей думать, что их создание - сложный процесс, требующий большого количества навыков и опыта. Что ж, я собираюсь развенчать этот миф прямо сейчас! Позвольте мне показать вам, как легко визуализировать данные в красивой интерактивной полярной диаграмме JavaScript.

По сути, полярная диаграмма - это разновидность кругового графика, нарисованного с полярными координатами. Она также может хорошо работать для визуализации некоторых видов категориальных данных для сравнений, и это именно тот случай, который я хочу сейчас продемонстрировать. В этом уроке я построю столбчатую полярную диаграмму с полосами, растущими из центра диаграммы, чтобы представить значения с их длиной
.

Общество визуализации данных (DVS) проводит ежегодный опрос специалистов по обработке данных о состоянии отрасли, и я подумал, что это может стать отличной возможностью поиграть с некоторыми из его последних данных. В частности, я хотел посмотреть на наиболее популярные технологии, используемые для визуализации данных на основе ответов. Итак, здесь я создам полярную диаграмму JS, на которой будут показаны 15 лучших из них, составив классный иллюстративный пример из реального мира.


 Читать дальше

@data_analysis_ml
📊 Коллекция продвинутой визуализации в Matplotlib и Seaborn с примерами

В этой статье не будет базовых приемов визуализации – все примеры, приведенные в этой статье, будут продвинутыми. Если вам нужно освежить базовые приемы, пожалуйста, обратитесь к статье «Ваша повседневная шпаргалка по Matplotlib».

Напоминаю: если вы используете эту статью для обучения, загрузите набор данных и выполняйте все примеры вслед за мной. Это единственный способ чему-нибудь научиться. Также найдите какой-нибудь другой набор данных и попробуйте применить аналогичные методы визуализации на нем.

Вот
ссылка на набор данных, который я буду использовать в этой статье. Мы начнем с немного проблематичных диаграмм для нескольких переменных и будем двигаться к более ясным, но и более сложным решениям.

Читать дальше

@data_analysis_ml
🔎 Разведочный анализ данных на Python

Получение хорошего представления о новом наборе данных не всегда бывает легким и зачастую требует времени. Тем не менее, хороший и широкий исследовательский анализ данных (EDA) может очень помочь понять ваш набор данных, понять, как данные взаимосвязаны и что необходимо сделать для правильной обработки вашего датасета.

В этой статье мы коснемся нескольких полезных алгоритмов EDA. На самом деле, часто необходимо потратить достаточно времени на правильный EDA, чтобы полностью понять ваш набор данных и это является ключевой частью любого хорошего проекта по науке о данных. Как правило, вы, вероятно, потратите 80% своего времени на подготовку и исследование данных и только 20% на реальное моделирование машинного обучения.

А тепеь давайте погрузимся прямо в анализ данных!

Статья
Git

@data_analysis_ml