Визуализация данных Apache Hive с Microsoft Power BI с использованием ODBC в Azure HDInsight
В этой статье описано, как подключить Microsoft Power BI Desktop к Azure HDInsight с использованием ODBC и визуализировать данные Apache Hive.
Читать
@data_analysis_ml
В этой статье описано, как подключить Microsoft Power BI Desktop к Azure HDInsight с использованием ODBC и визуализировать данные Apache Hive.
Читать
@data_analysis_ml
«Time-to-market важнее pixel-perfect»: как мы разрабатывали BI-инструмент в «Яндексе»
Руководитель Yandex DataLens Роман Колеченков рассказывает, сколько нужно гипотез и терпения, чтобы превратить сложную внутреннюю систему аналитики в сервис десятков тысяч пользователей.
Читать
@data_analysis_ml
Руководитель Yandex DataLens Роман Колеченков рассказывает, сколько нужно гипотез и терпения, чтобы превратить сложную внутреннюю систему аналитики в сервис десятков тысяч пользователей.
Читать
@data_analysis_ml
vc.ru
«Time-to-market важнее pixel-perfect»: как мы разрабатывали BI-инструмент в «Яндексе» — Сервисы на vc.ru
Руководитель Yandex DataLens Роман Колеченков рассказывает, сколько нужно гипотез и терпения, чтобы превратить сложную внутреннюю систему аналитики в сервис десятков тысяч пользователей.
Профессия аналитик: 13 специализаций. Чем они занимаются?
1. Бизнес-аналитик
2. Аналитик данных
3. Аналитик финансов
4. Системный аналитик
5. Веб-аналитик
6. Аналитик-1С
7. Аналитик маркетплейсов (Wildberries и тд)
8. SMM-аналитик
9. Продуктовый аналитик
10. BI-аналитик
11. UX-аналитик
12. Game аналитик
13. Аналитик качества данных
Читать статью
@data_analysis_ml
1. Бизнес-аналитик
2. Аналитик данных
3. Аналитик финансов
4. Системный аналитик
5. Веб-аналитик
6. Аналитик-1С
7. Аналитик маркетплейсов (Wildberries и тд)
8. SMM-аналитик
9. Продуктовый аналитик
10. BI-аналитик
11. UX-аналитик
12. Game аналитик
13. Аналитик качества данных
Читать статью
@data_analysis_ml
vc.ru
Профессия аналитик: 13 специализаций. Чем они занимаются? — Карьера на vc.ru
Аналитики собирают данные об эффективности бизнеса, составляет статистические отчеты, определяют области, требующие улучшения, и создают рекомендуемый план оптимизации процессов.
👀Оперативный мониторинг ML и ПО-метрик в одной платформе
В реальных системах машинного обучения важно вести непрерывное наблюдение за данными и моделями. Даже сама ML-модель осталась прежней, характер данных мог измениться, что может непосредственно повлиять на пользователей. Сегодня на рынке существует множество платформ, предназначенных для мониторинга ПО, куда собираются различные системные и бизнес-метрики, чтобы отражать наиболее важные данные на наглядных дэшбордах и генерировать уведомления. Например, Grafana, Datadog, Graphite и пр.
Также есть средства для мониторинга ML-систем машинного обучения типа Neptune, Amazon SageMaker Model Monitor, Censius и прочие MLOps-средства. Но можно объединить наблюдение за работой системы машинного обучения с классическим инженерным мониторингом ПО на одной платформе. Это достижимо с помощью New Relic, телеметрической платформы удаленного мониторинга мобильных и веб-приложений, которая позволяет собирать, исследовать и получать оповещения обо всех данных телеметрии из любого источника в одном месте. Благодаря интеграции со многими open-source инструментами New Relic может работать с различными источниками и приемниками данных.
Отправка данных из ML-систем в New Relic реализуется с помощью Python-библиотеки ml-performance-monitoring с открытым исходным кодом, которая доступна на GitHub (https://github.com/newrelic-experimental/ml-performance-monitoring).
https://towardsdatascience.com/monitor-easy-mlops-model-monitoring-with-new-relic-ef2a9b611bd1
В реальных системах машинного обучения важно вести непрерывное наблюдение за данными и моделями. Даже сама ML-модель осталась прежней, характер данных мог измениться, что может непосредственно повлиять на пользователей. Сегодня на рынке существует множество платформ, предназначенных для мониторинга ПО, куда собираются различные системные и бизнес-метрики, чтобы отражать наиболее важные данные на наглядных дэшбордах и генерировать уведомления. Например, Grafana, Datadog, Graphite и пр.
Также есть средства для мониторинга ML-систем машинного обучения типа Neptune, Amazon SageMaker Model Monitor, Censius и прочие MLOps-средства. Но можно объединить наблюдение за работой системы машинного обучения с классическим инженерным мониторингом ПО на одной платформе. Это достижимо с помощью New Relic, телеметрической платформы удаленного мониторинга мобильных и веб-приложений, которая позволяет собирать, исследовать и получать оповещения обо всех данных телеметрии из любого источника в одном месте. Благодаря интеграции со многими open-source инструментами New Relic может работать с различными источниками и приемниками данных.
Отправка данных из ML-систем в New Relic реализуется с помощью Python-библиотеки ml-performance-monitoring с открытым исходным кодом, которая доступна на GitHub (https://github.com/newrelic-experimental/ml-performance-monitoring).
https://towardsdatascience.com/monitor-easy-mlops-model-monitoring-with-new-relic-ef2a9b611bd1
GitHub
GitHub - newrelic-experimental/ml-performance-monitoring: A Python package for sending model inference data, data metrics, and…
A Python package for sending model inference data, data metrics, and model metrics - newrelic-experimental/ml-performance-monitoring
Логичные дашборды для департамента логистики
лиентского сервиса. И хороший дашборд для логистики — это рабочий инструмент для принятия эффективных решений по сокращению затрат и по обеспечению клиентского сервиса. Меня зовут Максим Коровин, я отвечаю за дашборды в логистике, и в этом посте расскажу, как всё устроено.
На какие вопросы отвечают такие дашборды и для кого они?
Целевая аудитория этих дашбордов довольно широкая. Это и управленческий персонал конкретного склада (скажем, директор склада или складского аналитического центра), и диспетчерский центр всей компании, и директор по логистике, и курирующие члены Правления. В общем, запросы и уровни доступа у всех разные, но удобно должно быть всем.
Читать дальше
@data_analysis_ml
лиентского сервиса. И хороший дашборд для логистики — это рабочий инструмент для принятия эффективных решений по сокращению затрат и по обеспечению клиентского сервиса. Меня зовут Максим Коровин, я отвечаю за дашборды в логистике, и в этом посте расскажу, как всё устроено.
На какие вопросы отвечают такие дашборды и для кого они?
Целевая аудитория этих дашбордов довольно широкая. Это и управленческий персонал конкретного склада (скажем, директор склада или складского аналитического центра), и диспетчерский центр всей компании, и директор по логистике, и курирующие члены Правления. В общем, запросы и уровни доступа у всех разные, но удобно должно быть всем.
Читать дальше
@data_analysis_ml
Хабр
Как мы в СИБУРе делаем дашборды для людей. Часть 2: логичные дашборды для департамента логистики
Часть 1: закупки и производство Часть 2: логичные дашборды для департамента логистики Часть 3: считаем прибыль не только правильно, но и красиво Часть 4: наблюдай и властвуй — дашборды для бизнеса...
#Вакансия: Data Engineer (Middle)
📍 В классном офисе в Москве/гибрид;
📍200-350К руб., белая ЗП или ИП;
📍Большой датасет, интересные задачи, возможность влиять на продукт.
✅ОБЯЗАННОСТИ
✅ТРЕБОВАНИЯ
✅БУДЕТ ПЛЮСОМ:
Понравилась вакансия? Присылай CV @naikava
📍 В классном офисе в Москве/гибрид;
📍200-350К руб., белая ЗП или ИП;
📍Большой датасет, интересные задачи, возможность влиять на продукт.
✅ОБЯЗАННОСТИ
•
Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных; •
Обеспечивать SLA и качество данных; •
Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.✅ТРЕБОВАНИЯ
•
Хорошее знание технологий из стека: Python, SQL, Spark, Airflow; •
Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных; •
Опыт продуктовой разработки в технологических компаниях.✅БУДЕТ ПЛЮСОМ:
•
Опыт работы с облаками, особенно, с Яндекс.Облаком; •
Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python; •
Опыт работы с моделями машинного обучения в продакшене; •
Опыт работы с базами данных для аналитики, особенно, с ClickHouse.Понравилась вакансия? Присылай CV @naikava
This media is not supported in your browser
VIEW IN TELEGRAM
Добро пожаловать в мир главного ит тренда - машинного обучения: @machinelearning_ru
В канале вы найдет :
📃Статьи ,
📚Книги
👨💻 Код
🔗Ссылки
и много другой полезной информации
#ArtificialIntelligence #DeepLearning
#MachineLearning #DataScience
#Python
1 канал вместо тысячи учебников и курсов 👇👇👇
🤖 @machinelearning_ru
В канале вы найдет :
📃Статьи ,
📚Книги
👨💻 Код
🔗Ссылки
и много другой полезной информации
#ArtificialIntelligence #DeepLearning
#MachineLearning #DataScience
#Python
1 канал вместо тысячи учебников и курсов 👇👇👇
🤖 @machinelearning_ru
Продолжим разбираться в сортах разных аналитиков, а именно: Бизнес-аналитик, Системный аналитик, продуктовый аналитик, аналитик данных и web-аналитик
Само понятие «профессия аналитик» очень широкое. У аналитиков, как и у других профессий, например врачей или инженеров, есть деление на узконаправленные специализации, ведь один человек не может хорошо разбираться во всех вопросах сразу. К таким специализациям можно отнести: бизнес-аналитика, системного аналитика, продуктового аналитика, аналитика данных, web-аналитика и тд.
Во многих компаниях данные специализации могут пересекаться и выполняться один и тем же специалистом, все зависит от сферы деятельности компании и от ее требований, от самого специалиста. Например может быть роль Бизнес/Системный аналитик.
Также вы легко сможете перейти из одной в другую специализацию на своём карьерном пути, но есть и более узконаправленные, выделяющиеся из общего потока.
Для детального погружения, предлагаю прочесть пару статей:
✅Я в аналитики пойду, пусть меня научат: советы по входу в профессию для начинающих - Статья поможет нам разобраться с ответом на один из самых частых вопросов: как стать аналитиком? Еще раз проведя грань между системным и бизнес-аналитиком, а также продуктовым аналитиком, аналитиком данных и веб-аналитиком.
✅Зачем вам столько аналитиков: чем бизнес-аналитик отличается от системного и Data Analyst’а - в данной статье пойдет речь в чем сходства и отличия 3-х разных профессий: бизнес-аналитика, системного аналитика и Data Analyst’а (аналитика данных)
@data_analysis_ml
Само понятие «профессия аналитик» очень широкое. У аналитиков, как и у других профессий, например врачей или инженеров, есть деление на узконаправленные специализации, ведь один человек не может хорошо разбираться во всех вопросах сразу. К таким специализациям можно отнести: бизнес-аналитика, системного аналитика, продуктового аналитика, аналитика данных, web-аналитика и тд.
Во многих компаниях данные специализации могут пересекаться и выполняться один и тем же специалистом, все зависит от сферы деятельности компании и от ее требований, от самого специалиста. Например может быть роль Бизнес/Системный аналитик.
Также вы легко сможете перейти из одной в другую специализацию на своём карьерном пути, но есть и более узконаправленные, выделяющиеся из общего потока.
Для детального погружения, предлагаю прочесть пару статей:
✅Я в аналитики пойду, пусть меня научат: советы по входу в профессию для начинающих - Статья поможет нам разобраться с ответом на один из самых частых вопросов: как стать аналитиком? Еще раз проведя грань между системным и бизнес-аналитиком, а также продуктовым аналитиком, аналитиком данных и веб-аналитиком.
✅Зачем вам столько аналитиков: чем бизнес-аналитик отличается от системного и Data Analyst’а - в данной статье пойдет речь в чем сходства и отличия 3-х разных профессий: бизнес-аналитика, системного аналитика и Data Analyst’а (аналитика данных)
@data_analysis_ml
Автоматическое масштабирование БД в Kubernetes для MongoDB, MySQL и PostgreSQL
Читать
@data_analysis_ml
Читать
@data_analysis_ml
Telegraph
Автоматическое масштабирование БД в Kubernetes для MongoDB, MySQL и PostgreSQL
Автор оригинала: Dmitriy Kostiuk и Mykola Marzhan Стремясь к повышению производительности базы данных, вы можете столкнуться с ситуацией, когда оптимизации и настройки уже недостаточно. Если вы не можете заменить движок БД, а для настройки параметры рабочей…
Данные часто могут сделать решения хуже, а не лучше. Этот пост в блоге дает пример одной из таких ситуаций.
https://saturncloud.io/blog/relying-too-much/
@data_analysis_ml
https://saturncloud.io/blog/relying-too-much/
@data_analysis_ml
saturncloud.io
You're Relying on Data Too Much | Saturn Cloud Blog
Data can often make decisions worse, not better. This blog post gives an example of one such situation as a metaphor.
😱Запросы в гугле и твиты помогут предсказать следующий всплеск заболеваемости
Так, отзывы на ароматические свечи Yankee Candles в интернет магазинах были дополнительным индикатором распространения нового штамма. В конце 2021 года как раз посыпались жалобы от покупателей на отсутствие аромата и неприятный запах у свечей. Исследователи построили график роста отрицательных отзывов, и он очень смахивал на всплеск заболеваемости омикроном (на картинке как раз он).
Несчастным свечкам досталось еще и в начале пандемии: оценка ранее любимых покупателями свечей за год потеряла целую звезду. Помимо отзывов на свечи, ученые заметили связь с ростом поиска доставок сиропов от кашля и куриного супа с лапшой
Исследователи предлагают ориентироваться не только на число подтвержденных случаев, а еще и на такие специфические цифровые следы: авторы их назвают «хлебными крошками». Ученые считают, что эти маркеры помогут предсказать следующие волны заболеваемости, и тогда мы сможем как следует к ним подготовиться🌊
Так, отзывы на ароматические свечи Yankee Candles в интернет магазинах были дополнительным индикатором распространения нового штамма. В конце 2021 года как раз посыпались жалобы от покупателей на отсутствие аромата и неприятный запах у свечей. Исследователи построили график роста отрицательных отзывов, и он очень смахивал на всплеск заболеваемости омикроном (на картинке как раз он).
Несчастным свечкам досталось еще и в начале пандемии: оценка ранее любимых покупателями свечей за год потеряла целую звезду. Помимо отзывов на свечи, ученые заметили связь с ростом поиска доставок сиропов от кашля и куриного супа с лапшой
Исследователи предлагают ориентироваться не только на число подтвержденных случаев, а еще и на такие специфические цифровые следы: авторы их назвают «хлебными крошками». Ученые считают, что эти маркеры помогут предсказать следующие волны заболеваемости, и тогда мы сможем как следует к ним подготовиться🌊
5 полезных запросов для MS SQL
За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.
https://tproger.ru/articles/5-poleznyh-zaprosov-dlja-ms-sql/
@data_analysis_ml
За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.
https://tproger.ru/articles/5-poleznyh-zaprosov-dlja-ms-sql/
@data_analysis_ml
Tproger
5 полезных запросов MS SQL на каждый день
За 2 года работы с MS SQL у меня накопился перечень из 5 запросов: для поиска, отладки, агрегации и обработки множеств и таблиц.
🔎 Анализируем речь с помощью Python: Сколько раз в минуту матерятся на интервью YouTube-канала «вДудь»?
Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.
Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.
Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».
Читать дальше
@data_analysis_ml
Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования.
Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.
Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».
Читать дальше
@data_analysis_ml
Как повысить эффективность логистики с помощью неклассических тестов?
Ответ можно найти в последней статье Delivery Club на Хабре. В ней команда операционных аналитиков поделилась тонкостями эксперимента по внедрению switchback A/B-тестов. Вы узнаете об особенностях таких тестов, сути сетевого эффекта, об этапах запуска switchback A/B-эксперимента в логистике и его итогах.
Подробнее по ссылке.
Ответ можно найти в последней статье Delivery Club на Хабре. В ней команда операционных аналитиков поделилась тонкостями эксперимента по внедрению switchback A/B-тестов. Вы узнаете об особенностях таких тестов, сути сетевого эффекта, об этапах запуска switchback A/B-эксперимента в логистике и его итогах.
Подробнее по ссылке.
📊 Фреймворк для Анализа Временных Рядов на Python
Простой в использовании и универсальный фреймворк для анализа временных рядов
Статья: https://denshub.com/ru/kats-for-time-series-analysis/
Официальная страница: https://facebookresearch.github.io/Kats/
Kats Python package: https://pypi.org/project/kats/0.1.0/
Репозиторий исходной кода: https://github.com/facebookresearch/kats
@data_analysis_ml
Простой в использовании и универсальный фреймворк для анализа временных рядов
Статья: https://denshub.com/ru/kats-for-time-series-analysis/
Официальная страница: https://facebookresearch.github.io/Kats/
Kats Python package: https://pypi.org/project/kats/0.1.0/
Репозиторий исходной кода: https://github.com/facebookresearch/kats
@data_analysis_ml
🟢 Создание полярной диаграммы JS за 4 шага
Полярные диаграммы часто выглядят впечатляюще, что заставляет некоторых людей думать, что их создание - сложный процесс, требующий большого количества навыков и опыта. Что ж, я собираюсь развенчать этот миф прямо сейчас! Позвольте мне показать вам, как легко визуализировать данные в красивой интерактивной полярной диаграмме JavaScript.
По сути, полярная диаграмма - это разновидность кругового графика, нарисованного с полярными координатами. Она также может хорошо работать для визуализации некоторых видов категориальных данных для сравнений, и это именно тот случай, который я хочу сейчас продемонстрировать. В этом уроке я построю столбчатую полярную диаграмму с полосами, растущими из центра диаграммы, чтобы представить значения с их длиной.
Общество визуализации данных (DVS) проводит ежегодный опрос специалистов по обработке данных о состоянии отрасли, и я подумал, что это может стать отличной возможностью поиграть с некоторыми из его последних данных. В частности, я хотел посмотреть на наиболее популярные технологии, используемые для визуализации данных на основе ответов. Итак, здесь я создам полярную диаграмму JS, на которой будут показаны 15 лучших из них, составив классный иллюстративный пример из реального мира.
Читать дальше
@data_analysis_ml
Полярные диаграммы часто выглядят впечатляюще, что заставляет некоторых людей думать, что их создание - сложный процесс, требующий большого количества навыков и опыта. Что ж, я собираюсь развенчать этот миф прямо сейчас! Позвольте мне показать вам, как легко визуализировать данные в красивой интерактивной полярной диаграмме JavaScript.
По сути, полярная диаграмма - это разновидность кругового графика, нарисованного с полярными координатами. Она также может хорошо работать для визуализации некоторых видов категориальных данных для сравнений, и это именно тот случай, который я хочу сейчас продемонстрировать. В этом уроке я построю столбчатую полярную диаграмму с полосами, растущими из центра диаграммы, чтобы представить значения с их длиной.
Общество визуализации данных (DVS) проводит ежегодный опрос специалистов по обработке данных о состоянии отрасли, и я подумал, что это может стать отличной возможностью поиграть с некоторыми из его последних данных. В частности, я хотел посмотреть на наиболее популярные технологии, используемые для визуализации данных на основе ответов. Итак, здесь я создам полярную диаграмму JS, на которой будут показаны 15 лучших из них, составив классный иллюстративный пример из реального мира.
Читать дальше
@data_analysis_ml
📊 Коллекция продвинутой визуализации в Matplotlib и Seaborn с примерами
В этой статье не будет базовых приемов визуализации – все примеры, приведенные в этой статье, будут продвинутыми. Если вам нужно освежить базовые приемы, пожалуйста, обратитесь к статье «Ваша повседневная шпаргалка по Matplotlib».
Напоминаю: если вы используете эту статью для обучения, загрузите набор данных и выполняйте все примеры вслед за мной. Это единственный способ чему-нибудь научиться. Также найдите какой-нибудь другой набор данных и попробуйте применить аналогичные методы визуализации на нем.
Вот ссылка на набор данных, который я буду использовать в этой статье. Мы начнем с немного проблематичных диаграмм для нескольких переменных и будем двигаться к более ясным, но и более сложным решениям.
Читать дальше
@data_analysis_ml
В этой статье не будет базовых приемов визуализации – все примеры, приведенные в этой статье, будут продвинутыми. Если вам нужно освежить базовые приемы, пожалуйста, обратитесь к статье «Ваша повседневная шпаргалка по Matplotlib».
Напоминаю: если вы используете эту статью для обучения, загрузите набор данных и выполняйте все примеры вслед за мной. Это единственный способ чему-нибудь научиться. Также найдите какой-нибудь другой набор данных и попробуйте применить аналогичные методы визуализации на нем.
Вот ссылка на набор данных, который я буду использовать в этой статье. Мы начнем с немного проблематичных диаграмм для нескольких переменных и будем двигаться к более ясным, но и более сложным решениям.
Читать дальше
@data_analysis_ml
🔎 Разведочный анализ данных на Python
Получение хорошего представления о новом наборе данных не всегда бывает легким и зачастую требует времени. Тем не менее, хороший и широкий исследовательский анализ данных (EDA) может очень помочь понять ваш набор данных, понять, как данные взаимосвязаны и что необходимо сделать для правильной обработки вашего датасета.
В этой статье мы коснемся нескольких полезных алгоритмов EDA. На самом деле, часто необходимо потратить достаточно времени на правильный EDA, чтобы полностью понять ваш набор данных и это является ключевой частью любого хорошего проекта по науке о данных. Как правило, вы, вероятно, потратите 80% своего времени на подготовку и исследование данных и только 20% на реальное моделирование машинного обучения.
А тепеь давайте погрузимся прямо в анализ данных!
Статья
Git
@data_analysis_ml
Получение хорошего представления о новом наборе данных не всегда бывает легким и зачастую требует времени. Тем не менее, хороший и широкий исследовательский анализ данных (EDA) может очень помочь понять ваш набор данных, понять, как данные взаимосвязаны и что необходимо сделать для правильной обработки вашего датасета.
В этой статье мы коснемся нескольких полезных алгоритмов EDA. На самом деле, часто необходимо потратить достаточно времени на правильный EDA, чтобы полностью понять ваш набор данных и это является ключевой частью любого хорошего проекта по науке о данных. Как правило, вы, вероятно, потратите 80% своего времени на подготовку и исследование данных и только 20% на реальное моделирование машинного обучения.
А тепеь давайте погрузимся прямо в анализ данных!
Статья
Git
@data_analysis_ml