Datalytics
9.03K subscribers
205 photos
12 videos
5 files
636 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Ну и картинка для привлечения внимания — моё первое публичное выступление на конференции iMetrics-2012. Кажется с тех пор ораторские скиллы прокачал, будет отличная возможность для меня ещё раз в этом убедиться 🙂

https://matemarketing.ru/
Только сегодня досмотрел митап от EXPF и СберМаркет - https://youtu.be/1blbhx9BYxk.
Для меня самым интересным был доклад Виталия Черемисина про чувствительность метрик. Виталий очень доступно все разжевал и рассказал о том, как оценивать эту самую чувствительность метрик. Ниже небольшой конспект этой части его выступления.

Для того, что оценить чувствительность той или иной метрики, нужно моделировать рост нашей метрики на некоторой выборке и оценивать, при каком условии чувствительность максимальная.

1. Нужно взять некоторую группу пользователей, разбить ее на две группы, так чтобы в обеих группах наша метрика была равна.

2. Выбрать несколько значений uplift. Шаг может быть разным, исходя из эмпирического опыта.

3. И по каждому из значений uplift нужно произвести операции:
- В одной из выборок (пусть она будет B) увеличить значение метрики на величину uplift. Это нужно делать не коэффициентом умножить на вреднее, а некоторым пользователям добавить конверсии, каким-то убрать - в результате получится полноценная выборка с дополнительными конверсиями.
- Делать множественные подвыборки (например, 1000) из обеих групп, сравнивать их показатели, рассчитывать pvalue.
- В результате у нас получится 1000 значений pvalue. Считаем, какой в каком проценте из них pvalue был ниже 0,05. Например, их будет 65%. Вот это процент и есть чувствительность нашей метрики при увеличении на некоторую величину.
- Фиксируем данные. И то же самое теперь производим с остальными значениям uplift.

4. В результате у нас получится таблица, в которой у нас посчитана чувствительность метрики при разных значениях ее увеличения. И можно сделать вывод, при каком росте конверсии можно рассчитывать зафиксировать эффект, если он есть.

Для чего это можно использовать:
1. Чтобы сделать вывод, нужно при проводить эксперимент. Например, выяснится, что, чтобы получить чувствительность 80%, нужно увеличить конверсию на 30%, что считается невозможным при данных изменениях. Значит, на данный момент нужно отказаться от тестирования данной гипотезы.
2. Чтобы приоритизировать гипотезы для проведения экспериментов. Проверив чувствительность многих метрик и предполагая их увеличение на определенный процент, можно понимать, какие гипотезы про какие метрики являются более перспективными с точки зрения возможности увидеть положительный эффект. Становится понятно, с каких метрик и каких гипотез лучше начать тестирование изменений.
В публичном треке смотрите доклад Ромы Бунина из Яндекс Go - Фреймворк развития системы отчётности в крупной компании.

Доступ бесплатный - https://matemarketing.ru
Приглашаем на митап по аналитике от EXPF x Delivery Club

Программа:
— «Что делать, если возникли сомнения, подходит ли твой критерий для твоего теста (а они должны возникать!)», Тимур Исмагилов, Avito

— «Платформа switchback-экспериментов в Ситимобил», Артём Солоухин, Cитимобил

— «Как мы ищем точки роста в продукте: пошаговая инструкция», Владимир Абазов, Delivery Club

— «Скрытая угроза ранговых критериев», Егор Семин, EXPF

Когда: 25 ноября 2021, 18:00—20:00
Где: online

Регистрация и детали: https://expf.ru/expf_dc
Как меняется лексика русского языкаисследование Яндекса и Прожито. Можно посмотреть, например, "узодяшие" из лексикона слова: докучный, закаиваться, мазурик.

Еще очень хочется написать, что студенты ПАНДАН-а в ЕУ тоже работали с данными прожито по дневникам подростков и обучили языковую модель, способную писать очень похожие тексты (почти не отличить от настоящих). Ребята супер молодцы и шлю им ❤️
По мотивам выступления на Матемаркетинг-2021 Павел Левчук сделал пост, в котором дал введение в Матрицу Вовлеченности. Матрица Вовлеченности это простой и эффективный инструмент для ранжирования ваших фичей по осям: (Х) Популярность фичи и (У) Интенсивность использования.

Этот подход позволяет получить быстрое представление о том, где в продукте потенциально создается ценность для клиента.

https://ecommerce-in-ukraine.blogspot.com/2021/11/engagement-matrix.html
Forwarded from DataEng
Прикольная визуализация работы pandas: https://pandastutor.com/index.html
Удобно при изучении этой крутой библиотеки.
BIpedia - канал про BI аналитику, в котором вы найдете:
— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Полезности с канала:
Зарплаты BI специалиста
Инструменты для анализа
Развитие BI систем

Присоединяйтесь, давайте расти как профессионалы вместе 😉
Подписаться: @bi_wiki
Чтобы понимать, как в продукте создается ценность, важно спрашивать себя - как именно клиенты пользуются вашим продуктом:
-- есть фичи которыми пользуются интенсивно в течение дня, но не регулярно.
-- а бывает наоборот - клиенты пользуются фичами регулярно в течение месяца, но не так интесивно в течение дня.

Я уже делился постом про Матрицу Вовлеченности — простой и эффективный инструмент для ранжирования фич по популярности и интенсивности использования. Павел Левчук написал второй пост из серии постов про продуктовую аналитику по мотивам своего выступления на Матемаркетинг-2021 — про Матрицу Интенсивности

https://ecommerce-in-ukraine.blogspot.com/2021/12/intensity-matrix.html
Forwarded from Data Nature 🕊 (Alex Barakov)
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел достойный внимания Tableau Data Viz Catalogue от Zen Master Toan Hoang - сборник туториалов по построению чартов. Такой viz каталог адаптируется в BI культуру компании - работает как "How to" инструкция для разработчиков и дополняет BI стайл гайд.

Этот пример отличается различимым авторским почерком, здесь мне кажется 20% чартов имеют нетипичный и интересный (хотя местами на любителя) дизайн.

Есть и другие хорошие виз-каталоги tableau:
- Design Tip Catalogue | by Zak Geis (увидел у Reveal the Data)
- The Tableau Chart Catalog by Kevin Flerlage
- Tableau Cook Book by Josh Weyburne
- Visual Vocabulary by Andy Kriebel

#tableautips #инфодизайн
Forwarded from Reveal the Data
🧑‍🎓 Матрица компетенций BI-аналитика
Сделал матрицу компетенций, она родилась за год большой работы по менторству BI-аналитиков и «сериала» с Русланом. С радостью и гордостью хочу поделиться ей с комьюнити. Получилось круто.

Матрица будет полезна и новичкам — есть подсветка проседающих навыков и ссылки на учебные материалы. И компаниям — для составления планов развития сотрудников.

Необходимо оценить себя по 68 навыкам из 6 направлений, которые важны BI-аналитику на мой взгляд. Каждый навык имеет уровень «прокачки» от 1 до 4 и описание, с примером ожиданий знаний от уровня. Но это только пример, при сомнениях, оцените навык по ощущениям от «джун» до «лид».

Матрица – не истина в последней инстанции, а ориентир и быстрый способ оценить себя. В идеале должна заполняться вместе с ментором, кто мог бы валидировать результат и дать практику.

Большое спасибо всем, кто помогал и участвовал в тестировании. Буду рад идеям, ссылкам и примерам результатов в комментариях.

🔗 Ссылка
#избранное
Алексей Селезнев опубликовал на хабре статью, в которой собрал пакеты реализующие на R популярные приёмы Python.

● Декораторы
● Множественное присваивание
● Списковые включения
● Индексирование с нуля
● Обработка исключений (try - except)
● Классическое ООП в R
● Логирование (logging)
● Работа с табличными данными (pandas)

https://habr.com/ru/post/587480/

Подписывайтесь на канал Алексея про использование языка R – https://t.me/R4marketing
Хорошая статья на Хабре с подборкой прикладных задач аналитики данных, решённых на SQL. Отличный материал для того, чтобы рассмотреть различные подходы и самые распространенные проблемы на понятных и доступных примерах. Например, есть задачи на работу с пропущенными значениями, временными рядами и дубликатами. В общем, всё что я обычно всегда играючи делал в Pandas, но как решить на SQL меня всегда смущало (уж не силён я в нём)

https://habr.com/ru/company/otus/blog/541882/
Forwarded from Reveal the Data
🎄Итоги года
Я люблю итоги года, для меня это время выгрузить данные и поиграться. Сделал дашборд про каналы, по которым были данные за год и я знаком с авторами. Они крутые эксперты, спасибо им, что готовы делиться информацией! Рекомендую. Полный список за чем слежу сам тут.

Виз получился аля «bar-chart race на максималках». Прикольно двигать ползунок. Если выбрать скейл «год», то видно топ постов за все время, есть необычные инсайты. Например, топ-1 это этот пост в канале Андрея Дорожного =) А вот связи между каналами можно увидеть в проекте Left Join и Андрея.

📈 Приятно удивлён приросту подписчиков за год. Мне казалось, что потенциальная аудитория сильно меньше. Рад, что вам полезно и интересно!

📊 Самые-самые материалы за год
Матрица компетенций
Зарплаты аналитиков за год
Визуализация городов России
Сериал «Залейтай в BI»
— Статьи про анализ стандрт IBCS и Dashboard Canvas
— Выступления на Матемаркетинге 2020 и DataTalks 3.0

П.С. Спасибо Егору Ларину за помощь с парсингом в Knime
Наткнулся на любопытную статью с описанием 6 трендов в сфере работы с данными, которые будут (а может и не будут) популярны в 2022

Список такой:
1️⃣ Data Mesh
2️⃣ Metrics Layer
3️⃣ Reverse ETL
4️⃣ Active Metadata & Third-Gen Data Catalogs
5️⃣ Data Teams as Product Teams
6️⃣ Data Observability

В целом, видно смещение в область data governance и изменение парадигмы восприятия данных крупными компаниями не как побочного следствия жизнедеятельности продукта/сервиса/системы, а как одного из ключевых элементов — можно сказать топлива для принятия решений и для роста показателей (отсюда вытекает тезис «Data Teams as Product Teams»). Как следствие, увеличивающаяся демократизация данных и сфокусированность на всех сегментах потребителей данных (как менеджерах, так и analysts/data scientists), гибкость в архитектурных решениях (см. Data Mesh), но в то же время унификация для избежания рассогласованности (см. Data Catalogs и Metrics Layer), а также концентрация на качестве и устойчивости сбора данных (см. Data Observability + Data Quality является одной зон отвественности оунеров данных в рамках концепции Data Mesh)

Решил выложить серию постов про каждый из трендов с коротким описанием тренда и почему он значим:
- Пост про Data Mesh
- Пост про Metrics Layer
Тренды в сфере работы с данными 2022. Основной пост

1️⃣ Data Mesh

Признаться честно, меня всегда пугают новые термины, которым нельзя дать конкретное определение. На мой взгляд, такие термины рискуют стать buzzword. Data Mesh как раз такой термин — дать его определение в одном предложении сложно. Это не какая-то конкретная технология/технологический стек или процесс. Правильнее назвать это концепцией хранения данных

Data Mesh появляется в противовес централизованным хранилищам данных. Можно сказать, что это микросервисная архитектура хранения данных, в которой существует некоторое количество разнородных источников данных с высокой атомарностью

У каждого хранилища может быть свой бизнесовый оунер (продуктовая команда, бизнес-юнит, департамент), своя команда дата-инженеров или дата-менеджеров и своя собственная внутренняя архитектура. По сути каждый оунер становится владельцем некоторого куска данных, которым он волен распоряжаться самостоятельно в соответствии с целями, которые стоят перед ним. Такой подход обеспечивает гибкость бизнес-юнитам и позволяет быстрее концентрироваться на стратегических и тактических целях в обход «инфраструктурной бюрократии», которая возникает при централизации. Полная свобода в принятии решении о дата-архитектуре

Но при этом важным моментом является то, что эта свобода налагает ответственность перед любым потребителем данных, например, смежной продуктовой командой или аналитическим отделом любого департамента. Эта ответственность заключается в том, чтобы обеспечить удобный открытый интерфейс к данным, качество данных, их документацию, политики безопасности. То есть любой потребитель должен прийти за данными и получить то, что он хочет с минимумом болей. При этом, потребителем может выступать как менеджер, которому нужен self-service интерфейс, так и data engineer, которому нужен доступ к raw data, так и аналитик, которому необходима некоторая витрина

Как мне кажется, этот подход применим для крупных организаций, где существует несколько бизнес-юнитов или крупных продуктовых команд, но при этом возникает регулярная потребность обмена данными

Почитать про принципы Data Mesh можно вот тут
Тренды в сфере работы с данными 2022. Основной пост

2️ Metrics Layer

Принятие решение в data-driven бизнесах основывается на метриках. При этом для качественного принятия решения различными акторами/юнитами требуется, чтобы метрика могла быть одинаково подсчитываема всеми участниками. То есть не должно быть такого, что в Отделе A метрику считают по одной методологии, а в Отделе B метрика считается совсем по-другому из-за того, что они используют другой BI-инструмент

Другое важное условие — это то, что метрика должна быть рассчитываема в разных срезах, за разный временной срок, разными отделами для разных нужд, с разной точностью. Одна и та же метрика может использоваться по-разному. Аналитическому отделу для оценки результатов A/B-тестирования нужен инструмент получения атомарных данных, на основе которых рассчитывается эта метрика в эксперименте. Отделу Data Science данные по этой метрике могут быть нужны в real-time для использования в алгоритме. А операционному блоку нужна просто агрегированная метрика за последние 30 дней в разрезе регионов. Но с точки зрения бизнес-логики расчетов все эти потребители должны получать одинаковую метрику

Metrics Layer — это технологическое решение, позволяющее обеспечить однозначность метрики, её документированность, вычислимость для различных нужд (с разной скоростью и разной точностью вычислений), качество и стандартизированность получения

Ещё Metrics Layer называют Headless BI (безголовый BI), потому что по сути это такой business intelligence as code, то есть без графического интерфейса. Графический интерфейс в виде BI-платформы с дашбордам уже прикручивается сверху на Headless BI в случае, если для решения бизнес-задачи нужна визуализация метрики, но внутри BI-платформы не зашивается бизнес-логика расчёта метрики

Больше всего мне понравилось описание унифицированной платформы расчёта метрик uMetric от Uber. Они хорошо описали основные вызовы, которые их платформа решает с помощью унификации подсчёта метрик
Тренды в сфере работы с данными 2022. Основной пост

3️ Reverse ETL

ETL – это аббревитуара для Extract-Transform-Load. Извлекаем данные из источников, трансформируем (производим определенную предобработку, строим агрегаты, обогащаем) и затем записываем в некоторое хранилище. Reverse ETL не означает, что мы всё это делаем задом наперём

Reverse ETL – это подход, при котором есть унифицированный процесс/инструмент/регламент, позволяющий извлекать данные из внутреннего хранилища организации и передавать эти данные в сервисы (чаще всего сторонние) с целью операционализировать эти данные. Под «операционализировать» тут понимается практическое применение данных для принятия решений в регулярных операционных процессах управления (клиентской базой, продажами). Надеюсь, не запутал. На примере: вы определели на основе данных, что пользователь давно не заходил в ваше приложение, вам нужно отправить ему пуш, а делаете вы это через стороннее приложение — в этом случае вы «операционализируете» данные о последнем заходе пользователя для принятия решения о его возвращении в приложение

Например, вам нужно передавать в Facebook данные об аудитории, базируясь на поведении пользователей в приложении, передавать данные о клиентах в CRM, передавать офлайн-транзакции в Universal Analytics. Reverse ETL решения позволяют сохранять консистентность данных между разными платформами, а также тратить меньше ресурсов на разработку коннекторов к API, так как уже содержат встроенные.

Хорошо про Reverse ETL описано в статье сервиса Hightouch
Forwarded from LEFT JOIN
💣💥Мы узнали абсолютно все про рынок онлайн-образования в России (и спешим вам рассказать) 🚀
Как вы помните (а если не помните, то кликайте сюда), несколько месяцев назад мы проводили большой опрос по российскому рынку онлайн-образования. Сегодня мы наконец-то можем поделиться с вами результатами, выводами и инсайтами, которые, на наш скромный взгляд, получились весьма крутыми! Но, обо всем по порядку.
В нашем телеграм-канале мы собрали данные с помощью подробного анкетирования. После этого, не без помощи Романа Бунина, наша коллега Олеся структурировала информацию в дашборде Табло. В итоге, для тех, кто хочет быстро посмотреть на результаты на одной странице есть дашборд, а для тех, кому интересно увидеть все подробности, то ниже мы прикрепляем pdf-файл – презентацию результатов исследования, которой призываем делиться.

Короткий How-To к дашборду для самостоятельного изучения:
Дашборд разделен на две части: слева – панель фильтров, справа – результаты опроса.
Панель фильтров содержит информацию об участниках опроса и курсах. Каждая группа участников опроса из панели слева фильтрует данные и графики обновляются. Если вы хотите отменить фильтрацию – щелкните еще раз на ту же строку или обновите страницу для сброса всех фильтров.
На каждом графике (кроме графика с оценками) есть всплывающие подсказки, в которых указано количество участников, в выбранной категории.

Теперь мы с гордостью можем рассказать обо всем, что обнаружили:
◼️ Всего в опросе приняло участие 457 человек. Из них – 90% проходят/проходили онлайн курсы, 7% планируют пройти, 3% не проходили и не планируют. Весьма впечатляет! Но, на самом деле, тут нет ничего неожиданного, мы лишь подтвердили свою гипотезу о широкой распространенности онлайн-курсов.
◼️ Самые популярные направления образования среди участников – Аналитика данных (66%) и Data Science (19%). Самые популярные платформы – Яндекс.Практикум (30%) и KARPOV.COURSES (14%).
◼️ В качестве целей прохождения курсов чаще всего указывали «Получение новой работы» (49,5%) и «Получение новых знаний/навыков» (25%). Что касается достижения поставленных целей, то наши результаты абсолютно совпали с цифрой, которую получили Яндекс и ВШЭ в своем исследовании (учитывая совершенно разные выборки респондентов, это – удивительно!). У них 78% достигли целей после прохождения Практикума и у нас тоже 78%. Мы сильно удивлены и рады, что данные совершеннно репрезентативно описывают опыт прохождения онлайн-курсов в России.
◼️ Все участники, которые не планируют проходить онлайн курсы считают важным для профессионального развития опыт и практику в реальном бизнесе. Такое мнение тоже имеет право на существование, ведь эти два направления – теоретические знания и практический опыт – два столпа, на котором основывается человеческий капитал.
◼️ Подавляющее большинство участников относятся положительно к онлайн-образованию (даже среди тех, кто не планирует проходить онлайн курсы).

В данных еще можно найти множество более узких выводов. Однако, становится понятно, что стереотип о том, что онлайн-образование сильно уступает высшему образованию и “не котируется” в современном обществе постепенно отмирает. И это круто, потому что мир развивается, а онлайн курсы имеют ряд неоспоримых преимуществ, которые давно стоит перестать недооценивать!

Небольшой спойлер: совсем скоро вы также сможете послушать первый эпизод нашего свежего, но все еще секретного подкаста (пока не можем раскрыть всех деталей), в котором мы поговорим об онлайн-образовании с несколькими участниками опроса, а также с ведущими экспертами рынка!