Forwarded from Канал Алексея Куличевского
Игорь спрашивает: «Как сформировать путь из маркетолога в аналитика? Какие навыки нужно приобрести?»
Вот алгоритм работы аналитика:
Всё начинается с того, что какой-то заказчик приходит с задачей. Обычно эта задача сформулирована в мире заказчика, например «разобраться, почему у нас не растут продажи» или «мы запустили новую фичу, хотим понять, работает ли она».
Задача аналитика: разобраться в задаче, декомпозировать ее на атомарные подзадачи, решение которых поможет ответить на основной вопрос.
Например «разобраться, почему у нас не растут продажи» можно разобрать так:
* В прошлом году выручка компании расла каждый месяц (дальше значения выручки)
* В этом году рост остановился на значении…
* Как компания зарабатывает деньги? Какие продукты продает? Кому?
* Как изменилось количество новых покупателей?
* Как изменилось количество вернувшихся покупателей?
* Как изменился средний чек?
* Как изменился состав покупательской корзины?
* Как изменились цены на товары?
* Как изменилась посещаемость сайта?
И так далее. Аналитику нужно выделить из задачи целевые метрики и разобраться, из чего они состоят. Я называю этот подход составлением «Пирамиды метрик». В консалтинге его называют составлением «Дерева KPI». Я когда-то описывал этот процесс в блоге: https://blog.ohmystats.com/printsip-piramidy-kak-planirovat-reklamnyie-aktivnosti/
Вот алгоритм работы аналитика:
Всё начинается с того, что какой-то заказчик приходит с задачей. Обычно эта задача сформулирована в мире заказчика, например «разобраться, почему у нас не растут продажи» или «мы запустили новую фичу, хотим понять, работает ли она».
Задача аналитика: разобраться в задаче, декомпозировать ее на атомарные подзадачи, решение которых поможет ответить на основной вопрос.
Например «разобраться, почему у нас не растут продажи» можно разобрать так:
* В прошлом году выручка компании расла каждый месяц (дальше значения выручки)
* В этом году рост остановился на значении…
* Как компания зарабатывает деньги? Какие продукты продает? Кому?
* Как изменилось количество новых покупателей?
* Как изменилось количество вернувшихся покупателей?
* Как изменился средний чек?
* Как изменился состав покупательской корзины?
* Как изменились цены на товары?
* Как изменилась посещаемость сайта?
И так далее. Аналитику нужно выделить из задачи целевые метрики и разобраться, из чего они состоят. Я называю этот подход составлением «Пирамиды метрик». В консалтинге его называют составлением «Дерева KPI». Я когда-то описывал этот процесс в блоге: https://blog.ohmystats.com/printsip-piramidy-kak-planirovat-reklamnyie-aktivnosti/
Forwarded from Канал Алексея Куличевского
После того, как аналитик декомпозировал задачу, надо где-то достать данные для ее решения.
Данные могут лежать, например, в какой-нибудь базе. Чтобы их оттуда достать, нужно уметь писать запросы на SQL.
Еще они могут лежать где-то в интернете и, чтобы их получить, нужно написать запрос к API или распарсить какой-то сайт. Для этого полезно уметь писать несложные программы на каком-нибудь языке программирования. Я, например, пишу на R ил Python.
Данные могут лежать, например, в какой-нибудь базе. Чтобы их оттуда достать, нужно уметь писать запросы на SQL.
Еще они могут лежать где-то в интернете и, чтобы их получить, нужно написать запрос к API или распарсить какой-то сайт. Для этого полезно уметь писать несложные программы на каком-нибудь языке программирования. Я, например, пишу на R ил Python.
Forwarded from Канал Алексея Куличевского
Когда данные получены, их нужно проанализировать, чтобы найти ответ на вопрос. Если аналитик хорошо декомпозировал задачу на первом шаге, весь анализ представляет собой последовательность простых математических операций: тут сложить, там поделить.
Как компания зарабатывает деньги? Какие продукты продает? Кому?
— продаем холодильники через интернет по всей России
Как изменилось количество новых покупателей?
— снизилось на 30%
Почему? Как изменилась посещаемость сайта?
— осталась на том же уровне, зато снизилась конверсия из посетителей в покупателей
Почему она снизилась? На каком этапе воронки?
— Конверсия просела на этапе оформления заказа
Когда она снизилась? Что произошло в этот день?
— 5 января. Мы в этот день убрали бесплатную доставкую
Как компания зарабатывает деньги? Какие продукты продает? Кому?
— продаем холодильники через интернет по всей России
Как изменилось количество новых покупателей?
— снизилось на 30%
Почему? Как изменилась посещаемость сайта?
— осталась на том же уровне, зато снизилась конверсия из посетителей в покупателей
Почему она снизилась? На каком этапе воронки?
— Конверсия просела на этапе оформления заказа
Когда она снизилась? Что произошло в этот день?
— 5 января. Мы в этот день убрали бесплатную доставкую
Forwarded from Канал Алексея Куличевского
Последний этап в пработе аналитика — объяснить результаты анализа заказчику.
Для этого нужно логично и понятно объяснить ваш ход мыслей и подкрепить их иллюстрациями. Иногда задача — не столько ответить на один вопрос, сколько создать для заказчика инструмент, с помощью которого он сам бы на него отвечал в будущем. Это может быть дешборд, модель или какой-нибудь еще дата-продукт.
Создавать такие дата-продукты удобно теми же R и Python.
Для этого нужно логично и понятно объяснить ваш ход мыслей и подкрепить их иллюстрациями. Иногда задача — не столько ответить на один вопрос, сколько создать для заказчика инструмент, с помощью которого он сам бы на него отвечал в будущем. Это может быть дешборд, модель или какой-нибудь еще дата-продукт.
Создавать такие дата-продукты удобно теми же R и Python.
Forwarded from Канал Алексея Куличевского
Итого, хороший аналитик умеет:
1. Декомпозировать задачу
2. Находить, доставать и готовить нужные для ее решения данные
3. Анализировать эти данные
4. Понятно объяснять результаты анализа заказчику
Первый пункт — самый важный.
1. Декомпозировать задачу
2. Находить, доставать и готовить нужные для ее решения данные
3. Анализировать эти данные
4. Понятно объяснять результаты анализа заказчику
Первый пункт — самый важный.
Кстати, подписывайтесь на канал Лёши Куличевского. Он в аналитике съел слона и плохого не посоветует.
https://t.me/kulichevskiy
https://t.me/kulichevskiy
Telegram
Канал Алексея Куличевского
Алексей Куличевский пишет
При работе с анализом непрерывных числовых данных может быть полезным разбить эти данные на диапазоны (иначе называемые корзинками или bins). В статье подробно рассказывается о том как разбить данные на диапазоны с помощью функций cut и qcut в pandas.
https://pbpython.com/pandas-qcut-cut.html
https://pbpython.com/pandas-qcut-cut.html
Pbpython
Binning Data with Pandas qcut and cut
Pandas qcut and cut are both used to bin continuous values into discrete buckets or bins. This article explains the differences between the two commands and how to use each.
Статья из блога DataQuest о том как анализировать данные опросов с помощью Python. Полезно будет новичкам в качестве простого примера разведочного анализа данных
https://www.dataquest.io/blog/how-to-analyze-survey-data-python-beginner/
https://www.dataquest.io/blog/how-to-analyze-survey-data-python-beginner/
Dataquest
How to Analyze Survey Data with Python for Beginners – Dataquest
Learn to analyze and filter survey data, including multi-answer multiple choice questions, using Python in this beginner tutorial for non-coders!
Forwarded from BigQuery Insights
Новый Python скрипт - позволяет извлекать данные об активности пользователя из Google Analytics и импортировать их в таблицу Google BigQuery.
via @BigQuery
via @BigQuery
Если вы в pandas используете apply на большом объеме данных, то может быть полезным прикрутить шкалу прогресса выполнения функции. В статье рассказывается о том как это сделать с применением библиотеки tqdm
https://towardsdatascience.com/progress-bars-in-python-and-pandas-f81954d33bae
https://towardsdatascience.com/progress-bars-in-python-and-pandas-f81954d33bae
Medium
Progress Bars in Python (and pandas!)
Time and estimate the progress of your functions in Python (and pandas!)
Небольшая, но от этого не менее информативная, статья о том как строить гистограммы и столбчатые диаграммы в Python
https://habr.com/ru/post/470535/
https://habr.com/ru/post/470535/
Хабр
Способы создания гистограмм с помощью Python
За последний год я сталкивалась с необходимостью рисования гистограмм и столбчатых диаграмм достаточно часто для того, чтобы появилось желание и возможность об э...
7 советов для повышения эффективности анализа данных в Python: pandas-profiling для быстрого обзора данных, magic-команды, горячие клавиши, выделение блоков markdown цветом и многое другое
https://towardsdatascience.com/7-things-to-quickly-improve-your-data-analysis-in-python-3d434243da7
https://towardsdatascience.com/7-things-to-quickly-improve-your-data-analysis-in-python-3d434243da7
Medium
7 things to quickly improve your Data Analysis in Python
Take your Data Analysis to the next level!
Инструкция, позволяющая настроить VS Code для того, чтобы в нем можно было работать c ipynb-файлами
https://towardsdatascience.com/ipython-notebook-support-is-finally-here-for-visual-studio-code-b578abe0361c
https://towardsdatascience.com/ipython-notebook-support-is-finally-here-for-visual-studio-code-b578abe0361c
Medium
IPython Notebook Support is Finally Here for Visual Studio Code
You can now edit Jupyter Notebooks directly in Visual Studio Code. But should you make a switch?
Крутой обзор функций NumPy, которые сильно помогут в работе с массивами. Ну и позволят понять что внутри pandas, т.к. основой для объектов pandas выступают numpy-массивы
https://habr.com/ru/post/469355/
https://habr.com/ru/post/469355/
Хабр
Нескучный туториал по NumPy
Меня зовут Вячеслав, я хронический математик и уже несколько лет не использую циклы при работе с массивами… Ровно с тех пор, как открыл для себя векторные опера...
Подробный гайд по работе с временными рядами в Python. В нем даются примеры визуализации рядов, декомпозиции на трендовую и сезонную компоненту, применение статистических критериев для проверки гипотез, например, тест под забавным для постсоветского пространства названием KPSS, который позволяет проверить стационарность ряда.
https://www.machinelearningplus.com/time-series/time-series-analysis-python/
https://www.machinelearningplus.com/time-series/time-series-analysis-python/
Machine Learning Plus
Time Series Analysis in Python – A Comprehensive Guide with Examples
Learn Complete Data Science Online
Наткнулся на интересную библиотеку для статистики - Pingouin. Имеет ряд преимуществ по сравнению с scipy.stats, например, t-test по умолчанию выдает не только T-value и p-value, но и доверительные интервалы, статистическую мощность и размер эффекта. Понятное дело, что всё это можно сделать и в scipy, но Pingouin делает это одной функцией, что крайне удобно. Вот ноутбук с кратким обзором того, что умеет Pingouin: https://nbviewer.jupyter.org/github/raphaelvallat/pingouin/blob/master/notebooks/00_QuickStart.ipynb
https://github.com/raphaelvallat/pingouin
https://github.com/raphaelvallat/pingouin
GitHub
GitHub - raphaelvallat/pingouin: Statistical package in Python based on Pandas
Statistical package in Python based on Pandas. Contribute to raphaelvallat/pingouin development by creating an account on GitHub.
Книга Nicolas P. Rougier "From Python to Numpy" рассказывает о том как с помощью NumPy существенно улучшить эффективность алгоритмов анализа данных. Автор специализируется в применении Python к научным исследованиям и визуализациям, поэтому книга изобилует сложными, но очень крутыми примерами.
https://www.labri.fr/perso/nrougier/from-python-to-numpy/
https://www.labri.fr/perso/nrougier/from-python-to-numpy/
www.labri.fr
From Python to Numpy
An open-source book about numpy vectorization techniques, based on experience, practice and descriptive examples
Статья о том как сделать исключение одного датафрейма из другого. Интерес представляет практический пример, когда merge вызывают с параметром indicator=True и это приносит пользу
https://kanoki.org/2019/07/04/pandas-difference-between-two-dataframes/
https://kanoki.org/2019/07/04/pandas-difference-between-two-dataframes/
Обзор просто бомбической библиотеки Streamlit, которая позволяет создавать небольшие интерактивные веб-приложения для взаимодействия с данными и алгоритмами ML. Похоже на разработку Voila, но не привязана к ipyWidgets, а использует свои виджеты, создавать которые крайне просто. В общем, посмотрите и попробуйте, это кайф
https://habr.com/ru/post/473196/
https://habr.com/ru/post/473196/
Хабр
Превращаем скрипты в красивые инструменты для машинного обучения
Создаём семантический поисковик с машинным обучением в реальном времени за 300 строк Python кода. Мой опыт подсказывает, что любой более или менее сложный проект по машинному обучению рано или...
Руководство по работе с datetime в python: как извлекать атрибуты datetime, работать с timedelta, а также с timezones. Помимо этого в руководстве есть раздел, посвященный работе с датой/временем в pandas
https://www.dataquest.io/blog/python-datetime-tutorial/
https://www.dataquest.io/blog/python-datetime-tutorial/
Dataquest
Python Datetime Tutorial: Manipulate Times, Dates, and Time Spans
Become a master of times and dates in Python as you work with the datetime and calender modules in this data science tutorial.