Дневник Стьюдента
549 subscribers
26 photos
25 links
Пишу про аналитику и IT

Автор — @elais_loladze
Download Telegram
🎄 Новогодний пост с подарками

В последнем посте уходящего года я хотел бы сделать вам подарок, поэтому ниже собрал лучшие бесплатные материалы для нескольких ключевых навыков аналитика, о которых мы говорили выше.

1. SQL
С нуля до продвинутого уровня и хорошими задачами с решениями в симуляторе sql от karpov.courses.

2. Python
Для первого знакомства с языком Python и программированием в целом хорошо подойдет курс на stepik. Если же вам больше нравится «университетский» формат, то советую посмотреть легендарный курс от МФТИ.

3. Математическая статистика
Один из самых популярных курсов по статистике на русском языке - конечно, «Основы статистики» на stepik.

4. Метрики
Хорошая серия статей от GoPractice по метрикам и подходам в продуктовой аналитике по ссылке.

5. A/B-эксперименты
Если вы хотите прочувствовать метод Монте-Карло или проще говоря - бутстрапа, то очень советую курс от Глеба Михайлова по ссылочке. Для лучшего усвоения рекомендую параллельно писать код за автором.

С наступающим! 🎁
Please open Telegram to view this post
VIEW IN TELEGRAM
43🔥2🍾1
Особое внимание к новичкам

Одна из важных (и наверное самой ценной) частей работы продуктового аналитика — это поиск точек роста.

Это может быть как улучшение какого-то процесса — например, изменили логику выдачи рекомендаций товаров на главной странице, учитывая предыдущие покупки пользователя.
А может быть нахождение слабых мест, которые ранее не подмечали — в ходе исследования выяснили, что прогноз вакансий курьеров часто завышает то кол-во сотрудников, которое на самом деле нужно нанять.

Большой блок для поиска таких точек роста — это новые пользователи.

И если раньше я на это смотрел как на банальную скидку или промокод при первом заказе, то с повышением насмотренности увидел много других кейсов того, как можно улучшить онбординг / первый опыт / начальный период новеньких.

Давайте приведу несколько примеров из Самоката (сервиса экспресс-доставки продуктов):

- Первые несколько заказов новые пользователи могут совершать с минимальной суммой заказа (допустим, если для всех стоит заказ от 700 р, то у них может быть от 300 р)
- При доставке заказов в приоритете у курьеров новые пользователи. К ним важнее не опоздать, так как это их первый опыт
- При выводе курьеров на рабочие смены в приоритете - новые курьеры. Новички в случае нехватки часов более «чувствительны» к смене места работы

Поделитесь в комментариях, какие еще интересные улучшения в онбординге вы знаете 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🌭21💯1
Bootstrap (бутстрэп)

— универсальный метод для тестирования гипотез и построения доверительных интервалов.

Как написали в одной из статей аналитики Авито:
Если вы не знаете, что использовать — используйте бутстрап


Алгоритм довольно простой. Предположим, у нас есть какая-то выборка:

1) Берем из нее N рандомных элементов. Элементы могут повторяться
2) В подвыборке из шага 1 считаем статистику (среднее / медиану / стандартное отклонение / …)
3) Сохраняем полученное значение
4) Повторяем шаги 1-3 много раз. Получаем распределение статистик
5) На основе этого распределения строим доверительный интервал

Если хотим сравнивать 2 выборки, то делаем то же самое, только извлекаем подвыборки отдельно для каждого сэмпла, а в шаге 3 сохраняем разницу статистик этих подвыборок. Когда доверительный интервал включает ноль — статистически значимых отличий нет, когда не включает — есть 🎉

Прелесть же метода в его простоте и применимости для многих распределений и статистик.

Детальней можно почитать в отличной статье от X5 tech на хабре.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3👏1
Какой ваш любимый инструмент в статистике для А/Б ?
Anonymous Poll
41%
t-критерий Стьюдента
3%
Манна-Уитни
29%
Бутстрап
4%
Z-критерий
23%
никакой :)
Продуктовая аналитика за рубежом

Мне стало интересно, чем позиции продуктового аналитика отличаются в иностранных компаниях как в зарплате, так и в требованиях.

Ниже я выписал несколько особенностей, которые заметил просматривая десятки вакансий из топ компаний в США:

Самую большую зарплату предлагает компания Meta — 185к $ в год, что с учетом прогрессивного налога в 32% и пересчетом на рубли — 930к рублей в месяц на руки.

Чаще всего в вакансиях требуют 2-3 года опыта.

Многие компании добавляют специализацию в название вакансии:
⁃ Human Capital Management Product Analyst
⁃ Product Growth Analyst
⁃ Product Development Analyst
⁃ Product Strategy & Communications Analyst

Степень бакалавра в смежных сферах часто обязательна. Магистратуру нигде не требуют.

Обобщенные требование по хардам. Могут написать, что необходимо знание регрессий, умение тестировать гипотезы, очищать данные, SQL. Но без уточнений, что обязательно Python, Power BI, ClickHouse и так далее.

Во всех вакансиях есть подробная «софтовая» часть требований. Например: находить точки роста, делать карту развития продукта, кросс-функциональное взаимодействие. Вакансии могут включать в себя 5-10 таких пунктов с детальным описанием.

Для анализа я воспользовался популярным сервисом glassdoor.com. Помимо зарплат и вакансий на нем есть множество форумов, где специалисты из разных областей обсуждают волнующие их вопросы в анонимном формате.

По российскому рынку есть похожий аналог— dreamjob.ru. Правда данных там пока сильно меньше, поэтому статистика не такая правдоподобная.
👍8🐳42🆒1
Аналитические методы сегментации

Нередко при работе с данными возникает необходимость разбить их на какие-то группы.

В этом посте я хотел бы остановиться на «аналитических» методах группировки данных — простых и практичных способах:

1) Группировка исходя из бизнес-контекста

В каждой компании есть набор стандартных параметров и их диапазонов. Например, выделение поставщиков по городам.

2) Группировка по когортам

Разбиение пользователей по дате совершения первого целевого действия. Например, группировка пользователей по месяцу, когда они скачали приложение.

3) RFM-анализ

Метод сегментации пользователей по 3-м признакам:
- R (recency) - когда в последний раз юзер совершил заказ
- F (frequency) - кол-во совершенных заказов за все время
- M (monetary) - потрачено денег за все время

По каждой метрике можно выделить 3 диапазона - «худший», «средний» и «лучший». И дальше исследовать полученные сегменты. Утрированный пример для наглядности - предлагать скидку юзерам, которые часто (F) и на большие суммы (M) заказывали, но почему-то давно не совершали заказ (R), чтобы вернуть их обратно.

4) ABC-анализ

Способ сегментации ассортимента товаров для выделения наиболее важных и своевременного пополнения их запасов на складе. Товары разделяются на 3 группы:

- A (наиболее ценные) - 20% товаров, которые приносят 80% выручки
- B (промежуточные) - 30% ассортимента, который приносит 15% продаж
- C (наименее ценные) - 50% ассортимента, который приносит 5% продаж

Конечно, это условное разбиение и кол-во групп может оказаться больше. В ABC и RFM-анализе проскальзывает принцип Парето:
20% усилий приносят 80% результата

Что можно интерпретировать как 20% пользователей приносят 80% выручки (аналогично с ассортиментом) и так далее.

Ставь 🐳, если хочется видеть больше таких постов!
🐳20🔥4👍2👌1
Как я делаю исследования

За последнее время я сделал достаточно много небольших исследований на работе и после очередной итерации у меня сложилась в голове оптимальная схема, по которой я их выполняю.

Этот план помогает мне быстрее завершать исследования, не закапываясь в многочисленные детали.

Шаги следующие:

1. Постановка вопроса

Сформулировать вопрос, который интересует бизнес без технических деталей

2. Методология
Определить, как мы будем отвечать на этот вопрос уже технически: метрики в разрезе групп, графики показателей в динамике и тд. А также какой период и с какими фильтрами будем смотреть.

3. Сбор данных
Пишем SQL-запросы к источнику (-ам) в хранилище данных. Объединяем их в один датасет в Jupyter-ноутбуке

4. Проверка данных на качество
Проверяем получившиеся данные: кол-во строк (в целом и в разрезах), пропуски, типы данных, иногда смотрим распределение чисел в некоторых столбцах

5. Анализ и подведение итогов
После следуем методологии и считаем нужные цифры / делаем визуализацию и даем свой комментарий (переводим аналитику обратно на человеческий язык)

6. Обсуждение итогов
Обсуждаем итоги с коллегами/стейкхолдерами/продакатами и решаем, что делать дальше.
Это очень важно:
⁃ Какое бы ни было крутое исследование, без его «презентации» оно так и останется на просторах Confluence или рабочем ноутбуке
⁃ Важно услышать мнение со стороны как можно быстрее и обсудить дальнейшие шаги. Слишком долгое «откладывание» получения обратной связи может привести к тому, что результаты непонятны / недостоверны / непрактичны /неактуальны

Набираем 25 🔥 реакций и коротко распишу недавнее исследование по этим шагам в комментариях!
🔥48👍41🌭1🏆1
Пример мини-исследования

Прошлый пост набрал рекордное кол-во реакций за все 3-х месячное существование канала (напопрошайничал), поэтому распишу обещанный пример отдельным постом.

Для начала немного контекста:
Представьте, что вы работаете в e-grocery компании с сотнями магазинов. В этих магазинах есть много разных сотрудников: курьеры, сборщики, директора и тд. Сборщики занимаются тем, что собирают продукты в пакет для каждого заказа, который далее курьеры отвозят до клиентов. Допустим, что когда и сколько сборщиков будет работать решает директор магазина.

1. Постановка вопроса
Продакт приходит к нам и просит понять, насколько эффективно директора выводят на работу сборщиков? Стоит ли нам в будущем взять этот процесс на себя?

2. Методология
Одного идеального способа посчитать это нет, мы решаем посмотреть через логи - какой % времени из своих рабочих смен сборщики занимаются напрямую сборкой заказов или другими словами метрику утилизации. Если утилизация у дарскторов окажется маленькой, то кажется, что директора излишне выводят сборщиков.

3. Сбор данных
Собираем данные из хранилища в формате:
день - название магазина - длина смен сборщиков - время затраченное на сборку заказов - утилизация %, где
утилизация = время на сборку заказов / время всей смены


4. Проверка данных на качество
Смотрим распределения метрик визуально и проверяем, нет ли у нас подозрительно низких или высоких значений. И находятся ли средние в интуитивно адекватных диапазонах

5. Анализ и подведение итогов
Получаем среднюю утилизацию в 40%, что нам кажется слишком маленьким значением. Считаем, сколько мы тратим денег на зарплаты/часов сборщиков впустую, с прикидкой что «в идеале» утилизация должна быть 50-60%.

6. Обсуждение итогов
Сходимся с продактом, что 40% правда маловато. Договариваемся отдельно обсудить итоги анализа с «бизнесом» (стейкхолдерами). Держим предварительно в приоритете задачу по тому, чтобы начать планировать смены сборщиков самим без участия директоров.

p.s. настоящие цифры, детали и нюансы были опущены по очевидным причинам
🔥17👍2🐳2🏆2
3 лучших доклада по аналитике

, которые я посмотрел за последнее время

Ранее мы уже говорили про насмотренность, в этот раз хочу посоветовать несколько интересных на мой взгляд докладов:

1. Ценообразование в Яндекс.Еде, Роман Халкечев
Эволюция аналитики в сервисе яндекс еды за последние несколько лет и ключевые улучшения, которые аналитики делали каждый год

2. Динамический минимальный чек в ультра-быстрой доставке продуктов, Никита Бобух
Никита рассказывает, как они находили баланс между спросом и предложением с помощью динамического чека, а также про оценку и улучшение точности прогнозирования курьеров. Очень емкий и структурный доклад

3. «Вечная» контрольная группа, Александр Купцов и Сергей Максимов
Как в Циане выделяли постоянную контрольную группу, чтобы оценивать суммарный эффект от всех фичей и отличать рост продукта от роста рынка. Рекомендую секцию вопросов тоже не пропускать. Сам рассказ начинается примерно с 01:00:00, в видео есть и другие выступления

Напишите в комментариях, какие доклады или статьи за последнее время понравились вам
и ставьте 🐳, если хочется чаще видеть подобные подборки в канале!
👍9🐳9🔥2🌭1
Как статистика навсегда изменила Бейсбол


Вернувшись с вьетнамской войны и подрабатывая охранником в ночные смены, Билл Джеймс начал увлеченно писать статьи и книги о своей любимой игре — бейсболе.

В отличие от многих других авторов, Билл пытался отвечать на разные практичные вопросы, используя статистику. Например, из-за каких «защитников» команда отдает больше всего очков? Какой вклад в победу команды внес каждый отдельный игрок?

Это привело к созданию целого направления — sabermetrics, в рамках которого Билл Джеймс придумал множество метрик и подходов, которые позволяли оценивать игроков и команды, основываясь на данных.

Многие эксперты и менеджеры начали положительно высказываться о работах Джеймса, но все это оставалось занимательной теорией, пока руководство клуба Окленд Атлетикс во главе с Уильямом Бином не сделали полную ставку на аналитические подходы sabermetrics.

Ключевым моментом в их стратегии стал способ находить и выкупать игроков, которые по показателям делали хорошие результаты, а рынок их при этом недооценивал.

Так клуб к началу 2000-ых стал одним из самых эффективных с точки зрения использования ограниченного бюджета на закупку игроков. Например, в сезоне 2006 года по затратам на зарплаты игроков клуб находился на 24 (из 30) месте, но при этом занимал 5-ое место в рейтинге по очкам.

Видя такие успехи у малобюджетной команды, другие клубы тоже начали активнее использовать подходы из sabermetrics, чтобы больше ориентироваться на цифры и факты при принятии решений.

А один из крупнейших клубов, Бостон Ред Сокс, в 2003 году нанял к себе в команду Билла Джеймса, которого на сегодняшний день можно назвать пионером в применении статистики и аналитических подходов в бейсболе. В 2006 журнал Time внес Билла в список топ 100 самых влиятельных людей мира.

По мотивам этой истории написана книга «Moneyball» и снят фильм «Человек, который изменил все» с участием Брэда Питта.
🔥111👍1🐳1💯1🏆1
Вся теория по А/Б-экспериментам

В мае прошлого года я проходил интенсив по теории и практике А/Б тестирования от EXPF. Недавно я решил пересмотреть все лекции и скрипты с курса и параллельно конспектировал основные моменты, чтобы потом можно было легко повторить нужную тему и не пересматривать 2-х часовые видезаписи.

Из этих конспектов я собрал один Collab-ноутбук, в котором записал выжимку из всего ~16-ти часового лекционного материала. Содержание конспекта:

1) Об экспериментах и основы статистики

2) Статистические критерии и гипотезы

3) Способы выбора объема выборки для А/Б. Мощность эксперимента

4) Бутстрап: повторные выборки и децильные оценки А/Б тестов

5) Ускорение A/B и ratio-метрики

6) Монте-Карло, направленность и поиск прокси метрик, автоматизация расчетов A/B, про ratio-метрики

7) Оффлайн эксперименты


Перед написанием поста я получил добро на выкладку этих материалов у ведущих курса. По самому интенсиву от expf могу сказать, что настоятельно его рекомендую (и это не платная интеграция, я еще не такой популярный 😂). В интенсиве разбираются все основные темы как в 7-ми пунтках выше: лекция, скрипты с кодом, домашние задания, общий чат для вопросов. Даже спустя полгода после окончания курса Искандер (сооснователь expf.ru) ответил на все мои вопросы, которые у меня возникли после пересмотра лекций!

Сcылка на конспект:
https://colab.research.google.com/drive/1_CY_8DJRLm70gl9RjTz1vmPoLMwCeT0u?usp=sharing
👍14🔥3💩1🏆1
🥸 Выводы после 50+ собесов

Любимая рубрика моих коллег из Самоката, которые подписаны на этот канал 😁

За последний год с лишним я прошел 50+ этапов собеседований на продуктового аналитика. Под «этапом» я имею ввиду один из шагов на пути к офферу: звонок с hr, тестовое задание, техническое интервью, решение кейсов, финальное собеседование с head’ом аналитики или командой.

На скрине можете увидеть основной список компаний, с которыми я общался. Немного моей личной статистики:
⁃ 52 этапа
⁃ 21 команда
⁃ 18 компаний
⁃ 70% конверсия в оффер


Поделюсь своими размышлениями по итогу такого опыта:

— С каждым собеседованием уверенности становится все больше, а волнения за полчаса до технического собеседования все меньше (но оно до сих пор есть)

— Один и тот же опыт можно рассказать совершенно по разному. Не так сложно до собеседования вспомнить все, что вы делали за последнее время и красиво + емко это сформулировать.

— К отказам начинаешь относиться спокойно. Где-то можно затупить, где-то просто не сойтись (человеческий фактор никто не отменяет), а где-то нужно признать, что в каких-то вещах ты все еще не дотягиваешь и нужно над этим поработать

— Очень интересно общаться с разными людьми разного уровня из своей профессии, узнавать про их задачи и проблемы. Это сильно расширяет кругозор.

— Чувствуешь себя спокойнее, когда узнаешь вилку, которую тебе готовы предложить в аналогичных компаниях. Можно объективно оценить, насколько справедливая у тебя зарплата сейчас. Советую на вопрос по ожидаемой зарплате называть всегда именно диапазон, а не одно число.

Кстати, про деньги. 3 месяца назад я получил самый большой оффер в своей жизни на данный момент. Это в 2 раза больше моей текущей зарплаты (без преувеличения). Так что советую иногда играться с вилками, можно и до такого доиграться 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23💯3🤝3👍1🤬1💩1
💰Как 41 оттенок синего принес Google 200 млн $

На курсах по аналитике часто приводят популярный эксперимент, который проводили в Google в 2009 году. После запуска показа рекламы на сайте электронной почты Gmail сотрудники компании обнаружили, что цвет рекламных ссылок в Gmail отличается от цвета рекламных ссылок в поисковике Google. В почте ссылки отображались синим цветом с небольшим оттенком фиолетового, а в поисковике – тоже синим, но уже с оттенком зеленого.

Такая ситуация вызвала споры – а какой цвет лучше оставить? При каком оттенке синего пользователи больше кликают на рекламные ссылки? В итоге Мариса Майер (на тот момент топ-менеджер Google, которая стала знаменитой благодаря этому случаю) приняла решение протестировать 41 вариант синего цвета с разными оттенками.

На курсах и в статьях любят этот кейс потому, что это наглядный пример множественного тестирования и если не делать никакие поправки на ошибку 1-го рода, то:
- тестируя 2 варианта цветов мы «с вероятностью» 5% можем найти отличия там, где их на самом деле не будет
- тестируя 41 вариант эта «вероятность» возрастает уже до 88% (по формуле «1-(1-a)^m», где a – уровень значимости альфа, m – кол-во гипотез)

По словам представителей Google они смогли найти лучший вариант — синий с оттенками фиолетового. По их оценке, это увеличило выручку компании на 200 миллионов $ в год.

Как вы думаете, действительно ли такое маленькое изменение могло увеличить конверсию кликов по рекламе и принести столько денег компании?
Нажмите реакцию 👍 — если да и 👎 — если считаете, что нет.
👍20👎11🤔4🎃1
🧐 Главный вопрос маркетинговой аналитики

- какой канал привлечения приносит компании больше денег?

Мне эта тема стала особенно интересна, так как раньше я активно работал с таргетинговой рекламой в VK, Facebook и Instagram, когда запускал интернет-магазины в школьные и университетские годы.

Помню даже, как запустил свой первый А/Б - рекламу своего канала VK с двумя разными картинками. В одной было 10 переходов / 30 просмотров, в другой 8/30, и я уверенно вливал оставшиеся 100 рублей бюджета в первый вариант, считая себя хорошим аналитиком 😁 Но сейчас не об этом

По моим наблюдениям в маркетинговой аналитике есть большой и непростой блок, которому уделяют много внимания – модель атрибуции. Давайте вместе разбираться, что это такое:

Допустим, у вас есть сайт, где вы продаете цветы с доставкой на дом.
Клиент переходит на него через Google-рекламу. Через неделю он снова заходит на сайт, уже переходя по рекламе в Instagram. А через несколько часов заходит на сайт напрямую и покупает цветы.

Благодаря какому каналу мы заработали деньги? Органика (прямой заход), контекстная реклама в Google или реклама в рилсах Instagram?

На эти вопросы отвечает модель атрибуции – это логика, по которой мы определяем, благодаря какому каналу мы получили ту или иную покупку.
Вот несколько популярных моделей атрибуций:

1) Модель «Первое взаимодействие»
По этой модели фиксируется первый канал, благодаря которому пользователь впервые перешел на сайт / приложение. В примере выше мы будем считать, что клиент совершил покупку благодаря Google-рекламе.

2) Модель «Последнее взаимодействие»
Аналогично модели выше, только наоборот. В том же примере мы уже будем считать, что покупку совершили через канал «органики» - перед покупкой пользователь напрямую сам перешел на сайт.

3) «Линейная» модель
Модель, которая равномерно учитывает вклад всех каналов, через которые пользователь взаимодействовал с нашим продуктом. Есть более сложные вариации, когда учитываются только «недавние» взаимодействия перед покупкой или каждому каналу присваивается еще свой вес.

«Правильной» модели атрибуции не существует, нужно отталкиваться от каждого конкретного кейса. Во время написании статьи наткнулся на интересный файл с разборами нескольких компаний и используемых в них моделей атрибуций.

Давайте наберем 40🔥, если нравятся такие темы. Буду продолжать писать про особенности аналитики в разных областях.
🔥32👍51🤔1
☠️ Мои ошибки в работе аналитиком

Считаю важным делиться не только успехами, но и неудачным опытом, который тоже может оказаться полезным для кого-то.

Вот несколько ошибок, которые я допускал за последнее время:

Задачи в стол
Далеко не все задачи, которые просят сделать аналитика (да и наверное любого специалиста), не окажутся пустой тратой времени. За последний год у меня не всегда получалось фильтровать «ненужные» задачи по разным причинам: иногда было неудобно отказывать, а иногда задание преподносили как «срочно/важно/нужно было вчера!!» и это замыливало глаза

Перфекционизм
Попытка сделать все идеально и красиво может очень сильно замедлять работу. У меня бывало так:
⁃ упарывался в качество данных, разбираясь с каждым пропуском, выбросом, кол-вом строк и т.д. Хотя в 99% случаев этих некачественных данных было так мало, что на них можно было не обращать внимания
⁃ старался все емко и красиво описать на Confluence, в то время как в первую очередь стоило набросать цифры и графики на excel и обсудить их на звонке за 10 минут

Закапывание в исследовании
Ранее я писал про свой краткий шаблон для проведения исследований, но это не значит, что я всегда ему строго следую :) Несколько раз при выполнении большого исследования я закапывался в каких-то вопросах, а потом одергивал себя - «какая вообще цель всего этого исследования? Этой задачи?». После ответа на эти вопросы все ненужные детали отлетали и дальнейший план действий становился яснее
🔥12🤝5👍1🤯1🤡1
🤓 Соревнование по A/B тестам!

Мои кореша из Самоката подготовили крутое соревнование по аналитике — нужно задизайнить эксперимент по выявлению фродеров - недобросовестных продавцов маркетплейса.

Авторы 20 лучших решений получат бесплатные билеты на конференцию Aha’24 от матемаркетинга.

Детали турнира:
тут
Когда: 7-19 мая
Формат: online

Задание создано по мотивам актуальной проблемы, с которой ребята сейчас активно работают 🦾
8👍2🔥1🫡1
Решаем проблемы как консультанты McKinsey

Каждый аналитик хотя бы раз отвечал на вопрос:
“Мы заметили, что на дашборде упала метрика X. Почему такое могло произойти?”

Или при дизайне эксперимента спрашивал себя:
“За какими метриками следить в эксперименте Y?”

Или даже сталкивался с открытыми вопросами, на которых нет простого ответа:
“Как снизить затраты на процесс Z?”

Все эти 3 вопроса объединяет то, что нам нужно учесть много аспектов. Если отвечать них просто перечисляя все гипотезы, которые приходят в голову, можно упустить важные моменты. Вернемся к примеру:

⁃ Мы заметили, что на дашборде упала конверсия в заказ. Почему такое могло произойти?
Как я отвечал на этот вопрос полтора года назад на собеседовании во ВкусВилл:
“У нас могла произойти проблема с обновлением данных. Мог не обновиться дашборд. Еще это может быть сезонность. Мы можем посмотреть за прошедшее время в аналогичные периоды, падала ли метрика так же. Другой вариант - это какие-то проблемы с приложением …”

Ответ в целом получился неплохой и я прошел дальше и даже получил оффер, но в нем почти нет никакой СТРУКТУРЫ, из-за чего я пропустил несколько моментов. Как бы я отвечал на этот вопрос сейчас я показываю на картинке к этому посту. Идеальный ли это ответ? Учитывает ли он все варианты? Нет, но в нем есть четкая структура, по которой легко проходится и добавлять нужные ветки и углубления при необходимости.

Такие диаграммы называются “Деревом решений” (decision trees). Когда аналитики выбирают ключевые метрики для какого-то продукта / процесса, то они следуют примерно такой же структуре, называя это “деревом метрик” или “иерархией метрик”.

Как строить такие деревья и где их можно применять - очень большая тема, которую подробно разбирает в своем блоге Бруно Ногуэро, в прошлом консультант McKinsey. Подробнее вы можете ознакомиться в его блоге

Инструкция выше состоит примерно из 100+ страниц, для вас я сделал короткую выжимку из 15 страниц по ссылке
👍17🔥8🤯1🤩1🗿1
2 важных парадокса в статистике

Существует много статистических парадоксов: Монти-Холл, Берксон, “дни рождения” и так далее.

В этом посте я постарался выделить те парадоксы, которые могут оказаться полезными в работе при анализе данных:

⁃ Парадокс Симпсона
Может ли быть такое, что средний чек клиентов растет, а на самом деле он падает? Да, и дело не в особенностях среднего чека, метрика может быть любой. Парадокс происходит из-за дизбаланса между группами.

Допустим, в прошлом месяце у 10 “богатых” клиентов средний чек был 100 рублей, а у 50 клиентов “среднего класса” - 40 рублей.
Тогда средний чек прошлого месяца = (10 * 100 + 50 * 40) / (10 + 50) = 50 рублей.

В текущем месяце средний чек 30 “богатых” клиентов - 80 рублей, а 30 клиентов “среднего класса” - 30 рублей. Тогда средний чек текущего месяца = (30 * 80 + 30 * 30) / (30 + 30) = 55 рублей.

Средний чек увеличился на 5 рублей по сравнению с предыдущим месяцем, но на самом деле он уменьшился, если мы посмотрим на сегменты:
⁃ у “богатых” уменьшился на 20 рублей
⁃ у “среднего класса” уменьшился на 10 рублей.

Увеличение среднего чека объясняется изменением пропорций между группами - в прошлом месяце было 10 “богатых” и 50 “средних”, в этом 30 “богатых” и 30 “средних” клиентов.


- «Из корреляции не следует каузация»
Формально это нельзя назвать парадоксом, но если посмотреть на картинку к посту, то мы увидим странную взаимосвязь: чем больше фильмов выпускает Disney, тем больше разводов в Великобритании!

Очевидно, фильмы Disney тут ни при чем. Перебирая много показателей есть шанс найти коррелируемую пару как на картинке ниже, но чтобы утверждать их взаимосвязь нужно глубоко разбираться в предметной области, а еще лучше провести эксперимент, где одну метрику мы изменяем и следим, изменится ли пропорционально ее пара.
🔥134👍4🤝4🤔2💩1
Через 2,5 часа буду выступать на конфе

У конференции Aha сегодня бесплатный день - спикеры будут выступать онлайн на платформе от матемаркетинга.

Тема моего доклада —
«Алгоритм вывода курьеров-партнеров и поиск баланса в сервисе доставки «Самокат» в условиях undersupply»

Если переводить на человеческий язык, то в докладе я пытаюсь ответить на вопрос - сколько курьеров нам нужно?

Это не простая аналитическая задача. Для ее решения я использовал разные подходы, которые могут оказаться полезными и в вашей работе, даже если она не связана с курьерами и фудтехом.

Для затравки прикладываю несколько слайдов с презентации 🙂

Вместе со мной будет много других крутых докладов, ознакомится с программой можно здесь.

Сама трансляция онлайн-докладов сегодня будет тут по ссылке.
👍145🔥2🌚1