Отзыв о книге “Доверительное A/B тестирование” и фейлы перевода
Недавно дочитала эту книгу (в основном в переводе, но сверяясь с оригиналом). Книга очень крутая, настоящий must have для продуктовых аналитиков и продакт-менеджеров. Авторы буквально основатели A/B-тестирования в том виде, в каком мы его знаем.
Самые интересные и полезные темы для меня:
1. Введение, актуально не только для аналитиков, так как позволяет больше понять, почему не у всех бывает одинаковым интерфейс сайтов 😏
2. Этика A/B экспериментов, важная тема, которую мало обсуждают на курсах и в телеграм-каналах. Возможно, распишу про это подробнее в отдельном посте.
3. Про t-test и необходимо ли для него нормальное распределение выборки разобрано корректно, лучше чем в некоторых статистических пособиях. Более подробно про это была лекция от Института Биоинформатики.
4. Подводные камни A/B тестирования и способы их избежать: Sample Ratio Mismatch, сетевой эффект, парадокс Симпсона, необходимость A/A тестов и не только. Эти темы сейчас кажутся базовыми, так как много внимания уделяется на курсах, но во многом курсы и вдохновлены этой книгой.
5. Другие варианты экспериментов, когда A/B невозможен: Diff-in-Diff, interrupted time series и тд, неплохой обзор методов, но для глубокого изучения нужны дополнительные источники.
Еще мне было интересно почитать про историческое развитие метода, я даже вдохновилась написать про историю A/B задолго до появления интернета и бигтехов и первые A/B тесты в индустрии.
Но к сожалению перевод на русский от издательства ДМК Пресс оставляет желать лучшего.
Примеры ошибок в переводе:
– логи данных → данные журналов
– логарифмическое преобразование → преобразование журнала
– нулевая гипотеза → гипотеза нулевого значения или гипотеза о нуле
– статистически значимая разница → значительная разница (вот это по-моему одна из самых критичных ошибок)
– и множество мелких неточностей
В принципе в большинстве случаев понятно, о чем идет речь, плюс всегда можно посмотреть оригинал, тем не менее, такие ляпы затрудняют восприятие текста и вызывают недоверие к переводу.
Я бы рекомендовала читать книгу тем, кто хочет подтянуть именно продуктовую и методологическую часть A/B тестирования и повысить насмотренность. Но лучше иметь хороший бэкграунд в статистике и теории вероятностей, все-таки это не статистика и котики)
Пишите в комментариях, какие из вышеперечисленых тем хотелось бы разобрать подробнее!
#analytics #AB_tests
Недавно дочитала эту книгу (в основном в переводе, но сверяясь с оригиналом). Книга очень крутая, настоящий must have для продуктовых аналитиков и продакт-менеджеров. Авторы буквально основатели A/B-тестирования в том виде, в каком мы его знаем.
Самые интересные и полезные темы для меня:
1. Введение, актуально не только для аналитиков, так как позволяет больше понять, почему не у всех бывает одинаковым интерфейс сайтов 😏
2. Этика A/B экспериментов, важная тема, которую мало обсуждают на курсах и в телеграм-каналах. Возможно, распишу про это подробнее в отдельном посте.
3. Про t-test и необходимо ли для него нормальное распределение выборки разобрано корректно, лучше чем в некоторых статистических пособиях. Более подробно про это была лекция от Института Биоинформатики.
4. Подводные камни A/B тестирования и способы их избежать: Sample Ratio Mismatch, сетевой эффект, парадокс Симпсона, необходимость A/A тестов и не только. Эти темы сейчас кажутся базовыми, так как много внимания уделяется на курсах, но во многом курсы и вдохновлены этой книгой.
5. Другие варианты экспериментов, когда A/B невозможен: Diff-in-Diff, interrupted time series и тд, неплохой обзор методов, но для глубокого изучения нужны дополнительные источники.
Еще мне было интересно почитать про историческое развитие метода, я даже вдохновилась написать про историю A/B задолго до появления интернета и бигтехов и первые A/B тесты в индустрии.
Но к сожалению перевод на русский от издательства ДМК Пресс оставляет желать лучшего.
Примеры ошибок в переводе:
– логи данных → данные журналов
– логарифмическое преобразование → преобразование журнала
– нулевая гипотеза → гипотеза нулевого значения или гипотеза о нуле
– статистически значимая разница → значительная разница (вот это по-моему одна из самых критичных ошибок)
– и множество мелких неточностей
В принципе в большинстве случаев понятно, о чем идет речь, плюс всегда можно посмотреть оригинал, тем не менее, такие ляпы затрудняют восприятие текста и вызывают недоверие к переводу.
Я бы рекомендовала читать книгу тем, кто хочет подтянуть именно продуктовую и методологическую часть A/B тестирования и повысить насмотренность. Но лучше иметь хороший бэкграунд в статистике и теории вероятностей, все-таки это не статистика и котики)
Пишите в комментариях, какие из вышеперечисленых тем хотелось бы разобрать подробнее!
#analytics #AB_tests
5❤36👍17😁1
Загадка (все события вымышленны, любое совпадение случайно 😏):
Студент устроился джуном администратором баз данных в один известный бигтех
Проходит месяц. Наступил день зарплаты — а новичок за деньгами не приходит. Прошёл второй месяц, третий, четвёртый, а за зарплатой он так и не пришёл.
Стало его коллеге синьору интересно, что происходит. Он вызывает к себе этого студента и спрашивает:
— Ты что это за зарплатой не приходишь? Не нужна что ли?
— Зарплата?! Ой… А я-то думал, дали данные пользователей — и крутись как хочешь…
#stat_fun
Студент устроился джуном администратором баз данных в один известный бигтех
Проходит месяц. Наступил день зарплаты — а новичок за деньгами не приходит. Прошёл второй месяц, третий, четвёртый, а за зарплатой он так и не пришёл.
Стало его коллеге синьору интересно, что происходит. Он вызывает к себе этого студента и спрашивает:
— Ты что это за зарплатой не приходишь? Не нужна что ли?
#stat_fun
😁106💯6👀5🤔2❤1👎1
Сходила в гости к дружественному каналу "N айтишниц заходят в бар"
https://t.me/n_it_girls/442
Немного рассказала про то, как попасть в аналитику данных, чуть подробнее про конкретные курсы и инструменты написала здесь https://t.me/stats_for_science/105, а здесь больше про бэкграунд
#analytics
https://t.me/n_it_girls/442
Немного рассказала про то, как попасть в аналитику данных, чуть подробнее про конкретные курсы и инструменты написала здесь https://t.me/stats_for_science/105, а здесь больше про бэкграунд
#analytics
Telegram
N айтишниц заходят в бар
Наш рецепт: мемы, карьера, расчёты. Смешать, но не взбалтывать. 🥂
По вопросам сотрудничества @positivedespair
По другим вопросам ☎️
https://forms.gle/6Wqszp7QqY2kyYm28
По вопросам сотрудничества @positivedespair
По другим вопросам ☎️
https://forms.gle/6Wqszp7QqY2kyYm28
🔥22❤10👍2
Небольшой интерактив: напишите самые раздражающие фразы, связанные со статистикой
Например:
1) p-value это вероятность того, что нулевая гипотеза верна
2) давайте проведем больше тестов и выберем тот, который покажет значимый результат
3) данные распределены ненормально, нужно делать непараметрический тест
4) достоверность различий
Продолжайте в комментариях!
Из предложенного выберу несколько фраз, и подробно разберу, в чем их ошибочность. Пока что в планах написать про "достоверность различий"
#stats
Например:
1) p-value это вероятность того, что нулевая гипотеза верна
2) давайте проведем больше тестов и выберем тот, который покажет значимый результат
3) данные распределены ненормально, нужно делать непараметрический тест
4) достоверность различий
Продолжайте в комментариях!
Из предложенного выберу несколько фраз, и подробно разберу, в чем их ошибочность. Пока что в планах написать про "достоверность различий"
#stats
❤32👍14❤🔥4😁4
В предыдущем посте я попросила написать самые раздражающие вещи, связанные со статистикой, набралось очень много ответов, спасибо, было интересно почитать.
В комментариях Дамир Марапов отметил важную мысль, которую я считаю нужным вынести отдельно.
Примеры в комментариях можно условно разделить на:
- Явные ошибки, например в определениях: p-value это вероятность того, что нулевая гипотеза верна, достоверность различий и тому подобное.
- Неточности и ошибки в методологии: например, для t-теста нужно нормальное распределение исходных данных. Тут сложнее, так как конечно нужно нормальное распределение выборочных средних, но в случае нормального распределения данных, это выполняется автоматически. Отсюда и берется этот алгоритм проверки на нормальность тестами Шапиро-Уилка и прочее. Но мы не можем сказать, что всегда можно использовать t-тест не глядя, по ЦПТ, равно как и использовать всегда непараметрические критерии.
И вот про методологию хотелось бы поговорить отдельно.
При обучении статистике сталкиваешься с алгоритмами и догмами (делайте так, а вот так неправильно), это касается всего, в том числе выбора статистического теста (немного писала, почему это плохо в материале про тест Велча). Но алгоритмы хороши только на этапе обучения, а дальше уже выясняется, что “есть нюанс”.
Простой пример из комментариев — корреляция бинарных переменных. Если честно, я тоже думала, что корреляции и ковариации бинарных величин не бывает (ну как вы собрались коррелировать 0 и 1?), но оказывается это имеет смысл, вот здесь можно почитать подробнее.
Даже такой карикатурный пример про продакта, который просит подсчитать результаты АБ теста в разных сегментах, чтобы найти хоть где-то значимые различия не всегда однозначно абсурден. Например, если мы обнаружили, что на какой-то платформе и в каком-то гео есть значимые различия, то можно провести дополнительное исследование конкретно в этом сегменте, чтобы подтвердить различия (особенно если у этого есть продуктовое обоснование). Но конечно в формулировке:
— это хрестоматийный пример как делать не надо.
Тест Манна-Уитни сравнивает медианы — это статистический миф, но при выполнении определенных условий (если совпадают формы распределений) тест Манна-Уитни действительно сравнивает медианы.
Подглядывание в A/B тесты - запрещено, но если делать sequential testing, то можно.
В общем, я хочу подчеркнуть, что многие статистические правила и рекомендации являются действительно рекомендациями, а не догмами, и что-то, что в учебнике было описано как неверное, может на самом деле быть применимым в определенных условиях.
Потому статистику невозможно освоить на хорошем уровне за один семестровый или годовой курс, хотя они дают хорошую базу для дальнейшего изучения. То же самое можно сказать про курсы повышения квалификации — это отличный задел на будущее, но не стоит думать, что после освоения такого курса вы сразу станете гуру статистики и никогда не будете ошибаться, просто перестанете делать очевидные ошибки.
Ну ладно, так у меня не купят рекламу)
Но если серьезно, то после любого курса нужно продолжать обучение, погружаться в детали, так как четкие алгоритмы и рекомендации хороши только для старта.
#stats
В комментариях Дамир Марапов отметил важную мысль, которую я считаю нужным вынести отдельно.
Примеры в комментариях можно условно разделить на:
- Явные ошибки, например в определениях: p-value это вероятность того, что нулевая гипотеза верна, достоверность различий и тому подобное.
- Неточности и ошибки в методологии: например, для t-теста нужно нормальное распределение исходных данных. Тут сложнее, так как конечно нужно нормальное распределение выборочных средних, но в случае нормального распределения данных, это выполняется автоматически. Отсюда и берется этот алгоритм проверки на нормальность тестами Шапиро-Уилка и прочее. Но мы не можем сказать, что всегда можно использовать t-тест не глядя, по ЦПТ, равно как и использовать всегда непараметрические критерии.
И вот про методологию хотелось бы поговорить отдельно.
При обучении статистике сталкиваешься с алгоритмами и догмами (делайте так, а вот так неправильно), это касается всего, в том числе выбора статистического теста (немного писала, почему это плохо в материале про тест Велча). Но алгоритмы хороши только на этапе обучения, а дальше уже выясняется, что “есть нюанс”.
Простой пример из комментариев — корреляция бинарных переменных. Если честно, я тоже думала, что корреляции и ковариации бинарных величин не бывает (ну как вы собрались коррелировать 0 и 1?), но оказывается это имеет смысл, вот здесь можно почитать подробнее.
Даже такой карикатурный пример про продакта, который просит подсчитать результаты АБ теста в разных сегментах, чтобы найти хоть где-то значимые различия не всегда однозначно абсурден. Например, если мы обнаружили, что на какой-то платформе и в каком-то гео есть значимые различия, то можно провести дополнительное исследование конкретно в этом сегменте, чтобы подтвердить различия (особенно если у этого есть продуктовое обоснование). Но конечно в формулировке:
найди мне хоть где-то в этом АБ значимые различия, поправку на множественное сравнение не делай, а то вся значимость уйдет
— это хрестоматийный пример как делать не надо.
Тест Манна-Уитни сравнивает медианы — это статистический миф, но при выполнении определенных условий (если совпадают формы распределений) тест Манна-Уитни действительно сравнивает медианы.
Подглядывание в A/B тесты - запрещено, но если делать sequential testing, то можно.
В общем, я хочу подчеркнуть, что многие статистические правила и рекомендации являются действительно рекомендациями, а не догмами, и что-то, что в учебнике было описано как неверное, может на самом деле быть применимым в определенных условиях.
Потому статистику невозможно освоить на хорошем уровне за один семестровый или годовой курс, хотя они дают хорошую базу для дальнейшего изучения. То же самое можно сказать про курсы повышения квалификации — это отличный задел на будущее, но не стоит думать, что после освоения такого курса вы сразу станете гуру статистики и никогда не будете ошибаться, просто перестанете делать очевидные ошибки.
Ну ладно, так у меня не купят рекламу)
Но если серьезно, то после любого курса нужно продолжать обучение, погружаться в детали, так как четкие алгоритмы и рекомендации хороши только для старта.
#stats
Telegram
Damir Marapov in Чат канала "Статистика и R"
Есть, конечно, абсолютные ошибки, когда люди называют белое черным. Но вот когда речь заходит о каких-либо алгоритмах - я уже остерегаюсь судить, что они совершенно неверные. Стараюсь уже сразу ничего не отрицать, а наоборот, поискать варианты, когда это…
11🔥35❤13👍10
Вечер лайвкодинга!
В ближайшую пятницу, 5 сентября в 19.00 МСК планируем провести аналитический антисобес.
Формат похож на мок-собеседование, но в отличие от него задачки планируем сделать наиболее близкими к реальным рабочим, поэтому назвали это антисобес.
Один аналитик придумает задачу, другой её решит, в удобном IDE, с гуглом, LLMками, байками и шутейками.
Никаких задачек на алгоритмы и бросание кубиков 😏
Зрители увидят:
- максимально приближенные к реальности задачи, рабочую среду и атмосферу
- сколько опечаток можно сделать на ровном месте
- типичное поведение продуктового аналитика: сидит на созвоне, да ещё и код пишет
- кот-ревью
В качестве подопытных выбраны:
- Елена, Статистика и R в науке и аналитике, аналитик Литрес
- Роман, Kotelok, аналитик Литрес
- Василий, независимый кот
Стримить будем на youtube, ссылку пришлю незадолго до начала сюда.
Вопросы можно будет задавать в комментариях к этому посту
Присоединяйтесь, будет интересно!
#analytics
В ближайшую пятницу, 5 сентября в 19.00 МСК планируем провести аналитический антисобес.
Формат похож на мок-собеседование, но в отличие от него задачки планируем сделать наиболее близкими к реальным рабочим, поэтому назвали это антисобес.
Один аналитик придумает задачу, другой её решит, в удобном IDE, с гуглом, LLMками, байками и шутейками.
Никаких задачек на алгоритмы и бросание кубиков 😏
Зрители увидят:
- максимально приближенные к реальности задачи, рабочую среду и атмосферу
- сколько опечаток можно сделать на ровном месте
- типичное поведение продуктового аналитика: сидит на созвоне, да ещё и код пишет
- кот-ревью
В качестве подопытных выбраны:
- Елена, Статистика и R в науке и аналитике, аналитик Литрес
- Роман, Kotelok, аналитик Литрес
- Василий, независимый кот
Стримить будем на youtube, ссылку пришлю незадолго до начала сюда.
Вопросы можно будет задавать в комментариях к этому посту
Присоединяйтесь, будет интересно!
#analytics
❤60🔥18👍7
Всем привет! У нас небольшие неполадки с запуском стрима, но вроде разобрались, заходите сюда https://youtube.com/live/Mw7vrpdtBRU
Обновляю пост, вот ссылки на запись:
Часть 1
Часть 2
В начале второй части были проблемы со звуком, минуты 3-4, но я пересказала кратко все пропущенное.
В общем было непросто, но первый запуск подобного формата получился, я считаю
Обновляю пост, вот ссылки на запись:
Часть 1
Часть 2
В начале второй части были проблемы со звуком, минуты 3-4, но я пересказала кратко все пропущенное.
В общем было непросто, но первый запуск подобного формата получился, я считаю
🔥15❤4👍3👎1
Поговорим про статистические ошибки?
В пятницу 12 сентября в 18.30 МСК поговорим про самые распространенные ошибки и заблуждения в статистике и про то, как их избежать. Частично разберем, что обсуждали в этом посте, а также, что делать с проверкой на нормальность, выбросами и множественным тестированием.
Регистрация на вебинар здесь через бота, ссылка будет там же.
Сразу скажу, что это будет не лекция, а скорее дискуссия, приходите возражать)
Надеюсь, что в этот раз звук будет получше чем в прошлый))
Увидимся в пятницу в 18.30!
UPD: думаю теперь уже можно выложить непосредственно ссылку на запись
#stats
В пятницу 12 сентября в 18.30 МСК поговорим про самые распространенные ошибки и заблуждения в статистике и про то, как их избежать. Частично разберем, что обсуждали в этом посте, а также, что делать с проверкой на нормальность, выбросами и множественным тестированием.
Регистрация на вебинар здесь через бота, ссылка будет там же.
Сразу скажу, что это будет не лекция, а скорее дискуссия, приходите возражать)
Надеюсь, что в этот раз звук будет получше чем в прошлый))
Увидимся в пятницу в 18.30!
UPD: думаю теперь уже можно выложить непосредственно ссылку на запись
#stats
1🔥43❤9❤🔥7💯3😱1
Что самое сложное в работе продуктовым аналитиком?
Для меня это не статистика и A/B-тесты, а метрики и всё, что с ними связано.
Имея опыт работы в науке, где статистика обычно сложнее, чем простые z-тесты или t-тесты, для меня не было проблемой освоить теорию A/B тестирования. Плюс как нам известно, A/B тесты исторически происходят из медицины, хотя имеют свою специфику тоже.
Кроме этого, хороших материалов по статистике немало, и освоить ее вполне реально (тут конечно тоже есть нюансы, easy to learn, hard to master, но все же). SQL, Python, дашборды и другие инструменты тоже относительно легко изучить, по крайней мере на уровне, достаточном для выполнения задач.
Но вот все, что касается метрик, выучить заранее по учебникам и курсам гораздо сложнее, во многом приходится разбираться уже в процессе работы. Да, есть стандартные метрики (DAU, ARPPU, Retention), которые проходят на курсах продуктовых аналитиков, но даже здесь можно перепутать средние чеки и ARPPU 😅
Настоящая сложность начинается, когда нужно разработать кастомную метрику. Она должна быть понятной, устойчивой к манипуляциям, отражать суть продукта и иметь возможность вырасти. В теории звучит разумно, но на практике подобрать подобную метрику совсем непросто, все время будет несоответствие хотя бы одному критерию. Нужно быть очень хорошо погруженным в свой домен и продукт (то самое "продуктовое мышление"), чтобы предложить действительно полезную и соответствующую всем критериям метрику. А это уже не изучить ни на каких курсах, набирается только с опытом работы.
Сюда же относятся прокси-метрики, они полезны, например, когда целевую метрику сложно прокрасить в A/B тесте. К хорошей прокси есть похожий набор критериев: должна быть скоррелирована с целевой, но отражать изменения раньше, с достаточной точностью. Умение подобрать хорошую прокси это тоже навык, который нарабатывается с профессиональным опытом и развитием продуктового мышления.
В общем за чуть меньше года работы продуктовым аналитиком могу с уверенностью сказать, что метрики - это самое интересное и сложное. АБ тестирование с какого-то момента становится рутиной, и тоже самое можно сказать про остальные инструменты, описанные выше.
Пока перечитывала текст, поняла, что некоторые вопросы остались нераскрытыми, например больше про прокси-метрики расскажу в отдельном посте, или почему в аналитике статистика в среднем проще относительно науки.
Ребята продуктовые аналитики, расскажите, а что для вас было самым сложным?
#analytics
Для меня это не статистика и A/B-тесты, а метрики и всё, что с ними связано.
Имея опыт работы в науке, где статистика обычно сложнее, чем простые z-тесты или t-тесты, для меня не было проблемой освоить теорию A/B тестирования. Плюс как нам известно, A/B тесты исторически происходят из медицины, хотя имеют свою специфику тоже.
Кроме этого, хороших материалов по статистике немало, и освоить ее вполне реально (тут конечно тоже есть нюансы, easy to learn, hard to master, но все же). SQL, Python, дашборды и другие инструменты тоже относительно легко изучить, по крайней мере на уровне, достаточном для выполнения задач.
Но вот все, что касается метрик, выучить заранее по учебникам и курсам гораздо сложнее, во многом приходится разбираться уже в процессе работы. Да, есть стандартные метрики (DAU, ARPPU, Retention), которые проходят на курсах продуктовых аналитиков, но даже здесь можно перепутать средние чеки и ARPPU 😅
Настоящая сложность начинается, когда нужно разработать кастомную метрику. Она должна быть понятной, устойчивой к манипуляциям, отражать суть продукта и иметь возможность вырасти. В теории звучит разумно, но на практике подобрать подобную метрику совсем непросто, все время будет несоответствие хотя бы одному критерию. Нужно быть очень хорошо погруженным в свой домен и продукт (то самое "продуктовое мышление"), чтобы предложить действительно полезную и соответствующую всем критериям метрику. А это уже не изучить ни на каких курсах, набирается только с опытом работы.
Сюда же относятся прокси-метрики, они полезны, например, когда целевую метрику сложно прокрасить в A/B тесте. К хорошей прокси есть похожий набор критериев: должна быть скоррелирована с целевой, но отражать изменения раньше, с достаточной точностью. Умение подобрать хорошую прокси это тоже навык, который нарабатывается с профессиональным опытом и развитием продуктового мышления.
В общем за чуть меньше года работы продуктовым аналитиком могу с уверенностью сказать, что метрики - это самое интересное и сложное. АБ тестирование с какого-то момента становится рутиной, и тоже самое можно сказать про остальные инструменты, описанные выше.
Пока перечитывала текст, поняла, что некоторые вопросы остались нераскрытыми, например больше про прокси-метрики расскажу в отдельном посте, или почему в аналитике статистика в среднем проще относительно науки.
Ребята продуктовые аналитики, расскажите, а что для вас было самым сложным?
#analytics
Telegram
Статистика и R в науке и аналитике
История A/B тестирования: от лечения цинги до цвета ссылок Google
Сегодня разберем историю A/B тестов — от первых экспериментов в медицине до современных бизнес-кейсов. Материал получился объемнее, чем изначально планировался, поэтому вынесла отдельно:
…
Сегодня разберем историю A/B тестов — от первых экспериментов в медицине до современных бизнес-кейсов. Материал получился объемнее, чем изначально планировался, поэтому вынесла отдельно:
…
2❤36🔥14👍6🙏2
Почему статистика в науке в среднем сложнее
В прошлом посте я писала, что в индустрии A/B тестеров в основном используются t-тесты и z-тесты конверсий. Понятно, что и здесь хватает нюансов: проблема SRM, ratio-метрик, снижение дисперсии через CUPED, а еще можно пойти в сторону causal inference, но это совсем отдельная история. В целом методология сравнительно проста, как правило, дизайн ограничен одним фактором и двумя группами.
При этом данных много (иногда очень много), эксперименты идут на десятках тысяч пользователей, и ЦПТ работает. Поэтому применяются относительно простые статистические методы: t-тесты, z-тесты (при необходимости с поправками на множественное тестирование, чаще всего используется Бонферрони), продвинутым разделом считается CUPED (вариация на тему ANCOVA). Этот набор уже закрывает ~90% стандартных A/B тестов. Основная сложность здесь не в математике, а в понимании метрик и продукта, работе с некачественными данными и в согласовании процессов с разработкой.
В академических исследованиях все иначе. Дизайн эксперимента часто многомерный: исследуется влияние сразу нескольких факторов и их взаимодействий. При этом выборки нередко маленькие, и центральная предельная теорема может не работать. Поэтому простого t-теста обычно недостаточно (а даже в простых дизайнах ученые часто применяют тест Манна–Уитни).
Кроме того, отдельная большая тема — работа с пропущенными значениями. В академической статистике это целый раздел, про это читают отдельные курсы. Но при работе с A/B тестами обычно природа пропущенных значений более прозаичная: например сломалось логгирование событий или пользователь не попал в нужную группу и просто приходится перезапускать тест.
Что касается поправок на множественное тестирование, в науке применяются разные подходы, от пост хок тестов в сложных дизайнах до расчета FDR при работе с транскриптомными данными. В аналитике же обычно ничего сложнее Бонферрони и не требуется, иногда применяют поправку Холма, а FDR вообще противопоказан, на мой взгляд, так как решает другую задачу (почему так, можно почитать в разборе поправок).
Поэтому ученому, который привык к более сложной статистике, сравнительно легко перейти в продуктовую аналитику: статистический бэкграунд обычно выше того, что требуется в индустрии, а многие модные аналитические термины на деле оказываются лишь переименованными или упрощёнными версиями давно известных методов 😏
#stats #analytics
В прошлом посте я писала, что в индустрии A/B тестеров в основном используются t-тесты и z-тесты конверсий. Понятно, что и здесь хватает нюансов: проблема SRM, ratio-метрик, снижение дисперсии через CUPED, а еще можно пойти в сторону causal inference, но это совсем отдельная история. В целом методология сравнительно проста, как правило, дизайн ограничен одним фактором и двумя группами.
При этом данных много (иногда очень много), эксперименты идут на десятках тысяч пользователей, и ЦПТ работает. Поэтому применяются относительно простые статистические методы: t-тесты, z-тесты (при необходимости с поправками на множественное тестирование, чаще всего используется Бонферрони), продвинутым разделом считается CUPED (вариация на тему ANCOVA). Этот набор уже закрывает ~90% стандартных A/B тестов. Основная сложность здесь не в математике, а в понимании метрик и продукта, работе с некачественными данными и в согласовании процессов с разработкой.
В академических исследованиях все иначе. Дизайн эксперимента часто многомерный: исследуется влияние сразу нескольких факторов и их взаимодействий. При этом выборки нередко маленькие, и центральная предельная теорема может не работать. Поэтому простого t-теста обычно недостаточно (а даже в простых дизайнах ученые часто применяют тест Манна–Уитни).
Кроме того, отдельная большая тема — работа с пропущенными значениями. В академической статистике это целый раздел, про это читают отдельные курсы. Но при работе с A/B тестами обычно природа пропущенных значений более прозаичная: например сломалось логгирование событий или пользователь не попал в нужную группу и просто приходится перезапускать тест.
Что касается поправок на множественное тестирование, в науке применяются разные подходы, от пост хок тестов в сложных дизайнах до расчета FDR при работе с транскриптомными данными. В аналитике же обычно ничего сложнее Бонферрони и не требуется, иногда применяют поправку Холма, а FDR вообще противопоказан, на мой взгляд, так как решает другую задачу (почему так, можно почитать в разборе поправок).
Поэтому ученому, который привык к более сложной статистике, сравнительно легко перейти в продуктовую аналитику: статистический бэкграунд обычно выше того, что требуется в индустрии, а многие модные аналитические термины на деле оказываются лишь переименованными или упрощёнными версиями давно известных методов 😏
#stats #analytics
1❤55👍21🔥18👎2
Надо ли проверять данные на нормальность для теста Стьюдента?
По мотивам недавнего вебинара в соавторстве с Леной Рыбиной написала небольшую статью на нашу любимую тему - проверки распределения на нормальность для t-теста.
Ключевые моменты:
— Поговорили про историю проблемы и разобрали, почему сложившаяся блок-схема выбора статистического теста не совсем оптимальна (но вслепую действовать как на приложенной картинке тоже не стоит, лучше читайте статью🤓 );
— Обсудили, почему тест Манна-Уитни не является непараметрической заменой теста Стьюдента;
— Поговорили про преобразования (Бокс-Кокс) и их применимость и ограничения.
Спасибо всем, кто помогал в редактировании и вычитывании, без этого статья не была бы написана!
Пишите в комментариях, а проверяют ли у вас выборки на нормальность (или еще не начали или уже перестали)?
#полезное #stats #stats_fun
По мотивам недавнего вебинара в соавторстве с Леной Рыбиной написала небольшую статью на нашу любимую тему - проверки распределения на нормальность для t-теста.
Ключевые моменты:
— Поговорили про историю проблемы и разобрали, почему сложившаяся блок-схема выбора статистического теста не совсем оптимальна (но вслепую действовать как на приложенной картинке тоже не стоит, лучше читайте статью
— Обсудили, почему тест Манна-Уитни не является непараметрической заменой теста Стьюдента;
— Поговорили про преобразования (Бокс-Кокс) и их применимость и ограничения.
Спасибо всем, кто помогал в редактировании и вычитывании, без этого статья не была бы написана!
Пишите в комментариях, а проверяют ли у вас выборки на нормальность (или еще не начали или уже перестали)?
#полезное #stats #stats_fun
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥37👍18❤14
🚀 Новое исследование рынка аналитиков от NEWHR
Каждый год NEWHR проводят исследование рынка аналитиков, в прошлый раз тоже делала репост анонса и результатов.
Приглашаю всех аналитиков: дата-, продуктовых, BI- и остальных пройти опрос (и укажите еще меня в читаемых каналах плиз 😏).
https://survey.alchemer.com/s3/8488868/analytics-NEWHR-2025
Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой.
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
Результаты за прошлый год можно посмотреть здесь.
Исследование планируется довольно объемное, поэтому результаты обещают выложить в начале следующего года, но с участниками поделятся промежуточными результатами раньше.
Не поленитесь потратить немного своего времени, это повысит репрезентативность выборки и качество данных!
#analytics
Каждый год NEWHR проводят исследование рынка аналитиков, в прошлый раз тоже делала репост анонса и результатов.
Приглашаю всех аналитиков: дата-, продуктовых, BI- и остальных пройти опрос (и укажите еще меня в читаемых каналах плиз 😏).
https://survey.alchemer.com/s3/8488868/analytics-NEWHR-2025
Что исследуют?
👉 Зарплаты и их динамика.
👉 Рейтинг работодателей для аналитиков, с нормальной аналитической культурой.
👉 Где работают аналитики, как работают (удалёнка/офис), какие планы на трудоустройтво.
👉 Как меняется зона ответственности аналитиков и чем хотят заниматься аналитики.
👉 Как аналитики ищут работу и выбирают работодателя.
Результаты за прошлый год можно посмотреть здесь.
Исследование планируется довольно объемное, поэтому результаты обещают выложить в начале следующего года, но с участниками поделятся промежуточными результатами раньше.
Не поленитесь потратить немного своего времени, это повысит репрезентативность выборки и качество данных!
#analytics
Alchemer
Исследование рынка аналитиков (NEWHR, 2025)
Исследование рынка аналитиков (NEWHR, 2025).
1👍13❤8🎉3🤔1👌1
Про преобразования данных
В прошлый раз коротко затронула вопрос преобразований, которые делают, чтобы «привести данные к нормальности». Давайте разберём это чуть подробнее.
Дисклеймер: сама идея «приводить выборку к нормальному распределению» не всегда обоснованна. Нас обычно интересует не распределение самих наблюдений, а распределение выборочных средних, которое при достаточно больших выборках гарантируется центральной предельной теоремой (тут тоже есть нюансы, более подробно в статье).
Основная проблема любых преобразований - потеря интерпретируемости преобразуемой величины.
Тем не менее бывают ситуации, где преобразования действительно уместны. Один из распространенных примеров — логарифмирование (частный случай Бокс–Кокс-преобразования).
Стоит отметить, что логарифмирование применимо только к положительным значениям, при нулях или отрицательных значениях обычно делают сдвиг на константу, про это нужно не забывать при интерпретации преобразованных данных.
🌱В биологических данных логарифмирование применяется регулярно к определенным типам данных. Например, в количественной ПЦР (qPCR) измеряют, сколько раз ДНК удваивается на каждом цикле амплификации. Получается экспоненциальный рост: с каждой итерацией количество продукта увеличивается в 2 раза. Чтобы было удобнее работать с такими данными, их переводят в логарифмическую шкалу, тогда экспоненциальный рост превращается в линейный. Это упрощает интерпретацию и уменьшает дисперсию. Кроме того, логарифмирование переводит отношения в разности, что облегчает сравнение образцов и расчёт изменений экспрессии.
🧬 В bulk RNA-seq логарифмирование тоже используется, но обычно для логарифма fold change — чтобы сделать данные более удобными для интерпретации и визуализации: например, если экспрессия гена в тестовой группе снизилась в два раза, log₂-fold-change будет равен -1 (а не 0.5). Такой формат проще интерпретировать и визуализировать, особенно при работе с тысячами генов. Что касается исходных данных (каунтов), для них характерно увеличение дисперсии вместе с увеличением средних значений (overdispersion), поэтому вместо логарифмирования обычно применяют модели на основе отрицательного биномиального распределения, которые это учитывают.
То есть в науке часто используют более сложные преобразования, чем логарифмирование.
📊В продуктовой аналитике такие приёмы встречаются реже, но не исключены. Во-первых, логарифм среднего чека сам по себе интерпретируется иначе: он отражает относительные изменения, а не абсолютные рубли — это удобно для анализа эластичностей. Во-вторых, в A/B-тестах обычно большие выборки и нормальность распределения выборочных средних обеспечивает ЦПТ, поэтому ключевыми становятся дизайн эксперимента, корректное логгирование событие, проверка на SRM и тп, а не нормализация данных.
Однако иногда логарифмирование в аналитике оправдано — например, если метрика имеет сильно вытянутый правый хвост (ARPU, время сессии). Логарифм сжимает экстремальные значения и уменьшает влияние редких больших наблюдений на среднее и дисперсию; после лог-преобразования оценки и остатки модели нередко становятся более устойчивыми.
Но лично мне не доводилось применять такое на практике, расскажите, кто использовал, есть ли в этом смысл вообще?
#analytics
В прошлый раз коротко затронула вопрос преобразований, которые делают, чтобы «привести данные к нормальности». Давайте разберём это чуть подробнее.
Дисклеймер: сама идея «приводить выборку к нормальному распределению» не всегда обоснованна. Нас обычно интересует не распределение самих наблюдений, а распределение выборочных средних, которое при достаточно больших выборках гарантируется центральной предельной теоремой (тут тоже есть нюансы, более подробно в статье).
Основная проблема любых преобразований - потеря интерпретируемости преобразуемой величины.
Тем не менее бывают ситуации, где преобразования действительно уместны. Один из распространенных примеров — логарифмирование (частный случай Бокс–Кокс-преобразования).
Стоит отметить, что логарифмирование применимо только к положительным значениям, при нулях или отрицательных значениях обычно делают сдвиг на константу, про это нужно не забывать при интерпретации преобразованных данных.
🌱В биологических данных логарифмирование применяется регулярно к определенным типам данных. Например, в количественной ПЦР (qPCR) измеряют, сколько раз ДНК удваивается на каждом цикле амплификации. Получается экспоненциальный рост: с каждой итерацией количество продукта увеличивается в 2 раза. Чтобы было удобнее работать с такими данными, их переводят в логарифмическую шкалу, тогда экспоненциальный рост превращается в линейный. Это упрощает интерпретацию и уменьшает дисперсию. Кроме того, логарифмирование переводит отношения в разности, что облегчает сравнение образцов и расчёт изменений экспрессии.
То есть в науке часто используют более сложные преобразования, чем логарифмирование.
📊В продуктовой аналитике такие приёмы встречаются реже, но не исключены. Во-первых, логарифм среднего чека сам по себе интерпретируется иначе: он отражает относительные изменения, а не абсолютные рубли — это удобно для анализа эластичностей. Во-вторых, в A/B-тестах обычно большие выборки и нормальность распределения выборочных средних обеспечивает ЦПТ, поэтому ключевыми становятся дизайн эксперимента, корректное логгирование событие, проверка на SRM и тп, а не нормализация данных.
Однако иногда логарифмирование в аналитике оправдано — например, если метрика имеет сильно вытянутый правый хвост (ARPU, время сессии). Логарифм сжимает экстремальные значения и уменьшает влияние редких больших наблюдений на среднее и дисперсию; после лог-преобразования оценки и остатки модели нередко становятся более устойчивыми.
Но лично мне не доводилось применять такое на практике, расскажите, кто использовал, есть ли в этом смысл вообще?
#analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥29❤14👍11
Матемаркетинг-2025 — главная конференция осени по продуктовой аналитике
20–21 ноября в Москве пройдёт Матемаркетинг’25 - топовая конфа по продуктовой и маркетинговой аналитике. Я лично большой фанат конференции — каждый раз заряжаюсь идеями и возвращаюсь с новыми контактами и вдохновением 🔥 (а еще мерчом 😏 ).
В этот раз я тоже планирую приехать, присоединяйтесь!
Что на конференции самое полезное?
🔘 Крутые доклады для разной аудитории, от джунов до синьоров, для A/B тестеров, маркетинговых аналитиков, ML-щиков и не только;
🔘 Нетворкинг и общение, особенно актуально тем, кто постоянно на удаленке (как например я);
🔘 Рефералки для тех, кто ищет работу или сотрудников;
🔘 Разнообразные стендовые активности, где можно неформально пообщаться с коллегами, порешать интересные аналитические задачки и обсудить тренды в индустрии
Программа
По промокоду SFS10 будет скидка 10%
Подробная информация о конференции на сайте
20–21 ноября в Москве пройдёт Матемаркетинг’25 - топовая конфа по продуктовой и маркетинговой аналитике. Я лично большой фанат конференции — каждый раз заряжаюсь идеями и возвращаюсь с новыми контактами и вдохновением 🔥 (
В этот раз я тоже планирую приехать, присоединяйтесь!
Что на конференции самое полезное?
Программа
По промокоду SFS10 будет скидка 10%
Подробная информация о конференции на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥16❤10👍5👏4👎2
Типичное собеседование на продуктового аналитика
Открываю новую рубрику про собеседования 🔥
Как раз сейчас осень, а значит активная пора найма.
Сегодня разберем общую структуру собеседований на продуктового аналитика и самые типичные задачи.
Для большинства собесов характерны примерно такие секции:
🟡 Лайвкодинг на SQL и опционально Python.
SQL обычно спрашивают уровня джойнов и группировок, также очень часто встречаются задачи на оконки, диалект значения не имеет.
На тему питона обычно покрутить табличку в пандасе. На этой секции нередко можно гуглить или переспрашивать, как пишется конкретная функция, но это зависит от собеседующего. Запускать код как правило нет возможности, так что надо представлять, что будет после выполнения той или иной операции.
Здесь в основном проверяется просто способность писать код, слишком сложных задачек скорее не будет, так как надо уложиться в полчаса-час.
🟡 Секция по продуктовому мышлению и A/B тестированию.
Для меня самая интересная секция, но и самая сложная. Здесь будут вопросы про метрики, дизайн A/B тестов, что такое MDE, p-value, поправки на множественное тестирование и тп.
Могут спросить, как выбрать целевую метрику, как объяснить заказчику статистически незначимый результат😬 , что делать, если падают ключевые метрики.
В основном проверяется структурность мышления, способность коммуницировать с заказчиком, а на уровне middle и выше желательно уметь работать в условиях с нечетким ТЗ.
🟡 Секция по теории вероятностей.
Отдельная секция бывает не всегда, но если будет, то обычно там вопросы про монетки и кубики, формулу полной вероятности и Байеса.
🟡 Кроме этого, на собеседовании в ❤️ могут быть задачи на алгоритмы уровня easy/middle с литкода.
Здесь пожалуй воздержусь от оценочных суждений о необходимости этой секции на собеседовании аналитика🤓 (но вы сами и так знаете )
Типичные задачи на каждую секцию:
SQL:
🔘 Найти пользователей, которые начали оформление заказа, но не оплатили его;
🔘 Вывести топ-3 категорий по выручке;
🔘 Посчитать 7-дневный retention по событиям.
Продукт:
🔘 Конверсия выросла, а выручка упала — почему?
🔘 Почему одни и те же метрики различаются на разных дашбордах?
🔘 Как оценить влияние нового дизайна карточки товара?
Теорвер:
🔘 Если вероятность успеха 0.3, какова вероятность получить хотя бы один успех за 3 попытки?
Алгоритмы:
🔘 Найти дубликаты в массиве
Опытные любители ходить на собеседования, дополняйте в комментариях👇
#собес_PA #analytics
Открываю новую рубрику про собеседования 🔥
Как раз сейчас осень, а значит активная пора найма.
Сегодня разберем общую структуру собеседований на продуктового аналитика и самые типичные задачи.
Для большинства собесов характерны примерно такие секции:
SQL обычно спрашивают уровня джойнов и группировок, также очень часто встречаются задачи на оконки, диалект значения не имеет.
На тему питона обычно покрутить табличку в пандасе. На этой секции нередко можно гуглить или переспрашивать, как пишется конкретная функция, но это зависит от собеседующего. Запускать код как правило нет возможности, так что надо представлять, что будет после выполнения той или иной операции.
Здесь в основном проверяется просто способность писать код, слишком сложных задачек скорее не будет, так как надо уложиться в полчаса-час.
Для меня самая интересная секция, но и самая сложная. Здесь будут вопросы про метрики, дизайн A/B тестов, что такое MDE, p-value, поправки на множественное тестирование и тп.
Могут спросить, как выбрать целевую метрику, как объяснить заказчику статистически незначимый результат
В основном проверяется структурность мышления, способность коммуницировать с заказчиком, а на уровне middle и выше желательно уметь работать в условиях с нечетким ТЗ.
Отдельная секция бывает не всегда, но если будет, то обычно там вопросы про монетки и кубики, формулу полной вероятности и Байеса.
Здесь пожалуй воздержусь от оценочных суждений о необходимости этой секции на собеседовании аналитика
Типичные задачи на каждую секцию:
SQL:
Продукт:
Теорвер:
Алгоритмы:
Опытные любители ходить на собеседования, дополняйте в комментариях
#собес_PA #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤41✍7🔥5❤🔥2👏2
R или Python в аналитике?
Наконец-то решила написать про эту холиварную тему 😏
Будет максимально объективно, так как работала с R не только в науке, но и в продакшне в🖤 .
Плюсы🖥 :
🟡 Статистика из коробки – большинство статистических тестов, в том числе сложных, доступно без установки дополнительных пакетов.
🟡 Очень удобный и юзер-френдли синтаксис в
🟡 Лучшая визуализация:
🟡 Векторизация позволяет писать без циклов, повышая читаемость и снижая количество ошибок.
🟡 С помощью пайпов и NSE (not standard evaluation) работа с табличками становится очень удобной и читаемой (ниже закинула пример кода для сравнения).
Плюсы👩💻 :
🟡 Большинство аналитиков, по крайней мере в РФ, пишут на питоне.
🟡 Девопсы обычно умеют разворачивать питон приложения.
🟡 Экосистема для машинного обучения сильнее:
🟡 airflow для оркестрации изначально рассчитано под питон, писать даги в airflow на R теоретически можно, но это будет странно.
Минусы🖥 :
🟡 Чтобы получить плюсы от производительности, нужно писать в
🟡 Разворачивать приложения и оркестрацию для продакшна можно, но нужно уметь это готовить. Например, у нас в 🖤 весь бизнес-мониторинг работал на связке ClickHouse + R +
🟡 Если уходить в машинное обучение, то в R все же слабее пакеты.
🟡 Визуализация это круто, но дашборды все равно делают отдельными инструментами: Tableau, Superset, DataLens и так далее.
Минусы👩💻
🟡 В
🟡 Визуализация менее лаконична:
✍️ Сравнение кода на R и Python
Типичная задача продуктового аналитика: рассчитать ARPPU по двум группам A/B теста (в комментарии закину воспроизводимый пример, а еще пример расчета t-теста на обоих языках).
Ну как, какой вариант кажется более понятным и лаконичным? Пишите в комментариях👇
Сейчас я в основном пишу на питоне, это удобнее в командной работе, коллеги могут переиспользовать и ревьюить ноутбуки, а еще ETL-процессы в airflow.
Но использую R для некоторых задач A/B тестирования или продуктовых исследований.
В продуктовой аналитике нет особого преимущества одного языка над другим, так как ML обычно не используется, а тяжелые логи можно агрегировать на стороне SQL, поэтому в лимит по памяти пандаса тоже не упираюсь. Мне конечно самой было бы приятнее писать на R, но что поделать, рыночек порешал 😬
В принципе, писать можно на чем угодно, главное, выполнять задачи вовремя и качественно)
#analytics #R #python
Наконец-то решила написать про эту холиварную тему 😏
Будет максимально объективно, так как работала с R не только в науке, но и в продакшне в
Плюсы
tidyverse, а в data.table – высокая скорость и оптимизация по памяти.ggplot2 за счет подхода грамматики графики позволяет делать сколь угодно сложные и кастомные графики.Плюсы
scikit-learn, pytorch, keras.Минусы
data.table стиле, которому мало где учат. На онлайн-курсах аналитиков данных в принципе не изучают R, большинство R-щиков из академической среды.data.table, оркестрация ETL-пайплайнов через AWX Ansible. Но я больше нигде не видела подобную инфру, поэтому предполагаю, что с нуля настроить инфраструктуру проще на связке питон + airflow. Пользуясь случаем, передаю приветы команде BMS в X5 Tech ❤️Минусы
pandas низкая производительность и неудобный синтаксис по сравнению с tidyverse/data.table.matplotlib даже для простых графиков требует простыню кода, а seaborn менее кастомизируем. Но здесь для фанатов R можно использовать plotnine, портированный ggplot2 (но он все равно будет с урезанным функционалом).✍️ Сравнение кода на R и Python
Типичная задача продуктового аналитика: рассчитать ARPPU по двум группам A/B теста (в комментарии закину воспроизводимый пример, а еще пример расчета t-теста на обоих языках).
df_arppu <- df %>%
summarise(user_total = sum(revenue), .by = c(ab_group, user_id)) %>% # суммируем платежи пользователя
summarise(
paying_users = sum(user_total > 0),
total_revenue = sum(user_total),
ARPPU = ifelse(paying_users > 0, total_revenue / paying_users, NA_real_),
.by = ab_group
)
df_arppu = (
df
.groupby(['ab_group', 'user_id'], as_index=False)
.agg(user_total=('revenue', 'sum')) # суммируем платежи пользователя
.groupby('ab_group', as_index=False)
.agg(
paying_users=('user_total', lambda x: (x > 0).sum()),
total_revenue=('user_total', 'sum')
)
.assign(
ARPPU=lambda d: np.where(d['paying_users'] > 0,
d['total_revenue'] / d['paying_users'],
np.nan)
)
)
Ну как, какой вариант кажется более понятным и лаконичным? Пишите в комментариях
Сейчас я в основном пишу на питоне, это удобнее в командной работе, коллеги могут переиспользовать и ревьюить ноутбуки, а еще ETL-процессы в airflow.
Но использую R для некоторых задач A/B тестирования или продуктовых исследований.
В продуктовой аналитике нет особого преимущества одного языка над другим, так как ML обычно не используется, а тяжелые логи можно агрегировать на стороне SQL, поэтому в лимит по памяти пандаса тоже не упираюсь. Мне конечно самой было бы приятнее писать на R, но что поделать, рыночек порешал 😬
В принципе, писать можно на чем угодно, главное, выполнять задачи вовремя и качественно)
#analytics #R #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Статистика и R в науке и аналитике in Чат канала "Статистика и R"
А вот и обещанный код:
library(dplyr)
library(tidyr)
df <- tibble(
user_id = c(1, 1, 2, 3, 3, 4, 5, 6, 5, 7, 8, 9),
ab_group = rep(c('A', 'B'), each = 6),
revenue = c(50, 100, 200, 300, 150, 0, 150, 0, 100, 700, 200, 200)
) # создание датафрейма
df…
library(dplyr)
library(tidyr)
df <- tibble(
user_id = c(1, 1, 2, 3, 3, 4, 5, 6, 5, 7, 8, 9),
ab_group = rep(c('A', 'B'), each = 6),
revenue = c(50, 100, 200, 300, 150, 0, 150, 0, 100, 700, 200, 200)
) # создание датафрейма
df…
2🔥62👍17❤12👏5🤔2😱2🎉2
Розыгрыш билетов на Матемаркетинг
Выше писала анонс про самую топовую конфу для аналитиков, а здесь анонсирую розыгрыш трех онлайн-билетов на Матемаркетинг'25.
Напомню основное: конференция будет 20–21 ноября в Москве, по промокоду❤️
Розыгрыш будет в трех номинациях:
🟡 Ваш любимый мем на тему аналитики, статистики и работы с данными
🟡 Что вас больше всего вдохновляет в своей профессии?
🟡 Самое сложное в аналитике, с чем довелось столкнуться (начиная от проблем с данными и заканчивая общением с заказчиками, но далеко не ограничиваясь этим).
Победителя в каждой категории буду выбирать генератором случайных чисел🎲
Участвовать можно в одной категории
Результаты будут объявлены 5 ноября в 19.00 МСК
Да, самое лучшее это ходить на конференции по возможности офлайн, но онлайн зато можно больше сконцентрироваться на докладах, а не на разорении стендов с мерчом 😎
Жду ваших комментариев👇 !
#analytics
Выше писала анонс про самую топовую конфу для аналитиков, а здесь анонсирую розыгрыш трех онлайн-билетов на Матемаркетинг'25.
Напомню основное: конференция будет 20–21 ноября в Москве, по промокоду
SFS10 будет скидка 10%, я сама приеду, так что будет отличная возможность пообщаться вживую Розыгрыш будет в трех номинациях:
Победителя в каждой категории буду выбирать генератором случайных чисел
Участвовать можно в одной категории
Результаты будут объявлены 5 ноября в 19.00 МСК
Да, самое лучшее это ходить на конференции по возможности офлайн, но онлайн зато можно больше сконцентрироваться на докладах, а не на разорении стендов с мерчом 😎
Жду ваших комментариев
#analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥26👍6😁3
Продуктовые метрики: ультимативный гайд как не запутаться
Я уже писала выше, что самое сложное в продуктовой аналитике - это метрики. Настало время раскрыть эту мысль чуть подробнее.
Здесь будем обсуждать только классические продуктовые метрики, кастомные оставим за скобками для следующего раза.
Если просто вбить в поиск “продуктовые метрики”, можно утонуть в списках и статьях. Проблема не только в количестве самих метрик (их правда много), но и в том, как их классифицировать. Перечислять метрики бессмысленно, но и с классификациями тоже не всё просто: их много, и каждая решает свою задачу. В итоге у нас не только сотни метрик, но и десятки разных способов их группировать.
Давайте попробуем распутать эти классификации и посмотрим, какие из них наиболее последовательные и логичные.
Помогут нам в этом старые добрые правила логического деления, прям из курса философии, напомню их кратко:
🟡 Деление должно быть по одному основанию.
🟡 Деление должно быть полным (охватывать все элементы).
🟡 Члены деления должны исключать друг друга.
🟡 Деление должно быть последовательным, без перескоков между уровнями.
Основные существующие классификации:
🟡 Классификация от GoPractice:
- метрики роста
- метрики продукта
- метрики эффективности решения задачи пользователя
- метрики добавочной ценности
Последние два вида метрик дополнили сравнительно недавно.
🟡 Популярные фреймворки для работы с метриками:
- AAARRR (Awareness – Acquisition – Activation – Retention – Referral – Revenue), пиратские метрики – отражают этапы пользовательской воронки;
- HEART (Happiness – Engagement – Adoption – Retention – Task success);
- Дерево метрик - способ организации иерархии метрик в конкретном продукте.
🟡 В A/B тестировании метрики могут быть
- целевые
- прокси
- заградительные
- информационные
Но не все эти классификации соответствуют правилам деления, описанным выше.
Например, классификация метрик в A/B тестировании отлично работает для своей задачи, но не охватывает многообразие метрик в целом (=деление не полное).
AAARRR и HEART удобны для анализа воронки пользователей, но нарушают правило деления по одному основанию и перескакивают между уровнями. Дерево метрик классно подходит для анализа продукта, но не отвечает на вопрос, какие метрики бывают в принципе, то есть чтобы построить дерево метрик, надо быть уже достаточно погруженным в контекст.
Деление GoPractice кажется довольно удачным, так как позволяет структурировать метрики по смыслу (правда, затрудняюсь сказать, какое там основание деления, но это работает).
Финансовые метрики, которые часто выделяют в отдельную категорию, в этой классификации относятся
🟡 к метрикам роста (все абсолютные значения, такие как GMV, EBITDA)
🟡 к метрикам продукта (все "средние" значения: ARPU, ARPPU, средние чеки, LTV и тд).
Единственное, в классификацию GoPractice не входят маркетинговые метрики, но поскольку есть почти все остальные, это наиболее полная и непротиворечивая классификация.
Возможно, стоит ее дополнить отдельно маркетинговыми метриками, например, СPC (Cost per click), CAC (Customer acquisition cost) и другими.
Классификация GoPractice довольно неплохая для старта в метриках, хоть она не полностью удовлетворяет правилам логического деления. Тем не менее, из того что нашла я, это ближе всего к осмысленной систематизации, которая помогает разобраться во всем многообразии метрик.
А какие источники по метрикам вы считаете самыми полезными/непротиворечивыми/всеобъемлющими? Дополняйте в комментариях👇
#analytics #metrics
Я уже писала выше, что самое сложное в продуктовой аналитике - это метрики. Настало время раскрыть эту мысль чуть подробнее.
Здесь будем обсуждать только классические продуктовые метрики, кастомные оставим за скобками для следующего раза.
Если просто вбить в поиск “продуктовые метрики”, можно утонуть в списках и статьях. Проблема не только в количестве самих метрик (их правда много), но и в том, как их классифицировать. Перечислять метрики бессмысленно, но и с классификациями тоже не всё просто: их много, и каждая решает свою задачу. В итоге у нас не только сотни метрик, но и десятки разных способов их группировать.
Давайте попробуем распутать эти классификации и посмотрим, какие из них наиболее последовательные и логичные.
Помогут нам в этом старые добрые правила логического деления, прям из курса философии, напомню их кратко:
Основные существующие классификации:
- метрики роста
- метрики продукта
- метрики эффективности решения задачи пользователя
- метрики добавочной ценности
Последние два вида метрик дополнили сравнительно недавно.
- AAARRR (Awareness – Acquisition – Activation – Retention – Referral – Revenue), пиратские метрики – отражают этапы пользовательской воронки;
- HEART (Happiness – Engagement – Adoption – Retention – Task success);
- Дерево метрик - способ организации иерархии метрик в конкретном продукте.
- целевые
- прокси
- заградительные
- информационные
Но не все эти классификации соответствуют правилам деления, описанным выше.
Например, классификация метрик в A/B тестировании отлично работает для своей задачи, но не охватывает многообразие метрик в целом (=деление не полное).
AAARRR и HEART удобны для анализа воронки пользователей, но нарушают правило деления по одному основанию и перескакивают между уровнями. Дерево метрик классно подходит для анализа продукта, но не отвечает на вопрос, какие метрики бывают в принципе, то есть чтобы построить дерево метрик, надо быть уже достаточно погруженным в контекст.
Деление GoPractice кажется довольно удачным, так как позволяет структурировать метрики по смыслу (правда, затрудняюсь сказать, какое там основание деления, но это работает).
Финансовые метрики, которые часто выделяют в отдельную категорию, в этой классификации относятся
Единственное, в классификацию GoPractice не входят маркетинговые метрики, но поскольку есть почти все остальные, это наиболее полная и непротиворечивая классификация.
Возможно, стоит ее дополнить отдельно маркетинговыми метриками, например, СPC (Cost per click), CAC (Customer acquisition cost) и другими.
Классификация GoPractice довольно неплохая для старта в метриках, хоть она не полностью удовлетворяет правилам логического деления. Тем не менее, из того что нашла я, это ближе всего к осмысленной систематизации, которая помогает разобраться во всем многообразии метрик.
А какие источники по метрикам вы считаете самыми полезными/непротиворечивыми/всеобъемлющими? Дополняйте в комментариях
#analytics #metrics
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥22❤14👍11🙏2🤔1
🎉 Пятничный нетворкинг!
Предлагаю немного познакомиться – расскажите про себя, телеграм-каналы, пет-проекты или что-то ещё, чем хотите поделиться
Пишите в комментариях:
🟡 Из какой вы области, чем занимаетесь
🟡 Кидайте ссылки на свои телеграм-каналы/блоги + короткое описание, о чём они
Тематика полностью свободная: аналитика, статистика, дизайн, лайфстайл, научпоп — всё приветствуется
И маленькая просьба к авторам каналов:
пожалуйста, не только оставляйте свой канал, но и загляните к другим.
Уверена, среди всего многообразия найдётся что-то необычное и интересное именно вам ✨
Поехали! Делитесь 👇
Предлагаю немного познакомиться – расскажите про себя, телеграм-каналы, пет-проекты или что-то ещё, чем хотите поделиться
Пишите в комментариях:
Тематика полностью свободная: аналитика, статистика, дизайн, лайфстайл, научпоп — всё приветствуется
И маленькая просьба к авторам каналов:
пожалуйста, не только оставляйте свой канал, но и загляните к другим.
Уверена, среди всего многообразия найдётся что-то необычное и интересное именно вам ✨
Поехали! Делитесь 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥29❤10🎉2
Я сегодня на Матемаркетинге, приходите общаться. Сходила на доклад Ромы про использование марковских цепей в воронках, все очень круто, но есть вопрос, а где сам дашборд и анонс инструмента?)
В этот раз у нас рекордное количество аналитиков из Литрес 😎
В этот раз у нас рекордное количество аналитиков из Литрес 😎
2❤57🔥26👏5😁3🙏1
Перед тем как напишу про ММ, рассказала как не надо проводить A/B тесты.
https://t.me/bashnya_education/721
Тут должен быть мотивационный спич, напишу коротко, что в результате подобных историй, мы сделали обновленный процесс A/B тестирования, где вероятность таких ситуаций сведена к минимуму. В общем не ломайте A/B тесты, проверяйте заранее все на корректность)
Ну а что касается улучшения процессов A/B, про это думаю написать отдельно, хотя и кажется, что таких материалов уже достаточно. Пишите, если интересно почитать про опыт улучшения процессов в отдельно взятом Литресе👇
#analytics #AB_tests
https://t.me/bashnya_education/721
Тут должен быть мотивационный спич, напишу коротко, что в результате подобных историй, мы сделали обновленный процесс A/B тестирования, где вероятность таких ситуаций сведена к минимуму. В общем не ломайте A/B тесты, проверяйте заранее все на корректность)
Ну а что касается улучшения процессов A/B, про это думаю написать отдельно, хотя и кажется, что таких материалов уже достаточно. Пишите, если интересно почитать про опыт улучшения процессов в отдельно взятом Литресе
#analytics #AB_tests
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
БАШНЯ
HARD SKILLS 🫥
Сегодня разбираем, как одна ошибка в сплитованнии превратила двухнедельный A/B-тест в бесполезный эксперимент 🤯
Делитесь этим постом с друзьями и пишите свои вопросы в комментарии ✍️
Автор поста: @stats_for_science
#hardskills
Сегодня разбираем, как одна ошибка в сплитованнии превратила двухнедельный A/B-тест в бесполезный эксперимент 🤯
Делитесь этим постом с друзьями и пишите свои вопросы в комментарии ✍️
Автор поста: @stats_for_science
#hardskills
2❤20👍7🔥2👎1