Статистика и R в науке и аналитике

Про преобразования данных

В прошлый раз коротко затронула вопрос преобразований, которые делают, чтобы «привести данные к нормальности». Давайте разберём это чуть подробнее.

Дисклеймер: сама идея «приводить выборку к нормальному распределению» не всегда обоснованна. Нас обычно интересует не распределение самих наблюдений, а распределение выборочных средних, которое при достаточно больших выборках гарантируется центральной предельной теоремой (тут тоже есть нюансы, более подробно в статье).

Основная проблема любых преобразований - потеря интерпретируемости преобразуемой величины.

Тем не менее бывают ситуации, где преобразования действительно уместны. Один из распространенных примеров — логарифмирование (частный случай Бокс–Кокс-преобразования).
Стоит отметить, что логарифмирование применимо только к положительным значениям, при нулях или отрицательных значениях обычно делают сдвиг на константу, про это нужно не забывать при интерпретации преобразованных данных.

🌱В биологических данных логарифмирование применяется регулярно к определенным типам данных. Например, в количественной ПЦР (qPCR) измеряют, сколько раз ДНК удваивается на каждом цикле амплификации. Получается экспоненциальный рост: с каждой итерацией количество продукта увеличивается в 2 раза. Чтобы было удобнее работать с такими данными, их переводят в логарифмическую шкалу, тогда экспоненциальный рост превращается в линейный. Это упрощает интерпретацию и уменьшает дисперсию. Кроме того, логарифмирование переводит отношения в разности, что облегчает сравнение образцов и расчёт изменений экспрессии.

🧬В bulk RNA-seq логарифмирование тоже используется, но обычно для логарифма fold change — чтобы сделать данные более удобными для интерпретации и визуализации: например, если экспрессия гена в тестовой группе снизилась в два раза, log₂-fold-change будет равен -1 (а не 0.5). Такой формат проще интерпретировать и визуализировать, особенно при работе с тысячами генов. Что касается исходных данных (каунтов), для них характерно увеличение дисперсии вместе с увеличением средних значений (overdispersion), поэтому вместо логарифмирования обычно применяют модели на основе отрицательного биномиального распределения, которые это учитывают.

То есть в науке часто используют более сложные преобразования, чем логарифмирование.

📊В продуктовой аналитике такие приёмы встречаются реже, но не исключены. Во-первых, логарифм среднего чека сам по себе интерпретируется иначе: он отражает относительные изменения, а не абсолютные рубли — это удобно для анализа эластичностей. Во-вторых, в A/B-тестах обычно большие выборки и нормальность распределения выборочных средних обеспечивает ЦПТ, поэтому ключевыми становятся дизайн эксперимента, корректное логгирование событие, проверка на SRM и тп, а не нормализация данных.

Однако иногда логарифмирование в аналитике оправдано — например, если метрика имеет сильно вытянутый правый хвост (ARPU, время сессии). Логарифм сжимает экстремальные значения и уменьшает влияние редких больших наблюдений на среднее и дисперсию; после лог-преобразования оценки и остатки модели нередко становятся более устойчивыми.

Но лично мне не доводилось применять такое на практике, расскажите, кто использовал, есть ли в этом смысл вообще?

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

15🔥29❤14👍11

4.67K viewsedited 09:10

Статистика и R в науке и аналитике

Матемаркетинг-2025 — главная конференция осени по продуктовой аналитике

20–21 ноября в Москве пройдёт Матемаркетинг’25 - топовая конфа по продуктовой и маркетинговой аналитике. Я лично большой фанат конференции — каждый раз заряжаюсь идеями и возвращаюсь с новыми контактами и вдохновением 🔥 (а еще мерчом 😏).
В этот раз я тоже планирую приехать, присоединяйтесь!

Что на конференции самое полезное?

🔘Крутые доклады для разной аудитории, от джунов до синьоров, для A/B тестеров, маркетинговых аналитиков, ML-щиков и не только;
🔘Нетворкинг и общение, особенно актуально тем, кто постоянно на удаленке (как например я);
🔘Рефералки для тех, кто ищет работу или сотрудников;
🔘Разнообразные стендовые активности, где можно неформально пообщаться с коллегами, порешать интересные аналитические задачки и обсудить тренды в индустрии

Программа

По промокоду SFS10 будет скидка 10%

Подробная информация о конференции на сайте

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥16❤10👍5👏4👎2

4.54K views13:40

Статистика и R в науке и аналитике

Типичное собеседование на продуктового аналитика

Открываю новую рубрику про собеседования 🔥
Как раз сейчас осень, а значит активная пора найма.
Сегодня разберем общую структуру собеседований на продуктового аналитика и самые типичные задачи.

Для большинства собесов характерны примерно такие секции:

🟡 Лайвкодинг на SQL и опционально Python.
SQL обычно спрашивают уровня джойнов и группировок, также очень часто встречаются задачи на оконки, диалект значения не имеет.
На тему питона обычно покрутить табличку в пандасе. На этой секции нередко можно гуглить или переспрашивать, как пишется конкретная функция, но это зависит от собеседующего. Запускать код как правило нет возможности, так что надо представлять, что будет после выполнения той или иной операции.
Здесь в основном проверяется просто способность писать код, слишком сложных задачек скорее не будет, так как надо уложиться в полчаса-час.

🟡 Секция по продуктовому мышлению и A/B тестированию.
Для меня самая интересная секция, но и самая сложная. Здесь будут вопросы про метрики, дизайн A/B тестов, что такое MDE, p-value, поправки на множественное тестирование и тп.
Могут спросить, как выбрать целевую метрику, как объяснить заказчику статистически незначимый результат 😬, что делать, если падают ключевые метрики.
В основном проверяется структурность мышления, способность коммуницировать с заказчиком, а на уровне middle и выше желательно уметь работать в условиях с нечетким ТЗ.

🟡 Секция по теории вероятностей.
Отдельная секция бывает не всегда, но если будет, то обычно там вопросы про монетки и кубики, формулу полной вероятности и Байеса.

🟡Кроме этого, на собеседовании в ❤️ могут быть задачи на алгоритмы уровня easy/middle с литкода.
Здесь пожалуй воздержусь от оценочных суждений о необходимости этой секции на собеседовании аналитика 🤓 (но вы сами и так знаете)

Типичные задачи на каждую секцию:

SQL:
🔘Найти пользователей, которые начали оформление заказа, но не оплатили его;
🔘Вывести топ-3 категорий по выручке;
🔘Посчитать 7-дневный retention по событиям.

Продукт:
🔘Конверсия выросла, а выручка упала — почему?
🔘Почему одни и те же метрики различаются на разных дашбордах?
🔘Как оценить влияние нового дизайна карточки товара?

Теорвер:
🔘Если вероятность успеха 0.3, какова вероятность получить хотя бы один успех за 3 попытки?

Алгоритмы:
🔘Найти дубликаты в массиве

Опытные любители ходить на собеседования, дополняйте в комментариях 👇

#собес_PA #analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤41✍7🔥5❤‍🔥2👏2

4.24K views08:10

Статистика и R в науке и аналитике

R или Python в аналитике?

Наконец-то решила написать про эту холиварную тему 😏
Будет максимально объективно, так как работала с R не только в науке, но и в продакшне в 🖤.

Плюсы 🖥:
🟡Статистика из коробки – большинство статистических тестов, в том числе сложных, доступно без установки дополнительных пакетов.
🟡Очень удобный и юзер-френдли синтаксис в tidyverse, а в data.table – высокая скорость и оптимизация по памяти.
🟡Лучшая визуализация: ggplot2 за счет подхода грамматики графики позволяет делать сколь угодно сложные и кастомные графики.
🟡Векторизация позволяет писать без циклов, повышая читаемость и снижая количество ошибок.
🟡С помощью пайпов и NSE (not standard evaluation) работа с табличками становится очень удобной и читаемой (ниже закинула пример кода для сравнения).

Плюсы 👩‍💻:

🟡Большинство аналитиков, по крайней мере в РФ, пишут на питоне.
🟡Девопсы обычно умеют разворачивать питон приложения.
🟡Экосистема для машинного обучения сильнее: scikit-learn, pytorch, keras.
🟡airflow для оркестрации изначально рассчитано под питон, писать даги в airflow на R теоретически можно, но это будет странно.

Минусы 🖥:

🟡Чтобы получить плюсы от производительности, нужно писать в data.table стиле, которому мало где учат. На онлайн-курсах аналитиков данных в принципе не изучают R, большинство R-щиков из академической среды.
🟡Разворачивать приложения и оркестрацию для продакшна можно, но нужно уметь это готовить. Например, у нас в 🖤 весь бизнес-мониторинг работал на связке ClickHouse + R + data.table, оркестрация ETL-пайплайнов через AWX Ansible. Но я больше нигде не видела подобную инфру, поэтому предполагаю, что с нуля настроить инфраструктуру проще на связке питон + airflow. Пользуясь случаем, передаю приветы команде BMS в X5 Tech ❤️
🟡Если уходить в машинное обучение, то в R все же слабее пакеты.
🟡Визуализация это круто, но дашборды все равно делают отдельными инструментами: Tableau, Superset, DataLens и так далее.

Минусы 👩‍💻

🟡В pandas низкая производительность и неудобный синтаксис по сравнению с tidyverse/data.table.
🟡 Визуализация менее лаконична: matplotlib даже для простых графиков требует простыню кода, а seaborn менее кастомизируем. Но здесь для фанатов R можно использовать plotnine, портированный ggplot2 (но он все равно будет с урезанным функционалом).

✍️ Сравнение кода на R и Python

Типичная задача продуктового аналитика: рассчитать ARPPU по двум группам A/B теста (в комментарии закину воспроизводимый пример, а еще пример расчета t-теста на обоих языках).

df_arppu <- df %>%
  summarise(user_total = sum(revenue), .by = c(ab_group, user_id)) %>%   # суммируем платежи пользователя
  summarise(
    paying_users = sum(user_total > 0),
    total_revenue = sum(user_total),
    ARPPU = ifelse(paying_users > 0, total_revenue / paying_users, NA_real_),
    .by = ab_group
  )

df_arppu = (
    df
    .groupby(['ab_group', 'user_id'], as_index=False)
    .agg(user_total=('revenue', 'sum'))   # суммируем платежи пользователя
    .groupby('ab_group', as_index=False)
    .agg(
        paying_users=('user_total', lambda x: (x > 0).sum()),
        total_revenue=('user_total', 'sum')
    )
    .assign(
        ARPPU=lambda d: np.where(d['paying_users'] > 0,
                                 d['total_revenue'] / d['paying_users'],
                                 np.nan)
    )
)

Ну как, какой вариант кажется более понятным и лаконичным? Пишите в комментариях 👇

Сейчас я в основном пишу на питоне, это удобнее в командной работе, коллеги могут переиспользовать и ревьюить ноутбуки, а еще ETL-процессы в airflow.
Но использую R для некоторых задач A/B тестирования или продуктовых исследований.

В продуктовой аналитике нет особого преимущества одного языка над другим, так как ML обычно не используется, а тяжелые логи можно агрегировать на стороне SQL, поэтому в лимит по памяти пандаса тоже не упираюсь. Мне конечно самой было бы приятнее писать на R, но что поделать, рыночек порешал 😬

В принципе, писать можно на чем угодно, главное, выполнять задачи вовремя и качественно)

#analytics #R #python

Please open Telegram to view this post

VIEW IN TELEGRAM

Статистика и R в науке и аналитике in Чат канала "Статистика и R"

А вот и обещанный код:
library(dplyr)
library(tidyr)

df <- tibble(
user_id = c(1, 1, 2, 3, 3, 4, 5, 6, 5, 7, 8, 9),
ab_group = rep(c('A', 'B'), each = 6),
revenue = c(50, 100, 200, 300, 150, 0, 150, 0, 100, 700, 200, 200)
) # создание датафрейма

df…

2🔥62👍17❤12👏5🤔2😱2🎉2

4.2K viewsedited 07:10

Статистика и R в науке и аналитике

Розыгрыш билетов на Матемаркетинг

Выше писала анонс про самую топовую конфу для аналитиков, а здесь анонсирую розыгрыш трех онлайн-билетов на Матемаркетинг'25.

Напомню основное: конференция будет 20–21 ноября в Москве, по промокоду SFS10 будет скидка 10%, я сама приеду, так что будет отличная возможность пообщаться вживую ❤️

Розыгрыш будет в трех номинациях:

🟡Ваш любимый мем на тему аналитики, статистики и работы с данными
🟡Что вас больше всего вдохновляет в своей профессии?
🟡Самое сложное в аналитике, с чем довелось столкнуться (начиная от проблем с данными и заканчивая общением с заказчиками, но далеко не ограничиваясь этим).

Победителя в каждой категории буду выбирать генератором случайных чисел 🎲
Участвовать можно в одной категории
Результаты будут объявлены 5 ноября в 19.00 МСК

Да, самое лучшее это ходить на конференции по возможности офлайн, но онлайн зато можно больше сконцентрироваться на докладах, а не на разорении стендов с мерчом 😎

Жду ваших комментариев 👇!

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥26👍6😁3

3.83K views17:40

Статистика и R в науке и аналитике

Продуктовые метрики: ультимативный гайд как не запутаться

Я уже писала выше, что самое сложное в продуктовой аналитике - это метрики. Настало время раскрыть эту мысль чуть подробнее.
Здесь будем обсуждать только классические продуктовые метрики, кастомные оставим за скобками для следующего раза.

Если просто вбить в поиск “продуктовые метрики”, можно утонуть в списках и статьях. Проблема не только в количестве самих метрик (их правда много), но и в том, как их классифицировать. Перечислять метрики бессмысленно, но и с классификациями тоже не всё просто: их много, и каждая решает свою задачу. В итоге у нас не только сотни метрик, но и десятки разных способов их группировать.

Давайте попробуем распутать эти классификации и посмотрим, какие из них наиболее последовательные и логичные.
Помогут нам в этом старые добрые правила логического деления, прям из курса философии, напомню их кратко:
🟡Деление должно быть по одному основанию.
🟡Деление должно быть полным (охватывать все элементы).
🟡Члены деления должны исключать друг друга.
🟡Деление должно быть последовательным, без перескоков между уровнями.

Основные существующие классификации:

🟡Классификация от GoPractice:
- метрики роста
- метрики продукта
- метрики эффективности решения задачи пользователя
- метрики добавочной ценности
Последние два вида метрик дополнили сравнительно недавно.
🟡Популярные фреймворки для работы с метриками:
- AAARRR (Awareness – Acquisition – Activation – Retention – Referral – Revenue), пиратские метрики – отражают этапы пользовательской воронки;
- HEART (Happiness – Engagement – Adoption – Retention – Task success);
- Дерево метрик - способ организации иерархии метрик в конкретном продукте.
🟡В A/B тестировании метрики могут быть
- целевые
- прокси
- заградительные
- информационные

Но не все эти классификации соответствуют правилам деления, описанным выше.

Например, классификация метрик в A/B тестировании отлично работает для своей задачи, но не охватывает многообразие метрик в целом (=деление не полное).
AAARRR и HEART удобны для анализа воронки пользователей, но нарушают правило деления по одному основанию и перескакивают между уровнями. Дерево метрик классно подходит для анализа продукта, но не отвечает на вопрос, какие метрики бывают в принципе, то есть чтобы построить дерево метрик, надо быть уже достаточно погруженным в контекст.

Деление GoPractice кажется довольно удачным, так как позволяет структурировать метрики по смыслу (правда, затрудняюсь сказать, какое там основание деления, но это работает).
Финансовые метрики, которые часто выделяют в отдельную категорию, в этой классификации относятся
🟡к метрикам роста (все абсолютные значения, такие как GMV, EBITDA)
🟡к метрикам продукта (все "средние" значения: ARPU, ARPPU, средние чеки, LTV и тд).

Единственное, в классификацию GoPractice не входят маркетинговые метрики, но поскольку есть почти все остальные, это наиболее полная и непротиворечивая классификация.
Возможно, стоит ее дополнить отдельно маркетинговыми метриками, например, СPC (Cost per click), CAC (Customer acquisition cost) и другими.

Классификация GoPractice довольно неплохая для старта в метриках, хоть она не полностью удовлетворяет правилам логического деления. Тем не менее, из того что нашла я, это ближе всего к осмысленной систематизации, которая помогает разобраться во всем многообразии метрик.

А какие источники по метрикам вы считаете самыми полезными/непротиворечивыми/всеобъемлющими? Дополняйте в комментариях 👇

#analytics #metrics

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥22❤14👍11🙏2🤔1

5.25K views13:31

Статистика и R в науке и аналитике

🎉 Пятничный нетворкинг!

Предлагаю немного познакомиться – расскажите про себя, телеграм-каналы, пет-проекты или что-то ещё, чем хотите поделиться

Пишите в комментариях:

🟡 Из какой вы области, чем занимаетесь
🟡 Кидайте ссылки на свои телеграм-каналы/блоги + короткое описание, о чём они

Тематика полностью свободная: аналитика, статистика, дизайн, лайфстайл, научпоп — всё приветствуется

И маленькая просьба к авторам каналов:
пожалуйста, не только оставляйте свой канал, но и загляните к другим.
Уверена, среди всего многообразия найдётся что-то необычное и интересное именно вам ✨

Поехали! Делитесь 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

3🔥29❤10🎉2

5.1K views13:03

Статистика и R в науке и аналитике

Я сегодня на Матемаркетинге, приходите общаться. Сходила на доклад Ромы про использование марковских цепей в воронках, все очень круто, но есть вопрос, а где сам дашборд и анонс инструмента?)
В этот раз у нас рекордное количество аналитиков из Литрес 😎

2❤57🔥26👏5😁3🙏1

4.66K viewsedited 08:20

Статистика и R в науке и аналитике

Перед тем как напишу про ММ, рассказала как не надо проводить A/B тесты.
https://t.me/bashnya_education/721

Тут должен быть мотивационный спич, напишу коротко, что в результате подобных историй, мы сделали обновленный процесс A/B тестирования, где вероятность таких ситуаций сведена к минимуму. В общем не ломайте A/B тесты, проверяйте заранее все на корректность)

Ну а что касается улучшения процессов A/B, про это думаю написать отдельно, хотя и кажется, что таких материалов уже достаточно. Пишите, если интересно почитать про опыт улучшения процессов в отдельно взятом Литресе 👇

#analytics #AB_tests

Please open Telegram to view this post

VIEW IN TELEGRAM

БАШНЯ

HARD SKILLS 🫥

Сегодня разбираем, как одна ошибка в сплитованнии превратила двухнедельный A/B-тест в бесполезный эксперимент 🤯

Делитесь этим постом с друзьями и пишите свои вопросы в комментарии ✍️

Автор поста: @stats_for_science

#hardskills

2❤20👍7🔥2👎1

4.06K views15:30

Статистика и R в науке и аналитике

Отзыв о ММ 25

Я участвую в конференциях этих организаторов уже в четвертый раз, была на двух Aha и двух матемаркетингах, включая этот. На мой взгляд, нынешний матемаркетинг точно лучше ахи, и возможно лучше предыдущего. Понравилось наполнение докладами, не без недостатков, но лучше чем на прошлой Aha. Отмечу доклады Сергея Матросова про оценку кумулятивных эффектов, Ромы Царегородцева, про который писала выше, еще мне посоветовали доклад от Островка, посмотрю чуть позже.

Стендовые активности тоже на уровне, но в этот раз постаралась чуть больше сходить на доклады)

Несколько докладов показались достаточно поверхностными, но в принципе это нормально, так как конференция рассчитана на разные грейды. Что-то подобное я могу сама рассказывать в следующий раз)
Про causal inference в очередной раз рассказали непонятно, уже классика. Поняла для себя, что доклады про LLM автоскип, ну вот реально очень неинтересно про это слушать. Да, LLM есть, пользуемся, но слушать очередной доклад про внедрение AI в своем инструменте утомило. Удивило отсутствие Авито на стендах и вообще ощущение как будто аналитиков из Авито было мало в этот раз. Кто оттуда – отзовитесь, интересно узнать, почему так.

В основном общалась с коллегами из Литрес, приятно развиртуализироваться, у нас был самый большой десант на конфу в этот раз 😎
Также приятно было встретить старых знакомых (привет Юра, Серега, Олег).

А вы были на конференции? Пишите, какие доклады запомнились, и с каким мерчом уехали 😁

2❤26👍7👏3👎1

3.32K views07:10

Статистика и R в науке и аналитике

Diff-in-Diff на самом деле

Вокруг методов квазиэкспериментов (diff-in-diff, regression discontinuity, Propensity Score Matching и тд), которые применяются в случае, когда A/B невозможен, есть некая атмосфера крутизны. Считается, что обычные A/B тесты это база, которую умеют делать все, а вот методы причинного вывода это реально сложно и интересно. Хотя все понимают (надеюсь), что с точки зрения валидности и надежности выводов правильно задизайненный и проведенный A/B тест опережает все вышеперечисленное. Все остальные квазиэксперименты это "A/B для бедных". Тем не менее, иногда действительно нет возможности провести A/B тест по разным причинам. Например, он технически невозможен или этически недопустим, однако эффект все равно оценить нужно, тогда без квазиэкспериментов никак.
У меня самой было в планах наконец-то разобраться с этими методами, так как это интересно, а еще про это любят спрашивать на собеседованиях 😏.

И вот оно: по работе возникла задача посчитать влияние уже внедренной фичи, которую запускали сразу на 100% без A/B (были на это причины). Это как раз типичный кейс применения diff-in-diff. Я обрадовалась возможности с этим разобраться на реальных данных (ооо наконец-то сложные методы), так что поставила задачку на себя и пошла читать статьи как это работает.

Оказалось, что аналитики в очередной раз назвали умными словами обычную линейную регрессию с двумя факторами и взаимодействием. Основная сложность метода не в формуле, а как обычно в наличии качественных данных и в умении правильно их приготовить. Например, нужно выбрать подходящую контрольную группу или построить синтетическую, проверить выполняются ли параллельные тренды до вмешательства, при необходимости добавить ковариаты, но это уже детали.
Общую идею метода неплохо объяснили в статье на хабре, но мне немного показалось, что в статье есть то самое "назвать простое сложным".

Сама формула:

y = β0 + β1*treat + β2*post + β3*(treat × post) + ε

Как видите, это обычная формула линейной регрессии с взаимодействием, где

β0 (Intercept) – значение интересующего показателя, например конверсии, в контрольной группе до воздействия.
β1 – значение показателя в тестовой группе до воздействия.
β2 – значение показателя в контрольной группе после воздействия.

β3 – тот самый эффект взаимодействия, Diff-in-Diff, дополнительное изменение конверсии в тестовой группе после воздействия по сравнению с контрольной группой.

Никакой сложной математики, старая добрая линейная регрессия в тренде 😎

Пример кода на 🖥

# предварительно уже создан df, в комментарии пришлю как сгенерировать
model <- lm(y ~ treat*post, data = data)
summary(model)

Пример кода на 🐍

# предварительно уже создан df, в комментарии пришлю как сгенерировать
import statsmodels.formula.api as smf # ключевой import для работы с Diff-in-Diff
df['did'] = df['treat'] * df['post'] # создание переменной взаимодействия
model = smf.ols("y ~ treat + post + did", data=df).fit()
print(model.summary())

Самое главное для применения метода подобрать подходящий контроль с соблюдением параллельности трендов до воздействия, а дальше сама формула занимает буквально две строчки. И необязательно делать вид, что это что-то супер сложное и крутое, потому что по сравнению с моделями, с которыми сталкиваются ученые, это совсем не рокет саенс 🤓

Вот еще несколько полезных ссылок:
1) Статья из книги Causal Inference for the Brave and True
2) Небольшая заметка на kaggle
3) Хорошая статья от X5 на хабре

👇В комментарии приложила пример кода для генерации подходящих под Diff-in-Diff данных на R и Python

#analytics #stats

Please open Telegram to view this post

VIEW IN TELEGRAM

6🔥37❤16👍13👏3🎉2🙏2💯2👎1

3.52K viewsedited 15:15

Статистика и R в науке и аналитике

Есть ли жизнь в аналитике после науки?

Здесь будет пост-рефлексия, впечатления о продуктовой аналитике спустя два с половиной года. Немного рассказывала про это на стриме с Юрой Борзило, а сейчас распишу другие аспекты.

Контекст: я ушла из науки в конце 2022 года (это на третьем курсе аспирантуры), первую работу в аналитике данных нашла в июне 2023 (подробнее про это писала здесь). Конкретно в продуктовую аналитику перекатилась год назад, сейчас в Литресе повысили до синьора. Я понимаю, что синьор в одной компании далеко не равен синьору везде, но все равно приятно, так что принимаю поздравления 🎉

Как оно тут без науки?

Меня часто спрашивают (правда-правда 😁), не скучно ли в аналитике после науки, по-моему это одно из основных опасений ученых, кто тоже думает уходить из науки.

Я бы сказала, что разнообразие задач не меньше, чем в науке и можно выбрать, чем приоритетно хочется заниматься. Рутины в аналитике не больше чем в науке, а в науке ее немало, при этом есть целый ряд задач, которые можно назвать исследовательскими, без четкого ТЗ, похоже на научные.

Что в науке отличается из неочевидного?

Относительно научной жизни в аналитике нужно намного больше общаться с людьми, даже не будучи руководителем, поэтому мне понадобилось довольно сильно прокачать те самые софт-скиллы. Если раньше было проблемой пойти в общий тред и что-то спрашивать, то теперь это любимое занятие/всегда пожалуйста. Это совершенно необходимо для грейдов выше миддла, потому что становится критично не только уметь писать код, считать A/B тесты, но и понимать, в каких случаях это можно не делать.

Режим работы

Более расслабленный по сравнению с наукой. С одной стороны, в рабочее время нужно быть на связи в рабочем мессенджере, присутствовать на встречах, нет этой легкости, что можно целый день не приходить в институт и никто ничего не скажет. Но с другой стороны, нет необходимости перерабатывать, при нормально выстроенных процессах удается все сделать в рабочее время. Немного есть сезонность – в конце квартала обычно загруженность больше, но по-моему написание грантов, отчетов по ним и статей сложнее и напряженнее.

Есть ли желание возвращаться в науку?

Пока за два с половиной года не возникло, хотя иногда смотрю как однокурсники и друзья защитились и становится немного грустно) но это скорее что-то иррациональное, из разряда хочу красивую защиту, чтобы все поздравляли (но писать диссер и готовиться не хочу), поэтому всерьез желания возвращаться нет.

Насколько сильно отличаются подходы к сбору и анализу данных в областях?

Тут сложно сказать, есть разные аспекты. По моим ощущениям в науке данных меньше, но собирают их более тщательно (стараются), в то время как в бизнесе данных много, собираются они можно сказать автоматически, но в результате качество часто получается ниже среднего. Методы анализа в продуктовой аналитике обычно довольно простые и стандартные: наши любимые z-тесты и t-тесты, но бывают и более сложные и интересные, из недавнего писала про Diff-in-Diff. В науке в этом смысле похоже, многие вещи можно закрыть простыми методами, t-test, ANOVA, логистическая регрессия, но если этого недостаточно, то спектр сложных методов неограничен, их реально очень много.

Формулирует ли кто-то перед экспериментами нулевую и альтернативную гипотезы или как и в науке не сильно запариваются с этим?

В A/B тестировании формулировать гипотезы, как бизнесовые, так и статистические, является золотым стандартом индустрии. Думаю, что у всех компаний со зрелой аналитической культурой это обязательный чекпойнт перед запуском теста.

Какие навыки из научной жизни пригодились тебе в аналитике (кроме кодинга и статистики)?

Думаю самое ценное – это умение понятно доносить информацию, это касается и устных выступлений, и письменных отчетов, потому что в научной карьере это прокачивается очень хорошо.

Пишите в комментариях, если есть еще вопросы на эту тему!

#analytics

2🔥44🎉14❤10👏10👎2

3.02K viewsedited 12:50

Статистика и R в науке и аналитике

🐺Накрутка опыта: да или нет?

Совместно с каналом Dataism решили затронуть эту холиварную тему – накрутку опыта и так называемый "волчизм". У меня тут будут аргументы против, а у Ани аргументы в защиту.
Для начала нужно определиться с терминологией, что именно считать накруткой, например округлить опыт работы с 10-11 месяцев до года на мой взгляд не проблема.

Кроме этого, не считаю сильно зазорным указать наличие опыта A/B тестирования для человека из науки, так как ученые обычно хорошо разбираются в статистике, а подтянуть именно бизнесовую часть вопрос времени, особенно если человек уже с опытом в аналитике.
Здесь будем рассматривать накрутку в ее крайнем проявлении – полностью придуманные компании, должности, годы опыта.

Итак, поехали

Найм уже и так сломан, а приколы с накруткой дополнительно усложняют жизнь всем

Здесь, на мой взгляд, отлично работает теория игр.
В моменте накрутка приносит выгоду отдельному кандидату, но создаёт негативный эффект для всей системы.
Из-за накрутки входные фильтры ужесточаются, придумываются более абсурдные критерии, и в какой-то момент уже обычные честные кандидаты перестают проходить отбор. Получается замкнутый круг: накрутка → ужесточение → ещё больше накрутки.
В итоге страдают все: как нанимающие менеджеры, так и честные соискатели, да и накрутчикам приходится тоже адаптироваться под дальнейшее усложнение отбора.
Плюс еще сейчас AI дополнительно ломает найм с AI-резюме, AI-откликами и AI-отказами, но накрутка от этого не особо спасает.

Накрутка обычно вскрывается на собеседовании или испытательном сроке

Расскажу небольшой кейс. Весной собеседовали кандидата на миддл продуктового аналитика, резюме очень четкое, про себя рассказал тоже круто, я уже подумала, что настолько синьорного кандидата не потянем. Но дальше человек не смог задизайнить простейший A/B тест и написать джойн и GROUP BY. При таком заявленном опыте это выглядело странно и оставило ощущение накрутчика, который просто натренировался хорошо рассказывать про себя.

Но если человек сумел успешно пройти собеседование, испытательный срок и отлично перформит, то у меня нет никаких претензий, если была до этого накрутка.

Рынок аналитики не такой большой (по крайней мере в РФ)

Репутационный урон может быть довольно существенным, недавно вот был интересный случай в одном аналитическом чате: человек похвастался на аудиторию почти двух тысяч участников в накрутке опыта, с целью продать свою экспертизу как ментора. Однако благодаря бдительности одного из участников чата удалось выяснить, что все крутые достижения были несколько преувеличены 🤓
В общем, думаю много кто уже не наймет после такой истории, но я знаю, что такие люди могут под другими именами и с совершенно другим опытом проходить собесы, и тем не менее.

А больше аргументов, почему накрутка это неизбежно можно почитать в канале dataism, пишите, кто был более убедительным 😎

И еще у автора канала есть классный телеграм-бот для подготовки к собесам на позиции дата/продуктовый/bi-аналитик.
Дополнительно можно почитать посты:
- как решать продуктовые кейсы
- диагностика отрицательного роста
- шпаргалка про продуктовые метрики
Подписывайтесь, чтобы не накручивать опыт 💪

#analytics #collab

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤31🔥13👍11👎7🤔3

2.82K viewsedited 06:55

Статистика и R в науке и аналитике

Записываемся на менторство по продуктовой аналитике 💅💅💅

Хочу поделиться: я менторю по продуктовой аналитике и статистике и помогаю:

🟡разобраться с продуктовыми метриками и теорией A/B тестирования,

🟡перестать путаться в p-value, альфе и ошибках первого и второго рода 🤓

🟡подготовиться к собеседованиям на продуктового аналитика (без накрутки опыта 😎),

🟡прокачать т.н. продуктовое мышление.

Раньше я преподавала в основном статистику и анализ данных в R, подробнее с результатами можно ознакомиться здесь (правда давно не обновляла). Сейчас у меня есть несколько успешных кейсов помощи с собесами на продуктового аналитика, так что продолжаю преподавать уже не только статистику.

Формат – индивидуальные консультации, подготовка к собесам, перекат из аналитики данных в продуктовую.

Записаться можно на сайте Хи-хи квадрат – это топовое аналитическое сообщество с проверенными менторами. Там же есть:

– ML-щики,
– DWH-инженеры,
– системные аналитики
– и другие продуктовые аналитики.

А еще основатель сообщества Хи-хи квадрата Вова – любитель аниме и вообще крутой чувак

Заглядывайте на сайт, выбирайте ментора по душе 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤28🔥22👏6👎4

2.56K views13:10

Статистика и R в науке и аналитике

Итоги года 🌲🌲🌲

Настало и у меня время подвести итоги года, что удалось сделать, а что нет.

📚 Отметила первый год работы в Литрес продуктовым аналитиком, пока полет нормальный, много чего крутого успели сделать и есть еще немало идей по дальнейшему развитию аналитических проектов.

✍️ Написала тот самый разбор курса на степике "Основы статистики" (между прочим лидер по числу просмотров за год).

👍 Сгоняла на конференции aha и матемаркетинг, пообщалась с приятными людьми, набралась идей и мерча 😁

✨ Посетила биоинформатический хакатон в Алматы от Института Биоинформатики в качестве жюри.

✨Еще совместно с Институтом Биоинформатики прочитала лекцию о мифах в визуализации данных.

🖥 Прочитала на базе Бластим про то, нужна ли нормальность распределения для t-теста и о ошибках в статистике.

📺 Провели пару стримов с Юрой про жизнь в аналитике после науки и с Ромой аналитический антисобес.

Но не все получилось сделать из запланированного, а именно:

Собиралась больше выпускать образовательного контента, продолжить тему с лекциями на степике и ютубе, но к сожалению совсем не хватило на это времени. Также выпустила чуть меньше хардовых материалов по статистике, чем планировала. В этом году лекции не обещаю, но надеюсь лонгридов по статистике станет больше (а пока можно почитать недавний материал про diff-in-diff).

Желаю всем в новом году, чтобы ~~SQL-~~запросы выполнялись, мощности хватало, а также чтобы данные всегда были качественными и полными! На новогодних праздниках отдохните, наберитесь сил, это самое главное.

Оставайтесь на связи, после нового года запланировано кое-что интересное в честь роста канала 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

3🎉40❤13👍10🔥5✍2👎1

1.31K views10:10

About

Blog

Apps

Platform