What does data mean?
194 subscribers
7 photos
2 files
84 links
Поток ссылок про аналитику
Download Telegram
Forwarded from Chief Philosophy Officer
Забавно, но становление функции исследований в отдельно взятой компании проходит те же этапы, что проходила наука на протяжении последних столетий:

Догматизм средневековья - отцы-основатели компании все знают, они нас и ведут в светлое будущее
Ранний позитивизм Конта - Соберем побольше всяких разных данных в одну большую базу и сразу как все поймем и про рынок, и про пользователей.
Фальсификационизм Поппера - просто собирать все подряд данные в мешок мало, нужно еще проверять. Все покроем АБ-тестами!
Постпозитивизм Куна - А почему мы именно так формулируем свои гипотезы. А именно так формулируя, например, кто наша ЦА, мы случайно не предопределяем факты о ней, которые можем найти?
Релятивизм Блура - кстати, а что такое "факт", нам нужны именно такие "факты"?
Не пропускаем понедельник, товарищи-статистики!

Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.

Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.

Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических до прое "забыли".

В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!

Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.

Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
Завтра рассказываю про боли выбора абшницы при ограниченных ресурсах
Forwarded from m2_tech
Доклад Евы на Aha! Conf 2025 🐇

Совсем недавно знакомили вас с Евой Панкратовой, а сегодня анонсируем её выступление на Aha! Conf для data-аналитиков, ML-разработчиков и product-менеджеров.

В докладе Ева расскажет:

— как выбрать и внедрить платформу АБ-тестирования в небольшой компании;
— каковы были наши критерии выбора: требования аналитики и разработки;
— как шёл процесс внедрения платформы;
— как подготовить всех пользователей и не прийти к неверному использованию тестов.

Доклад будет полезен тем компаниям, у которых не огромный штат аналитиков, а А/Б – ещё не пройденный этап развития. Мы прошли этот путь, набили шишки и можем поделиться опытом, который поможет другим коллгегам внедрить платформу с меньшими потерями. 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
Лучший канал из тех, на которые подписалась за последние полгода
Forwarded from Math for Impact
Математика последовательных подходов

TL;DR
Три последовательных критерия — SPRT, GST и mSPRT — используют разную математику. В этом посте — краткий обзор формул, допущений, сильных и слабых сторон каждого критерия.

Почему обсуждается?
Последовательные подходы основаны на разных математических принципах — от мартингальной теории до центральной предельной теоремы. Понимание используемой математики помогает лучше видеть ограничения и преимущества методов, а также адаптировать последовательный анализ под конкретную задачу.

Подход Вальда (SPRT)
Критерий
1. На n-м шаге вычисляем λ(x(n)) = log(p(x(n) | H(1)) / p(x(n) | H(0))).
2. Считаем λ(x(1:n)) = λ(x(1:n-1)) + λ(x(n)).
3. Если λ(x(1:n)) выходит за границы [A, B], останавливаем эксперимент, иначе продолжаем.
Эта процедура завершается выходом за одну из границ. Чтобы выразить вероятности ошибок, используется теорема об остановке мартингала, построенного по λ.

Достоинства
– Останавливает тест и при H(0), и при H(1).
– Минимизирует среднюю длительность эксперимента и при H(0), и при H(1).
– Гарантирует контроль вероятности ошибки без асимптотических допущений.
– Применим к конверсионным метрикам, в том числе к сравнению конверсий двух выборок.

Недостатки
– Требует точного задания распределений при H(0) и H(1).
– При остановке λ почти всегда оказывается около границы, но не на ней, что искажает реальные вероятности ошибок по сравнению с заданными.
– Может завышать длительность эксперимента при «промежуточной» гипотезе между H(0) и H(1).
– Консервативен при поступлении групп наблюдений.

Групповой последовательный анализ (GST)
Критерий
1. Для j-й группы данных вычисляем статистику Z(j) по первым N(j) наблюдениям.
2. Считаем долю t(j) = N(j) / N.
3. Если Z(j) > z(t(j)) → принимаем H(1); иначе — продолжаем.
4. Если дошли до N и не приняли H(1) → принимаем H(0).
Эта процедура останавливается либо выходом за границу, либо принудительной остановкой эксперимента. Чтобы выразить вероятности ошибок, используется многомерная ЦПТ для вектора Z-статистик, соответствующих группам наблюдений.

Достоинства
– Ускоряет проведение теста при H(1).
– Условия применимости как у Z-теста.
– Есть гибкость в настройке границ.
– Поддерживает подачу данных группами.

Недостатки
– Не ускоряет проведение теста при H(0).
– Требует достаточного числа наблюдений для применимости ЦПТ.
– Требует заранее заданного общего объёма выборки N.
– Требует настройки α-spending функции.

mSPRT
Критерий
1. На n-м шаге считаем байесовское отношение правдоподобий O(x(n)).
2. Вычисляем O(x(1:n)) = O(x(1:n-1))·O(x(n)).
3. Если O(x(1:n)) > 1 / α → принимаем H(1); иначе — продолжаем.
4. Если дошли до N и не приняли H(1) → принимаем H(0).
Эта процедура останавливается либо выходом за границу, либо принудительной остановкой эксперимента. Чтобы выразить вероятности ошибок, используется неравенство Вилле для максимума мартингала.

Достоинства
– Ускоряет проведение теста при H(1).
– Статистика критерия и граница считаются по простым формулам.
– Гарантирует контроль вероятности ошибки без асимптотических допущений.

Недостатки
– Не ускоряет проведение теста при H(0).
– Требует точного задания распределения при H(0).
– Основан на неравенстве Дуба, которое даёт консервативную границу и снижает мощность.
– Консервативен при поступлении групп наблюдений.

Что использовать
SPRT
Хорошо подходит для бинарных целевых метрик.

GST
Подходит для целевых метрик, но лучше — для метрик здоровья или проверки SRM.

mSPRT
Хорошо подходит для метрик здоровья или проверки SRM.

Библиография
Основная статья:
Choosing a Sequential Testing Framework — Comparisons and Discussions
Книга:
Tartakovsky A., Nikiforov I., Basseville M. Sequential analysis: Hypothesis Testing and Changepoint Detection. – CRC Press, 2014.
mSPRT:
Lindon M. et al. Anytime-valid Inference in Linear Models and Regression-adjusted Inference //Harvard Business School. – 2024.
Лучшая метрика эффективности команды аналитики.

Весь этот год я придумывала способы повысить импакт команды и улучшить жизнь аналитиков. Неожиданно и приятно, но лучшим оказалось найти хорошую таргетную метрику эффективности и растить её.

Метрика: доля задач, в которых результатом работы аналитика является только выгрузка данных.

Наличие большого количества таких задач сигнализирует сразу о пачке проблем:

- нет нормальной инфраструктуры, менеджерам недоступны данные в удобном виде
- нет инсайтов, аналитик в этом кейсе заменим интерфейсом к бд
- аналитики под риском выгорания, потому что мало кому интересно заниматься однообразными и несложными задачами.

Плюс метрики в том, что работа с ней помогает не зацикливаться на конкретных проектах и заставляет находить решения для всего скоупа возможных проблем. Очевидный минус - моя премия теперь частично зависит от желания продакта снять тревогу очередной выгрузкой.
18🔥8👏7