What does data mean?
194 subscribers
7 photos
2 files
84 links
Поток ссылок про аналитику
Download Telegram
Forwarded from Канал Алексея Куличевского (Alexey Kulichevskiy)
Николай спрашивает:

> Как развивать в себе умение генерировать какие-то гипотезы, когда смотришь на данные. Все очевидные, типа сколько заказов у нас из города N быстро заканчиваются, да и ценность их не всегда велика. Базовые все проработали, а что дальше? Особенно когда нет каких-то видимых проблем?

Предположу, что называется это аналитическое мышление. И конечно есть курсы, лекции и все такое. Но курсы во-первых часто про общие какие-то вещи, а во-вторых не сильно много времени чтобы их проходить. Если уточнить вопрос, как развивать это умения находясь в рабочем потоке?


Ой я знаю! Никак!
С помощью данных гипотезы надо не генерить, а проверять.

Есть такой миф о работе с данными, типа существуют такие супер-умные датасаентисты, которые умеют смотреть в матрицу данные, применять хитрые матметоды, доставать скрытые закономерности, и волшебным образом делать так, чтобы расходы снижались, а продажи росли.

На самом деле все происходит не так. Конечно, бывает, что случайно замечаешь аномалию в данных, раскапываешь ее и находишь суперское решение. Но это как в лотерею выиграть.

Гораздо надежнее сначала думать о бизнесе и все гипотезы генерить на основе здравого смысла.

Специально в честь такого замечательного вопроса достал старую заметку из уже закрытого курса: https://smysl.io/blog/figure-out/
Forwarded from Автостопом по аналитике
Выгрузила в ноушн мысли по составлению дерева метрик.

В основном - для продуктовых аналитиков Додо, чтобы валидировать их понимание иерархической реальности.

Но в целом, если вы только начали думать в сторону иерархии метрик в своём продукте, то вам тоже зайдёт.
Конспект лекции "Что должен знать о финансах каждый product-менеджер и аналитик?" с открытого трека Матемаркетинга:
https://messy-caption-8ff.notion.site/product-4a641832018240558a7ceab4a9a5e97b
Forwarded from Борис опять
# Серия постов: Минимальные знания Software Engineering для Data Scientist

Минимальный список необходимых тем по инженерии для DS. Со ссылками и упражнениями для закрепления. Расчитан на месяц очень неспешного изучения.
0. Введение и зачем это может быть нужно
1. Часть 1
2. Часть 2
3. Часть 3
Forwarded from Chief Philosophy Officer
Забавно, но становление функции исследований в отдельно взятой компании проходит те же этапы, что проходила наука на протяжении последних столетий:

Догматизм средневековья - отцы-основатели компании все знают, они нас и ведут в светлое будущее
Ранний позитивизм Конта - Соберем побольше всяких разных данных в одну большую базу и сразу как все поймем и про рынок, и про пользователей.
Фальсификационизм Поппера - просто собирать все подряд данные в мешок мало, нужно еще проверять. Все покроем АБ-тестами!
Постпозитивизм Куна - А почему мы именно так формулируем свои гипотезы. А именно так формулируя, например, кто наша ЦА, мы случайно не предопределяем факты о ней, которые можем найти?
Релятивизм Блура - кстати, а что такое "факт", нам нужны именно такие "факты"?
Не пропускаем понедельник, товарищи-статистики!

Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.

Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.

Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических до прое "забыли".

В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!

Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.

Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
Завтра рассказываю про боли выбора абшницы при ограниченных ресурсах