Дневник Стьюдента

Channel created

04:59

Цель канала

- раз в неделю делиться полезной информацией про аналитику и IT

Мой личный топ постов
- Вся теория по А/Б экспериментам
- MECE или как строить деревья метрик
- Как я делаю исследования
- Рынок аналитиков в РФ
- Выступления аналитиков

Про автора
Меня зовут Илья. Уже больше 4-х лет я работаю аналитиком.
За это время успел получить опыт:
⁃ бизнес-аналитиком в Тинькофф
⁃ дата аналитиком в Lamoda
⁃ продуктовым аналитиком в Самокате
⁃ продуктовым аналитиком в inDrive (сейчас тут)

Почему у канала такое название можно узнать в этом посте

По любым вопросам
@elais_loladze

❤5👍2

1.02K viewsedited 15:40

Дневник Стьюдента

Самые распространенные базы данных

На картинке представлен топ популярных СУБД по всему миру на сентябрь 2023. Базы данных можно классифицировать по разным признакам: по типу хранени данных, по способу доступа к ним, по языку запросов (sql / no sql), по используемой модели данных и так далее.

Ниже на примере этих признаков и других особенностей описаны несколько наиболее известных СУБД:

1. Oracle
Первая коммерчески успешная (объектно-) реляционная СУБД. На своем официальном сайте к основным преимуществам Oracle выделяет: защиту от утечки данных, развертывание БД в любом месте и горизонтальную масштабируемость. С другой стороны, СУБД требует производительного железа, а само ПО может стоить более миллиона рублей.

2. MongoDB
Документированная NoSQL СУБД, для написания запросов к которой используется язык программирования JavaScript. Данные в MongoDB хранятся в JSON-подобном формате. В отличие от Oracle имеет открытый исходный код и бесплатна. Особенно популярна в веб-программировании и для случаев, когда данные не сильно связаны или слабо структурированы.

3. Elasticsearch
Еще одна NoSQL база, которая работает с JSON-подобными форматами данных. Имеет возможность быстрого полнотекстового поиска, выдерживающего высокие нагрузки. Например, в альфа-банке Elasticsearch используется для поиска по транзакциям в личном кабинете, а в github - для поиска среди миллионов репозиториев всего сервиса в онлайн-режиме.

4. SQLite
СУБД с открытым исходным кодом, являющаяся библиотекой, легко скачиваемой и встраиваемой локально в программу. Главные преимущества - простота и удобство. С другой стороны, имеет ряд ограничений по размеру БД, кол-ву столбцов, таблиц в join и другим параметрам. Примеры использования: 1С Предприятие, Safari, Skype, Viber.

🔥4👍3❤2

1.04K views19:21

Дневник Стьюдента

Дневник Стьюдента pinned «Цель канала - раз в неделю делиться полезной информацией про аналитику и IT Мой личный топ постов - Вся теория по А/Б экспериментам - MECE или как строить деревья метрик - Как я делаю исследования - Рынок аналитиков в РФ - Выступления аналитиков Про…»

11:27

Дневник Стьюдента

Работаем с датафреймом на языке SQL

Иногда бывает проще написать запрос на SQL, чем использовать встроенные функции из pandas. Для этого можно использовать библиотеку pandasql.

В свое время она спасала меня на стажировке в Тинькофф, когда я еще плохо разбирался в методах датафрейма, но уже неплохо знал SQL :)

Из недостатков pandasql отмечу, что при увеличении объема данных запросы начинают отрабатывать все медленнее в сравнении с методами датафрейма.

На скрине я показал пример выполнения идентичных операций через pandasql и через методы pandas.

🔥5🤝1

901 views11:31

Дневник Стьюдента

Почему так важно регулярно собеседоваться?
Даже если вы не в поиске работы.

Когда я наконец устроился аналитиком в компанию, где меня устраивало буквально все от красивого офиса до корпоративного такси - это сыграло со мной злую шутку.

Мысль пособеседоваться где-нибудь даже спустя год работы вызывала ощущение, что я неблагодарный предатель. Добавьте к этому еще вездесущий синдром самозванца.

Так я и не решался на собеседование почти 2 года до тех пор, пока терпеть некоторые моменты уже стало невозможно. А понимание рынка зарплат, опыт решения задачек онлайн и навыки самопрезентации были минимальными.

Если бы я начал частенько ходить на собесы задолго до необходимости сменить компанию, то «настоящие» собеседования мне бы дались намного легче и результат был бы лучше.

Сейчас я стараюсь собеседоваться ~ раз в месяц, чтобы быть в курсе актуальных вилок и требований, практиковать решение задачек и кейсов в небольшом стрессе [во время звонка] и делать работу над ошибками, если в чем-то со своей стороны я замечаю недочёты.

А как вы считаете:
достаточно собеситься только при цели сменить компанию или важно держать себя в тонусе ?

🔥15🆒3👍2💯1

825 views12:23

Дневник Стьюдента

Насмотренность - неочевидный и важный навык

Пару раз я пробовал перечислить все ключевые навыки аналитика, чтобы оценить свой уровень по каждому из них. В последний раз у меня получился такой список:

технические
1. SQL
2. Python
3. Excel
4. А/Б тестирование
5. BI
6. Теория вероятности и математическая статистика
7. Дата-инженерия (airflow, linux, git, бд/субд)
8. Основные модели в ML

общие
1. Навыки коммуникации
2. Метрики, юнит-экономика
3. Генерация гипотез
4. Базовые управленческие навыки (добивать/планировать/приоритизировать/делегировать задачи, вести крупные проекты)

Но недавно к списку общих я решил выделить отдельно нассмотренность. Под насмотренностью я понимаю знание кейсов или опыт применения аналитики в реальных боевых задачах. Хорошая насмотренность помогает лучше придумывать способы решения новых рабочих задач, так как вы уже можете вспомнить аналогичные им и то, как они выполнялись.

С увеличением опыта работы растет и насмотренность, но еще ее можно развивать чтением статей и посещением конференций, где другие аналитики делятся своими успешными и неудачными кейсами.

Как раз одна из таких конференций будет проходить онлайн 12 декабря в 18:00 по мск, где я буду выступать вместе с другими аналитиками из Яндекса и Авито. Подробнее можно почитать по ссылке.

avitotech.timepad.ru

Avito Analytics meetup #11 / События на TimePad.ru

Одиннадцатый онлайн-митап для продуктовых аналитиков пройдёт 12 декабря в 18:00. Поговорим про продуктовые кейсы: как анализировать пользовательский негатив в Авито, как строить метрики качества данных в Яндекс.Картах, и о том, как с помощью эксперимента…

🔥9⚡3❤3

862 viewsedited 11:22

Дневник Стьюдента

Про Стьюдента

Многие аналитики хорошо знакомы с распределением и t-критерием Стьюдента, которые названы в честь британского ученого-статистика, настоящее имя которого - Уильям Сили Госсет.

Уильям работал в пивоваренной компании Guinness под руководством Карла Пирсона. Он помогал выбирать самые урожайные сорта ячменя и улучшать процесс варки пива.

Госсет и другие сотрудники Guinness’а также выкладывали научные публикации в разные журналы. В одном из таких исследований оказались данные, которые составляли коммерческую тайну. После этого компания запретила публиковать любые внутренние материалы своим сотрудникам.

По этой причине Уильям Госсет продолжил публикацию статей уже под псевдонимом «Стьюдент», что в переводе с английского - студент.

Интересно, что одним из первых ценность некоторых работ Стьюдента подметил другой важный ученый-статистик - Рональд Фишер, с которым они стали впоследствии друзьями.

🔥8🌭3❤1✍1

761 viewsedited 12:38

Дневник Стьюдента

🎄

Новогодний пост с подарками

В последнем посте уходящего года я хотел бы сделать вам подарок, поэтому ниже собрал лучшие бесплатные материалы для нескольких ключевых навыков аналитика, о которых мы говорили выше.

1. SQL
С нуля до продвинутого уровня и хорошими задачами с решениями в симуляторе sql от karpov.courses.

2. Python
Для первого знакомства с языком Python и программированием в целом хорошо подойдет курс на stepik. Если же вам больше нравится «университетский» формат, то советую посмотреть легендарный курс от МФТИ.

3. Математическая статистика
Один из самых популярных курсов по статистике на русском языке - конечно, «Основы статистики» на stepik.

4. Метрики
Хорошая серия статей от GoPractice по метрикам и подходам в продуктовой аналитике по ссылке.

5. A/B-эксперименты
Если вы хотите прочувствовать метод Монте-Карло или проще говоря - бутстрапа, то очень советую курс от Глеба Михайлова по ссылочке. Для лучшего усвоения рекомендую параллельно писать код за автором.

С наступающим!

🎁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4☃3🔥2🍾1

957 viewsedited 11:09

Дневник Стьюдента

Особое внимание к новичкам

Одна из важных (и наверное самой ценной) частей работы продуктового аналитика — это поиск точек роста.

Это может быть как улучшение какого-то процесса — например, изменили логику выдачи рекомендаций товаров на главной странице, учитывая предыдущие покупки пользователя.
А может быть нахождение слабых мест, которые ранее не подмечали — в ходе исследования выяснили, что прогноз вакансий курьеров часто завышает то кол-во сотрудников, которое на самом деле нужно нанять.

Большой блок для поиска таких точек роста — это новые пользователи.

И если раньше я на это смотрел как на банальную скидку или промокод при первом заказе, то с повышением насмотренности увидел много других кейсов того, как можно улучшить онбординг / первый опыт / начальный период новеньких.

Давайте приведу несколько примеров из Самоката (сервиса экспресс-доставки продуктов):

- Первые несколько заказов новые пользователи могут совершать с минимальной суммой заказа (допустим, если для всех стоит заказ от 700 р, то у них может быть от 300 р)
- При доставке заказов в приоритете у курьеров новые пользователи. К ним важнее не опоздать, так как это их первый опыт
- При выводе курьеров на рабочие смены в приоритете - новые курьеры. Новички в случае нехватки часов более «чувствительны» к смене места работы

Поделитесь в комментариях, какие еще интересные улучшения в онбординге вы знаете

😊

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🌭2⚡1💯1

753 viewsedited 07:23

Дневник Стьюдента

Bootstrap (бутстрэп)

— универсальный метод для тестирования гипотез и построения доверительных интервалов.

Как написали в одной из статей аналитики Авито:

Если вы не знаете, что использовать — используйте бутстрап

Алгоритм довольно простой. Предположим, у нас есть какая-то выборка:

1) Берем из нее N рандомных элементов. Элементы могут повторяться
2) В подвыборке из шага 1 считаем статистику (среднее / медиану / стандартное отклонение / …)
3) Сохраняем полученное значение
4) Повторяем шаги 1-3 много раз. Получаем распределение статистик
5) На основе этого распределения строим доверительный интервал

Если хотим сравнивать 2 выборки, то делаем то же самое, только извлекаем подвыборки отдельно для каждого сэмпла, а в шаге 3 сохраняем разницу статистик этих подвыборок. Когда доверительный интервал включает ноль — статистически значимых отличий нет, когда не включает — есть 🎉

Прелесть же метода в его простоте и применимости для многих распределений и статистик.

Детальней можно почитать в отличной статье от X5 tech на хабре.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍3👏1

843 views12:25

Дневник Стьюдента

Какой ваш любимый инструмент в статистике для А/Б ?

Anonymous Poll

73 voters751 views12:28

Дневник Стьюдента

Продуктовая аналитика за рубежом

Мне стало интересно, чем позиции продуктового аналитика отличаются в иностранных компаниях как в зарплате, так и в требованиях.

Ниже я выписал несколько особенностей, которые заметил просматривая десятки вакансий из топ компаний в США:

Самую большую зарплату предлагает компания Meta — 185к $ в год, что с учетом прогрессивного налога в 32% и пересчетом на рубли — 930к рублей в месяц на руки.

Чаще всего в вакансиях требуют 2-3 года опыта.

Многие компании добавляют специализацию в название вакансии:
⁃ Human Capital Management Product Analyst
⁃ Product Growth Analyst
⁃ Product Development Analyst
⁃ Product Strategy & Communications Analyst

Степень бакалавра в смежных сферах часто обязательна. Магистратуру нигде не требуют.

Обобщенные требование по хардам. Могут написать, что необходимо знание регрессий, умение тестировать гипотезы, очищать данные, SQL. Но без уточнений, что обязательно Python, Power BI, ClickHouse и так далее.

Во всех вакансиях есть подробная «софтовая» часть требований. Например: находить точки роста, делать карту развития продукта, кросс-функциональное взаимодействие. Вакансии могут включать в себя 5-10 таких пунктов с детальным описанием.

Для анализа я воспользовался популярным сервисом glassdoor.com. Помимо зарплат и вакансий на нем есть множество форумов, где специалисты из разных областей обсуждают волнующие их вопросы в анонимном формате.

По российскому рынку есть похожий аналог— dreamjob.ru. Правда данных там пока сильно меньше, поэтому статистика не такая правдоподобная.

👍8🐳4⚡2🆒1

854 views10:48

Дневник Стьюдента

Аналитические методы сегментации

Нередко при работе с данными возникает необходимость разбить их на какие-то группы.

В этом посте я хотел бы остановиться на «аналитических» методах группировки данных — простых и практичных способах:

1) Группировка исходя из бизнес-контекста

В каждой компании есть набор стандартных параметров и их диапазонов. Например, выделение поставщиков по городам.

2) Группировка по когортам

Разбиение пользователей по дате совершения первого целевого действия. Например, группировка пользователей по месяцу, когда они скачали приложение.

3) RFM-анализ

Метод сегментации пользователей по 3-м признакам:
- R (recency) - когда в последний раз юзер совершил заказ
- F (frequency) - кол-во совершенных заказов за все время
- M (monetary) - потрачено денег за все время

По каждой метрике можно выделить 3 диапазона - «худший», «средний» и «лучший». И дальше исследовать полученные сегменты. Утрированный пример для наглядности - предлагать скидку юзерам, которые часто (F) и на большие суммы (M) заказывали, но почему-то давно не совершали заказ (R), чтобы вернуть их обратно.

4) ABC-анализ

Способ сегментации ассортимента товаров для выделения наиболее важных и своевременного пополнения их запасов на складе. Товары разделяются на 3 группы:

- A (наиболее ценные) - 20% товаров, которые приносят 80% выручки
- B (промежуточные) - 30% ассортимента, который приносит 15% продаж
- C (наименее ценные) - 50% ассортимента, который приносит 5% продаж

Конечно, это условное разбиение и кол-во групп может оказаться больше. В ABC и RFM-анализе проскальзывает принцип Парето:

20% усилий приносят 80% результата

Что можно интерпретировать как 20% пользователей приносят 80% выручки (аналогично с ассортиментом) и так далее.

Ставь 🐳, если хочется видеть больше таких постов!

🐳20🔥4👍2👌1

887 views09:43

Дневник Стьюдента

Как я делаю исследования

За последнее время я сделал достаточно много небольших исследований на работе и после очередной итерации у меня сложилась в голове оптимальная схема, по которой я их выполняю.

Этот план помогает мне быстрее завершать исследования, не закапываясь в многочисленные детали.

Шаги следующие:

1. Постановка вопроса
Сформулировать вопрос, который интересует бизнес без технических деталей

2. Методология
Определить, как мы будем отвечать на этот вопрос уже технически: метрики в разрезе групп, графики показателей в динамике и тд. А также какой период и с какими фильтрами будем смотреть.

3. Сбор данных
Пишем SQL-запросы к источнику (-ам) в хранилище данных. Объединяем их в один датасет в Jupyter-ноутбуке

4. Проверка данных на качество
Проверяем получившиеся данные: кол-во строк (в целом и в разрезах), пропуски, типы данных, иногда смотрим распределение чисел в некоторых столбцах

5. Анализ и подведение итогов
После следуем методологии и считаем нужные цифры / делаем визуализацию и даем свой комментарий (переводим аналитику обратно на человеческий язык)

6. Обсуждение итогов
Обсуждаем итоги с коллегами/стейкхолдерами/продакатами и решаем, что делать дальше.
Это очень важно:
⁃ Какое бы ни было крутое исследование, без его «презентации» оно так и останется на просторах Confluence или рабочем ноутбуке
⁃ Важно услышать мнение со стороны как можно быстрее и обсудить дальнейшие шаги. Слишком долгое «откладывание» получения обратной связи может привести к тому, что результаты непонятны / недостоверны / непрактичны /неактуальны

Набираем 25 🔥 реакций и коротко распишу недавнее исследование по этим шагам в комментариях!

🔥48👍4❤1🌭1🏆1

1.2K viewsedited 11:22

Дневник Стьюдента

Пример мини-исследования

Прошлый пост набрал рекордное кол-во реакций за все 3-х месячное существование канала (напопрошайничал), поэтому распишу обещанный пример отдельным постом.

Для начала немного контекста:
Представьте, что вы работаете в e-grocery компании с сотнями магазинов. В этих магазинах есть много разных сотрудников: курьеры, сборщики, директора и тд. Сборщики занимаются тем, что собирают продукты в пакет для каждого заказа, который далее курьеры отвозят до клиентов. Допустим, что когда и сколько сборщиков будет работать решает директор магазина.

1. Постановка вопроса
Продакт приходит к нам и просит понять, насколько эффективно директора выводят на работу сборщиков? Стоит ли нам в будущем взять этот процесс на себя?

2. Методология
Одного идеального способа посчитать это нет, мы решаем посмотреть через логи - какой % времени из своих рабочих смен сборщики занимаются напрямую сборкой заказов или другими словами метрику утилизации. Если утилизация у дарскторов окажется маленькой, то кажется, что директора излишне выводят сборщиков.

3. Сбор данных
Собираем данные из хранилища в формате:
день - название магазина - длина смен сборщиков - время затраченное на сборку заказов - утилизация %, где
утилизация = время на сборку заказов / время всей смены

4. Проверка данных на качество
Смотрим распределения метрик визуально и проверяем, нет ли у нас подозрительно низких или высоких значений. И находятся ли средние в интуитивно адекватных диапазонах

5. Анализ и подведение итогов
Получаем среднюю утилизацию в 40%, что нам кажется слишком маленьким значением. Считаем, сколько мы тратим денег на зарплаты/часов сборщиков впустую, с прикидкой что «в идеале» утилизация должна быть 50-60%.

6. Обсуждение итогов
Сходимся с продактом, что 40% правда маловато. Договариваемся отдельно обсудить итоги анализа с «бизнесом» (стейкхолдерами). Держим предварительно в приоритете задачу по тому, чтобы начать планировать смены сборщиков самим без участия директоров.

p.s. настоящие цифры, детали и нюансы были опущены по очевидным причинам

🔥17👍2🐳2🏆2

955 views07:18

Дневник Стьюдента

3 лучших доклада по аналитике

, которые я посмотрел за последнее время

Ранее мы уже говорили про насмотренность, в этот раз хочу посоветовать несколько интересных на мой взгляд докладов:

1. Ценообразование в Яндекс.Еде, Роман Халкечев
Эволюция аналитики в сервисе яндекс еды за последние несколько лет и ключевые улучшения, которые аналитики делали каждый год

2. Динамический минимальный чек в ультра-быстрой доставке продуктов, Никита Бобух
Никита рассказывает, как они находили баланс между спросом и предложением с помощью динамического чека, а также про оценку и улучшение точности прогнозирования курьеров. Очень емкий и структурный доклад

3. «Вечная» контрольная группа, Александр Купцов и Сергей Максимов
Как в Циане выделяли постоянную контрольную группу, чтобы оценивать суммарный эффект от всех фичей и отличать рост продукта от роста рынка. Рекомендую секцию вопросов тоже не пропускать. Сам рассказ начинается примерно с 01:00:00, в видео есть и другие выступления

Напишите в комментариях, какие доклады или статьи за последнее время понравились вам
и ставьте 🐳, если хочется чаще видеть подобные подборки в канале!

👍9🐳9🔥2🌭1

957 views09:01

About

Blog

Apps

Platform