This is Data
5.72K subscribers
151 photos
172 links
Канал Романа Романчука про аналитику и данные.

Рассказываю про метрики и мат.статистику. Обозреваю ENG и RUS статьи. Советую книги. Делюсь скриптами, ссылками, майндмэпами.

Сайт: https://thisisdata.ru
Задать вопрос: @romanchuk_roman
Download Telegram
Привет, друзья! 👋

После прошлого поста про бизнес-цели мне в личку пришло несколько вопросов и я решил разобрать, как из GMV получается чистая прибыль Net Profit.

Давайте разложим всё по полочкам!

▪️GMV (Gross Merchandise Value) — это общий объем продаж. Представьте, вы продали товаров на 1 млн рублей. Вау! Но это не ваши деньги. Это просто цифра, которая показывает, сколько денег всего «прокрутилось» через ваш бизнес. Сюда входят и себестоимость, и доставка, и возвраты. Так что не спешите праздновать.

▪️Revenue (выручка) — эта метрика уже ближе к делу. Это деньги, которые компания получила за свои товары или услуги. Если из GMV вычесть возвраты, скидки, комиссии и прочие «но», получится Revenue. Например, из того же 1 млн рублей выручка может быть 800 тыс. рублей. Уже лучше, но это ещё не прибыль.

▪️Operational Profit (операционная прибыль) — это то, что осталось после всех переменных расходов: сырье, доставка, сдельная зарплата и прочее. Если из Revenue вычесть все эти затраты, получится Operational Profit. Например, из 800 тыс. рублей выручки после всех расходов осталось 200 тыс. рублей. Уже теплее!

▪️EBITDA — это прибыль после вычета фиксированных расходов, но до вычета процентов, налогов, амортизации и износа. Например, из тех же 200 тыс. рублей Operational Profit EBITDA может быть 150 тыс. рублей. Это любимая метрика инвесторов, потому что она показывает, насколько эффективно работает бизнес «в вакууме» и можно сравнивать разные бизнесы между собой.

▪️Net Profit (чистая прибыль) — это то, что осталось после всех расходов, налогов, процентов по кредитам и прочих обязательных платежей. Например, из 150 тыс. рублей EBITDA после всех вычетов может остаться 100 тыс. рублей. Вот это уже ваши деньги!

Итог: GMV → Revenue → Operational Profit → EBITDA → Net Profit.

Ставьте лайк, чтобы я знал, что тема полезная. И делитесь постом с теми, кто думает, что GMV = прибыль. 😉

***
Пост подготовлен совместно с CFOblog, каналом про финансы для нефинансистов.

#разбор_метрик #метрики
Исследование рынка аналитиков 2024: полные результаты

Ребята из NEWHR завершили работу над исследованием, посвящённом рынку аналитиков 2024 года и выпустили результаты в виде лендинга. Получилось действительно круто!

Главные инсайты:

🔹 Зарплаты аналитиков продолжают расти. В 2024 году доходы быстрее росли в российских компаниях, но всё ещё отстают от зарубежных.
🔹 Зарплата — ключевой фактор удержания. В 2024 году её значимость как причины оставаться в компании выросла с 25% до 52%.
🔹 Зарубежные компании теряют привлекательность. Российские аналитики всё чаще ориентируются на локальный рынок, а специалисты из ближнего зарубежья рассматривают оба варианта.
🔹 Интерес к смене работы снижается. Доля аналитиков, лояльных текущему работодателю, выросла с 35% до 46%, но интерес к собеседованиям остаётся стабильным.
🔹 Самый привлекательный работодатель — «Авито». Компания обошла «Яндекс» и «Т-банк», которые немного потеряли популярность в 2024 году.
🔹 Удалёнка доминирует. Полностью офисный формат теряет позиции, а гибрид остаётся наиболее предпочтительным.
🔹 Гендерное равенство? Пока нет. Женщины и мужчины в аналитике представлены равномерно, но женщины реже занимают руководящие позиции и получают меньшие зарплаты.

▶️ Ссылка на лендинг с полными результатами.

#новости
В феврале ProductSense совместно с МТС опубликовал ежегодное исследование продуктового сообщества в рамках конференции PRODUCTSENSE'25. В докладе отражены портрет участников, профиль компаний и, мое любимое, — профессиональное развитие.

Если вы еще не читали доклад, пролистайте его по ссылке выше. Обратите особое внимание на последний раздел, где приведены ссылки на книги, статьи и подкасты для самообразования.

Какие навыки развивать?
В 2025 году большинство сотрудников планируют сконцентрироваться на изучении управления командой, growth management, экономики и аналитики. В топе навыков у сеньоров оказалось развитие управленческих навыков, у CPO — знание экономики продукта, а Head of Product выделяли навыки ведения переговоров.

Интересно, что есть расхождение между навыками, которые респонденты планируют прокачивать, и навыками, которые ценят руководители у сотрудников данного грейда. Поэтому исследователи советуют изучить, какие скиллы наиболее востребованы на вашем этапе карьеры, и развивать именно их.

Кроме грейда, следует учитывать, какие навыки актуальны для компании на текущем этапе развития. Например, если вы планируете работать или уже работаете в крупной корпорации, уделяйте внимание управленческим навыкам и growth management. Если же планируете развиваться в небольшой компании на этапе роста, фокусируйтесь на аналитических навыках и изучайте экономику.

Кстати, что с LLM?
Примерно треть сотрудников, особенно с опытом работы в IT от шести лет, уже делегировали моделям рутинные задачи. А каждый пятый CPO решает сложные задачи с помощью LLM.

#новости #PRODUCTSENSE25
Слышали про подкаст «Это считается»?

Подкаст и одноимённый канал от Т-Банка о буднях продуктовых аналитиков — с шутками, без скучных цифр.

В новом сезоне ещё больше крутых авторов, новые рубрики, статьи, лайфхаки и личные рассуждения.

А ещё я теперь среди авторов! Вот мой первый пост — заходите, комментируйте, подписывайтесь.

https://t.me/eto_schitaetsya/489
Прежде чем искать подвох в данных, стоит понимать работу собственного процессора. Когнитивные искажения — это систематические ошибки в восприятии и мышлении во время обработки информации. Они ведут к ложным суждениям, основывающимся на личных предпочтениях и эмоциях, а не на объективных данных.

Одним из искажений мозга называют предвзятость подтверждения (Confirmation bias). Это склонность замечать доказательства собственной точки зрения и игнорировать данные, которые ей противоречат.

Допустим, дата-аналитик берется за задачу определить, какой канал привлечения клиентов наиболее эффективен. Он считает, что это соцсети. Убеждение искажает изначальную гипотезу в голове аналитика. Неосознанно он ставит задачу доказать, что соцсети эффективнее других каналов.

Дальнейшие действия заведомо необъективны. Он выбирает ключевые метрики, которые могли бы выявить преимущества соцсетей, и собирает исторические данные только за период, когда соцсети были особенно успешны. В итоге компания направляет больше средств в соцсети, не зная реальной рентабельности каждого канала.

Реальность многогранна. Мозг не в состоянии обработать всю информацию о мире. Чтобы не сойти с ума, он научился на основе кусочков данных формировать обобщающие убеждения. Они работают как фильтры, через которые информация попадает (или не попадает) в мозг на обработку. Предвзятость — не бага, а фича, экономящая время и энергию. Но то, что помогает выживать, мешает анализировать данные.

Чтобы быть менее предвзятым, попробуй:

1️⃣ Четко сформулировать вопрос бизнеса, гипотезу и цель сбора данных. Выработай привычки всегда допускать, что твои убеждения повлияли на результат.

2️⃣ Растождествить себя с точкой зрения. Задай себе вопросы: почему я так считаю? Основываюсь ли я на фактах?

3️⃣ Сыграть в игру: если бы я был не прав, какие факты могли указать на это? Ищи доказательства, опровергающие твое убеждение. Можно позвать коллегу-оппонента и выслушать его доводы.

#искажения
Закончился март, и я готов подвести итог прочитанных статей за месяц. В этот раз зацепили истории с полей российской аналитики.

Первая статья от ребят из Циана о наболевшем — дублях. Аналитики всех платформ регулярно ломают головы над избавлением от них, а клиенты (часто те же аналитики, только дома и в тапочках) не могут выбрать квартиру, плутая среди одинаковых объявлений. Автор, ML-инженер Кирилл Сергеев, рассказал о проблемах поиска дубликатов, методах их нахождения и об архитектуре решения компании. Если ты подозреваешь, что однажды будешь реализовывать такое сам, то советую добавить статью в закладки.

Вторая статья от команды Авито Тех связана с релизом на внешний рынок платформы для автоматизации A/B-тестирования и комплексной аналитики Trisigma. Ребята долго разрабатывали ее для себя и теперь решили предложить другим компаниям. Я с большим любопытством изучил опыт коллег, так как в Т-банке у нас есть похожая платформа. Ведь гонять A/B-тесты вручную — значит каждый раз неэффективно тратить время на повторяющиеся действия и нагружать аналитика рутинной работой. Многие крупные компании осознают «бутылочное горлышко» в работе команды, но не все готовы выделять ресурсы на создание своих платформ. Для таких бизнесов Trisigma может оказаться отличным решением.

Завершает топ марта статья об истории A/B-тестирования. Погружение в истоки инструментов всегда позволяло мне взглянуть на привычные вещи по-новому и глубже понять их смысл. Прародитель A/B-тестов — рандомизированное контролируемое исследование — зародился в медицине, а первый знакомый нам вариант теста начали применять (surprise, surprise!) Amazon и Microsoft. Статья небольшая и легко читается — можно пробежаться по ней на обеденном перерыве. Если увлечет, автор обещает продолжение.

А что посоветуете почитать вы?😏

#дайджест
Продолжаем разбирать пирамиду метрик. В прошлых постах я рассказывал про верхний слой — бизнес-метрики, а также отдельно объяснял, как из GMV получается чистая прибыль Net Profit.

Сегодня переходим на следующий уровень — слой маржинальности. Это важный пласт, который отвечает за понимание финансовой устойчивости бизнеса. Здесь уже не просто «сколько через нас прошло денег», а «насколько эффективно работает модель» и «что реально остаётся после всех расходов».

Метрики маржинальности делятся на два типа:

▪️PnL-метрики,
▪️метрики юнит-экономики.

Сегодня подробно остановимся на первом — PnL (Profit & Loss). Да-да, это те самые строки из отчёта о доходах и расходах, которые обычно подготавливают финансисты. И хоть они могут показаться сухими, именно в них отражается реальное состояние бизнеса. Я бы даже сказал, что это ключевые метрики, а всё остальное крутится вокруг них, как стартаперы вокруг инвестора.

Некоторые показатели из PnL пересекаются с верхним уровнем пирамиды. Например, Revenue, Net Profit, EBITDA — они фигурируют и в бизнес слое, и в PnL. Это не ошибка: на бизнес-уровне они нужны для стратегического фокуса, а на уровне маржинальности — для более глубокого понимания, что стоит за цифрами.

К посту я прикрепил пример, как может выглядеть PnL-отчёт, и какие статьи в нём обычно бывают.

Также стоит упомянуть про терминологию. В ней часто возникает путаница, особенно при переводе с английского на русский. Например, Revenue и Income иногда используют как синонимы. Это не критично, если внутри вашей команды есть договорённость о терминах. Но если вы готовите отчётность по международным стандартам (IFRS/МСФО), тогда все определения должны строго соответствовать принятым формулировкам.

В следующем посте поговорим о метриках юнит-экономики. А пока — посмотрите на свой PnL свежим взглядом: он может многое рассказать о бизнесе.

#разбор_метрик #метрики
В прошлый четверг случайно наткнулся на онлайн-лекторий Института биоинформатики «Разрушители статистических мифов». Да-да, тот самый институт, где Анатолий Карпов читал легендарный курс по статистике.

Лекция, на которую попал, называлась: «Ненормальное распределение требует ненормальных решений». Говорили о том, откуда взялись проверки на нормальность, какие там есть тонкости и как с этим работать на практике.

Почему нельзя пользоваться простыми алгоритмами для выбора стат.теста? Что же такое p-value, и чем оно не является? Нужно ли всегда проверять данные на нормальность? Эти и другие живые вопросы — в центре обсуждения.

Если вам близка тема статистики — рекомендую. Лекторий бесплатный и онлайн, делюсь ссылкой на прошедшие лекции.
Когда-то родившаяся как курс по математическим методам для студентов-психологов, эта забавная книга легко объясняет основы анализа данных. Если вы умудрились пропустить легенду, то самое время исправить это.

📚 Статистика и котики
Автор: Владимир Савельев

Книга сильно выделяется на фоне любых работ по статистике. Автор пишет просто, честно и весело. Короткие, но содержательные абзацы перемежаются схемами с котиками — все как мы любим, еще и на 153 страницах. Это, как сладкий сироп в составе лекарства, облегчает погружение в суровые основы анализа данных: меры центральной тенденции и изменчивости, визуализацию данных, меры различий для несвязанных и связанных выборок, математическое моделирование, дисперсионный, корреляционный и другие методы анализа. В конце приведены примеры из практики и алгоритмы работы в статистических пакетах.

Чего нет в книге — это формул и математических выкладок. Автор намеренно опустил всю теорию, чтобы больше читателей смогли понять материал. Поэтому хардкорным дата-аналитикам лучше поискать курс по статистике и теории вероятности, обращаясь к «Котикам» как к удобному конспекту.

🔗 Книга продается везде, например на OZON.

На днях на том же OZON увидел, что Владимир выпустил новую книгу «Бизнес, статистика и котики». Там он не только объясняет статистические методы, но и показывает, где и как применять их на примерах на языке R. Если вы читали первую книгу, то вот еще одна на выходные.

#книга
Этот шаг спасет твою аналитику (и карьеру)

Классический кейс. К аналитику прибегает продакт с горящими глазами: «Срочно нужно посчитать метрики, отчет нужен вчера, босс ждет!». Аналитик лезет в сырые данные, быстро собирает дашборд… и всё. Ни тебе проверки распределений, ни поиска выбросов, ни визуализации. Продакт на следующий день презентует эти цифры как истину в последней инстанции. А потом на них строятся бизнесовые решения…

Так делать нельзя. Никогда.

Исследовательский анализ данных (EDA — Exploratory Data Analysis) — это первый и обязательный шаг перед тем, как ты начнёшь считать метрики, строить модели или делать выводы. Он помогает понять, с чем ты на самом деле работаешь, выявить ошибки и аномалии, а самое главное, не попасть в ловушку красивых, но ложных цифр.

Особенно критично это в машинном обучении. Когда ты обучаешь модель на плохих данных, хороший результат невозможен в принципе. В этом смысле работает железное правило: garbage in — garbage out.

Что входит в EDA?

✔️ Осмотр данных. Сколько строк? Какие типы колонок? Что выглядит странно? Уже на этом этапе можно поймать очевидные ошибки. Используй .info(), .describe(), загляни в начало и конец таблицы, проверь типы.

✔️ Пропуски и дубликаты. Пропуски не всегда нужно удалять — иногда лучше заполнить их медианой, модой или предсказанными значениями. А дубликаты — это не только точные копии строк. Часто бывают неявные: например, у одного пользователя два одинаковых заказа с разными ID.

✔️ Очистка и предобработка. Проверка категориальных значений, работа с форматами, единообразие записи. Например, если у тебя в колонке есть и «Санкт-Петербург» и «СПБ» и «Питер», то без нормализации это три разных значения. А если даты хранятся как строки — ты не сможешь нормально их анализировать.

✔️ Выбросы и аномалии. Просто посчитать среднее недостаточно. Построй распределение, используй boxplot. Эти графики мгновенно покажут, где данные выбиваются за границы нормы. И не забывай: один выброс может испортить тебе весь анализ.

✔️ Визуализация. Даже простой scatter plot может рассказать тебе гораздо больше, чем набор агрегатов. Иногда взаимосвязь между переменными становится очевидной только когда ты её увидишь, а не посчитаешь.

EDA — это не про «поковыряться в данных». Это про понять, что ты анализируешь, и быть уверенным в своих выводах. Это защита от ошибок, которые ты даже не успел заметить.

В следующих постах я постепенно разберу каждый из этапов подробнее. А также поделюсь универсальным ноутбуком для проведения EDA. Так что добавляй в закладки 😉

#eda
Недавно услышал здравую мысль: вместо того, чтобы листать рилсы, лучше читать книгу. Хоть идея и простая, следовать ей непросто. У меня получается через раз, но за эти разы я прочитал крутые книги. Из них я выбрал варианты на праздники для тех, кто тоже решит менять привычки.

Буду рад, если порекомендуете ваши книги-фавориты в комментах 😊

📚 Джедайские техники. Как воспитать свою обезьяну / Максим Дорофеев
Это книга даст направление, куда бежать, когда мы выгорели и потеряли мотивацию. Максим не изобретает техники управления задачами, а скорее собирает исследования о продуктивности и работе мозга воедино. Он объясняет, почему мы откладываем дела и куда девается энергия. Автор не насаждает методики, а предлагает экспериментировать с ними и адаптировать под себя.

Максим знает все о прокрастинации в IT. Он погружен в разработку ПО уже 15 лет и с 2013 года ведет тренинги о продуктивности.
🔗 Книга есть на Ozon.

📚 Ясно, понятно. Как доносить мысли и убеждать людей с помощью слов / Максим Ильяхов
Помните оранжевый томик «Пиши, сокращай» в книжных? Так вот это продолжение. Оно не про текст и правильные слова, а про коммуникацию и донесение мыслей. После прочтения ты понимаешь, как работает пропаганда и масс-медиа, почему все заснули во время твоей презентации и как объяснить, наконец, бабушке, кем ты работаешь.

Максим Ильяхов — редактор и преподаватель редактуры. Он умеет увлечь читателя, даже самого далекого от текстов.
🔗 Книга на Литрес.

📚 Вдохновленные. Все, что нужно знать продакт-менеджеру / Марти Каган
Автор, эксперт в мире продуктового менеджмента, создал практическое руководство по созданию успешных продуктов. Его главный посыл в том, что команды должны сфокусироваться на потребностях пользователей. Лучшие продукты рождаются не из «идей сверху», а из постоянных экспериментов и тесной связи с пользователем.

После прочтения я стал постоянно спрашивать себя: «А эта фича точно нужна людям?» Такой вопрос помогает чистить бэклог от неактуальных идей.
🔗 Книга на Литрес.

#книга
Итак, подъехали итоги апрельских статей.

Открывает список материал от Егора Стремоусова, тимлида продуктовых дизайнеров в Т-Банке. Он рассказал об управлении проектами и оптимизации времени выполнения задач. Пусть тематика дизайна вас не смущает. Статья в первую очередь освещает организацию работы по методу Канбан и важнейшие метрики процесса. Ключевая из них — Lead Time. Это время выполнения задачи от точки принятия обязательств до их исполнения. Материал будет полезен любому тимлиду, у которого в управлении есть хотя бы 2 человека.

Во второй статье мы углубимся в А/Б-тестирование. Аналитики данных из Х5 Tech сравнили байесовский и частотный подходы и проверили миф о том, что байесовский подход лучше. Спойлер — не лучше. Например, ранняя остановка теста приводит к одинаковым результатам и в байесовском, и в частотном подходах. Для аргументации ребята предоставили графики и вычисления на Python. Материал сложный, но чем чаще пытаешься разобраться в таких темах, тем легче. Проверено.

Последняя статья-эссе о LLM. Нa Medium, кажется, только ленивый не написал про ИИ. Но пост от Dave Feldman об ИИ для продактов меня тронул. Дело в том, что я активный пользователь ИИ-чатов. Поэтому у меня сложилось обманчивое ощущение, что все давно делают так же. Но нет. Оказалось, что многие мои знакомые открывают чаты крайне редко, а кто-то и вовсе яро отвергает их. Так что я решил поделиться мнением, которое близко мне. ИИ-чаты — изобретение революционное и крайне дружелюбное для новичков. Оно помогает оптимизировать большое количество рутины и быстрее погружаться в сложные области. В статье автор, будучи продактом, простым языком объясняет их устройство, применение и недостатки. По ходу прочтения зверь становится понятным и от этого нестрашным. Так или иначе, никто не может принудить вас использовать ИИ-чаты. Я только предлагаю дать им шанс послужить вам во благо.

Ребят, я ухожу в отпуск до середины мая. Удачных праздников и поменьше стресса!

#дайджест
Как выжить после отпуска?

Ты выходишь на работу после отпуска — а там полный 🤬
Чаты горят, почта завалена, задач столько, как будто всё это время офис ждал именно тебя.
От всего тошнит, руки не слушаются, мозг кричит: «БЕГИ ОТСЮДА!».

Но ты не бежишь. Потому что ипотека. Потому что семья. Потому что кот, который жрёт дорогой корм.
Потому что тебе уже не 22, а мечты вроде бы есть, но реализация где-то там, на горизонте.
Короче, грустный реализм. Надо собраться и делать.

Но как быть, чтобы не снесло крышу?

✔️ Не геройствуй
Ты не обязан в первый же день после отпуска спасать бизнес.
Возьми простую, небольшую задачу и сделай её. Потом ещё одну. Тогда может быть, появится ощущение контроля.
Не надо бросаться в огонь сразу. Это не кино.

✔️ Признай, что тебе тяжело
И это нормально. Твоя психика только что жила в режиме «лежу, пью чай, смотрю закаты».
А теперь: open space, встречи, задачи, срочность, движ. Это стресс.
Просто перетерпи. Через пару дней станет легче.

✔️ Не перерабатывай
Работа допоздна — не подвиг, а короткий путь к выгоранию.
Если ты не успел за 8 часов — вряд ли успеешь за 9 или 10.
Значит, где-то перегруз: процессы не работают, задач много, встреч ещё больше.
В этом нет твоей вины, но есть место для рефлексии.

✔️ Помни, на что уходит твой ресурс
Работа не управляет твоей жизнью. Это ты выбираешь, куда отдаёшь своё внимание.
В первую очередь — позаботься о себе, а уже потом о входящих задачах.

Как вы уже поняли — я вернулся из отпуска 😅
Разгребаю завалы, снова пишу и включаюсь в рабочий ритм. Постепенно, без перегибов.

А у вас как обычно проходят первые дни после отпуска или длинных выходных?
Какие приёмы помогают прийти в себя?

#мысли
Продолжаем препарировать пирамиду метрик. В прошлый раз речь шла про слой маржинальности — в том числе про PnL-метрики, на которые обычно смотрят самые серьёзные ребята в компании: инвесторы, фаундеры, CEO и CFO. Но слой маржинальности на этом не заканчивается — рядом с PnL живут метрики юнит-экономики, и сегодня о них.

Юнит-экономика помогает понять, насколько жизнеспособна ваша бизнес-модель на уровне одного юнита — клиента, заказа или товара. Это система координат, по которой вы сверяете, можно ли масштабировать бизнес и не утонуть в расходах.

Вот ключевые метрики:

▪️ ARPU (Average Revenue Per User) — средняя выручка с одного пользователя. Считается по всей базе, включая тех, кто ни разу не заплатил. Полезно для оценки общей монетизации.

▪️ARPPU (Average Revenue Per Paying User) — средняя выручка с тех, кто реально платит. Позволяет понять, сколько зарабатываете на тех, кто уже сконвертировался.

▪️CAC (Customer Acquisition Cost) — стоимость привлечения одного нового клиента. Включает маркетинг, рекламу и другие расходы на привлечение.

▪️LTV (Lifetime Value) — суммарная прибыль, которую вы ожидаете получить от одного клиента за всё время его жизни с продуктом.

▪️LTV / CAC Ratio — ключевой показатель окупаемости модели.

Если LTV/CAC < 1, можно выключать рекламу — вы сжигаете деньги.

Если = 1, вы просто окупаете маркетинг, но не покрываете зарплаты, ПО, офис и прочие расходы — то есть работаете в минус.

Только при LTV/CAC > 3 можно говорить, что модель работает устойчиво.


При этом важно понимать: LTV может быть ниже CAC, если вы, например, намеренно завоёвываете рынок, растёте в убыток под инвестиции или у вас такая стратегия. Главное — чтобы это было осознанно, а не «так получилось».

Юнит-экономика важна не только стартапам, как многие думают. Она критична для любых бизнесов, где есть клиенты и платный маркетинг. Потому что именно на этом уровне становится понятно, не слишком ли дорого вам обходится каждый следующий пользователь, и будет ли масштаб приносить прибыль или убытки.

Так что, если PnL — это общий снимок по компании, то юнит-экономика — это тот самый фундамент, на котором всё держится.

#разбор_метрик #метрики
Конференции — нужны ли они?

80% контента на конференциях — это, уж простите, вода. Красивые слайды, громкие слова и кейсы, которых спикер в жизни не делал. Главное — произвести впечатление, а не поделиться опытом. Вот и получается: ты пришёл за мясом, а получил соевый заменитель.

Я был на десятках конф и чаще всего уходил с ощущением: «ну ок». Много слов, мало сути. Маркетинг поверх контента.

Но не всегда так. Бывают и бриллианты — когда человек, который реально что-то делал, проваливался, вытаскивал, и не боится об этом говорить. Такие выступления — как глоток воды в пустыне. Жаль, редко.

Самое ценное, что я слышал было не на внешней сцене, а на внутренних митапах в компаниях. Конференции для своих. Вот где мясо. Люди в контексте, без маркетинга, без желания «продать себя». Честно рассказывают, как было. И да — выносить это во внешку нельзя, слишком откровенно.

А зачем тогда ходить? Сейчас для меня конференции — это про людей. Перекинуться словом с теми, кого уважаешь. Найти нормальных ребят в команду. Обсудить рабочие боли.

Ради контента — не хожу. А вот свою команду — отправляю. Для них это часто полезно: посмотреть, что есть за пределами команды, набрать идей, получить заряд. И как формат поощрения — тоже норм.

А как вы относитесь к конференциям?

#мысли
Ждали майские статьи? Так они уже в ленте. Сегодня разбираемся с базами данных, изучаем очередное применение LLM и анализируем аргументы в пользу data-driven.

Начнем с баз. Вы задавались вопросом, нафига столько разных хранилищ? Как будто хватит и одной многофункциональной, чтобы хранить данные и обращаться к ним (на рынке такие есть). Давно хотелось найти источник, который бы дал классификацию баз и подсказал, какую следует использовать в конкретном случае. И недавно мне попалась такая статья на Medium (VPN) от дата-инженера Кая Перри-Джонса. Он выделил девять типов баз данных, дал основную характеристику каждого типа, привел примеры продуктов и высказал мнение, для каких задач они подходят. Но несмотря на обилие вариантов, универсальным хранилищем остается PostgreSQL.

Вторая статья пришла из Хабра. Виталий Кулиев, Data Science Tech Lead из Wildberries & Russ, поделился интересным вариантом матчинга товаров с помощью больших языковых (LLM) и визуально-языковых (VLM) моделей. Матчинг — это поиск идентичных товаров. Благодаря ему пользователи маркетплейсов не утонули в сотнях дубликатах от разных продавцов. Команда внедрила LLM на этапах извлечения и сравнения атрибутов и подключила VLM к матчингу по изображениям. В результате увеличилась точность распознавания товаров до 92–96%, а количество примеров для подбора промта снизилось до сотни в разметке.

Завершает список статья-эссе на тему, почему важно внедрять data-driven подход при построении бизнеса, от руководителя направления в KION Алексея Жирякова, евангелиста data-driven. С его точки зрения, это не просто тренд, а способ делать бизнес эффективнее благодаря точному прогнозированию, оптимизации процессов и пониманию потребностей клиентов. Алексей рассказывает, как устроен data-driven подход в KION, где все продуктовые фичи идут в прод только через A/B-эксперименты, и приводит примеры из практики Netflix, Starbucks и отечественного финтеха. Читать интересно, аргументы убедительные.

#дайджест
С чего начинается хорошая аналитика?

В прошлом посте я рассказывал, почему без EDA нельзя делать ни аналитику, ни машинное обучение. Даже если продакт стоит над душой и требует цифры «ещё вчера». Теперь давай разберём первый и самый недооценённый шаг в исследовательском анализе: осмотр данных.

Представь, что ты лезешь в базу и... сразу пишешь groupby() или строишь график? Это ловушка. Начинать нужно не с расчётов, а с банального знакомства с тем, что у тебя вообще в руках. Осмотр данных — это как включить свет в темной комнате. Сразу видно, где пыльно, а где стоит тумбочка, об которую легко споткнуться.

Первым делом смотри на объем данных: df.shape покажет, сколько строк и колонок. Иногда там вообще пара десятков строк — и это уже повод позвать дата-инженера.
Дальше — названия колонок. Через df.columns можно заметить лишние пробелы, странные символы, дубли названий. Здесь же удобно сразу стандартизировать названия: убрать русские слова и привести к единому стилю ("snake_case" ван лав). Такие вещи не бросаются в глаза, но потом ломают пайплайн.

Теперь — в бой идет df.info(). Это твой лучший друг. Он покажет:

▪️какие типы данных у колонок,
▪️сколько ненулевых значений,
▪️сколько памяти жрёт датафрейм.

Обрати внимание: если в колонке написано, что у неё 80 000 непустых значений, а в df.shape[0] у тебя 100 000 — значит, 20% пропусков. Это серьёзно.
Ещё один лайфхак: если колонка выглядит пустой, но info() говорит, что там всё заполнено — проверь, не строки ли там вроде " " или "None". Это визуальные, а не настоящие пропуски. Так что df.replace() тебе в помощь.

Если всё типы данных соответствуют ожиданиям — отлично. Если нет — можно наткнуться на неприятности. Например, object вместо чисел или дат — и ты не сможешь нормально группировать, фильтровать, делить на категории. В таких случаях сразу меняй тип или уточняй источник.

Следом подключай df.describe(). Это быстрый способ понять, как «живут» числовые данные. Сравни среднее и медиану — это может подсветить асимметричное распределение. Проверь минимум и максимум — там часто сидят выбросы или ошибки: отрицательные значения там, где их быть не должно, нули в колонке с деньгами, тысячи категорий у рейтинга от 1 до 5.

Дополнительно пригодится .nunique(): иногда колонка кажется категориальной, а там каждый второй элемент уникален. Это уже почти ID, и скорее всего — не то, что ты хотел анализировать.

И не забывай смотреть глазами. df.head(), df.tail() — быстрый способ поймать неявные проблемы. Например, даты, которые лежат строками. Или списки внутри ячеек. Или дубли с разницей в один символ. В табличке может быть много неожиданного — особенно если её собирали в два этапа, три человека, а выгружал четвёртый.

Осмотр данных — это про внимательность и здравый смысл. Здесь ты ловишь грубые баги, структурные проблемы и мусор, который может незаметно утащить твою аналитику не туда. А ещё — экономишь себе кучу времени, потому что не придется всё переделывать после того, как уже построен отчёт.

В следующем посте поговорим про пропуски и дубликаты. Ставь лайк, если тема интересна.

#eda
Если бездумно обобщить данные из разных групп, то можно наткнуться на парадокс Симпсона или «парадокс объединения». Это ситуация, когда тенденция, наблюдаемая в нескольких группах данных, исчезает или меняется на противоположную при объединении этих групп. В итоге общий результат противоречит результатам в подгруппах из-за разного влияния неучтенных скрытых переменных.

Парадокс был упомянут Карлом Пирсоном в 1899 году и Удни Юлом в 1903 году, но Эдвард Симпсон был первым, кто описал его с точки зрения статистики в 1951 году. Позже математик Колин Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle» увековечил имя статистика, введя термин в обращение. Под постом я прикрепил пару статистических статей для любителей копнуть поглубже.

Загвоздка с парадоксами всегда в том, что никогда не знаешь, где наткнешься на них. Например, посмотрим на статистику выживших при крушении Титаника среди пассажиров третьего класса и членов экипажа. Если анализировать общее количество выживших (верхняя таблица на картинке), то их процент в обеих группах будет около 24%. Кажется, обе категории пассажиров имели одинаковые шансы спастись.

Теперь давайте проанализируем нижнюю таблицу, где учтены пол и возраст людей. Выживаемость членов экипажа была выше как среди мужчин, так и среди женщин и детей. Более того, мы видим соблюдение принципа «Женщины вперед» — женщин и детей в обоих сегментах спаслось больше, чем мужчин.

Возникает кажущееся противоречие. Суммарные данные разных групп показывают, что шансы остаться в живых у экипажа и пассажиров равны. Но учет скрытых переменных, таких как пол и возраст, показывает, что экипажу повезло больше.

Парадокс Симпсона напоминает нам, как важно проводить анализ как объединенных данных, так и отдельных групп. Не стоит делать выводы по выборочным показателям, если на ключевую метрику влияют несколько факторов. Понимание парадокса убережет от неверных выводов, в том числе при A/B-тестировании.

#аномалии