Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Вчера Юрий Борзило выложил в Фейсбуке пост про доверительные интервалы в работе аналитика. Это хороший пост, так как он поднял проблему использования статистики как инструмента получения достоверных выводов

Максим Годзи из Retentioneering в группе «Python для анализа данных» написал большой пост, где разобрал этот кейс с точки зрения границ применимости, а также значимости этого для бизнеса. Мне кажется получилась хорошая мини-дискуссия, детально разбирающая этот кейс, освещая все подводные камни

Ниже, с разрешения Юрия и Максима, я привожу текст первоначального поста Юрия и ответа Максима. Посты достаточно длинные, поэтому размещаю их на telegraph, но советую прочитать полностью, чтобы понять все причинно-следственные связи, о которых говорят Юрий и Максим

Доверительные интервалы в работе аналитика
Почему я считаю важным разместить этот пост?

Во-первых, он показывает, что в использовании многих инструментов есть границы применимости. То, что можно назвать подводными камнями. И очень важно разбирать публично эти подводные камни, рассказывать о них, объяснять, вступать в продуктивную аргументированную дискуссию

Во-вторых, как будто это оказалось для меня глотком свежего воздуха. Я часто встречаю в интернете другой тип дискуссий: попытку выставить собеседника «дураком», аргументировав это фразой «вы ни в чём не разбираетесь, тогда не пишите ничего». Особенно часто это касается областей, в которых прослеживается «наукоёмкость» и «систематичность», то есть областей где много математического или инженерного фундамента. К такой отрасли относится и аналитика данных. Мне кажется это катастрофически снижает культуру дискуссий, ограничивает развитие отрасли и бьёт по самоценке людей, входящих в эту индустрию. Я верю, что открытый диалог, аргументированное объяснение и работа над ошибками в формате взаимопомощи, а не «тыкания носом» — это то, что делает нас всех лучше как сообщество единомышленников

Как мне кажется, такой уровень дискуссии и объяснений — это то, чего крайне не хватает в русскоязычном коммюнити аналитиков за пределами профессиональных конференций. Моя большая мечта — выстраивать такое коммюнити, где эксперты как Юрий и Максим будут активно делиться такими кейсами, повышая уровень экспертизы всего рынка. Ограничивающим фактором тут является то, что такое качество объяснений и глубина мысли требуют очень больших вложений сил и времени

А ещё, пользуясь случаем, хочу анонсировать, что на конференции Матемаркетинг-2021 я буду выступать с докладом «Математика как прикладная область знаний в работе и карьере аналитика», где в том числе попытаемся разобраться как аналитику усилить свою математическую интуицию, лучше понимать подводные камни использования статистических инструментов. Рассчитываю, что этот доклад будет результатом переосмысления коллективного опыта различных экспертов аналитики, поэтому если вам есть что сказать про математику/статистику, задать вопросы мне, Юрию или Максиму — пишите в комментариях
Совершенно оффтопный пост с очень личной просьбой

Была когда-то (а может и есть сейчас) такая компания «Кирилл и Мефодий». Они занимались производством интерактивных энциклопедий на CD/DVD в начале 2000х, когда ещё мало у кого был нормальный интернет. Может быть у кого-то есть контакты того, кто там работал или работает до сих пор. Буду рад, если поделитесь
Forwarded from Этюды для программистов на Python (Дима Федоров)
🔥 Подготовил новый перевод с кейсами: Исследуем отношение между переменными 🐼

1⃣ Мы будем визуализировать отношения с помощью диаграмм рассеяния (scatter plots), диаграмм размаха (box plots) и скрипичных диаграмм (violin plots).

2⃣ И количественно определять отношения, используя корреляцию (correlation) и простую регрессию (simple regression).

Самый важный урок этого блокнота заключается в том, что вы всегда должны визуализировать взаимосвязь между переменными, прежде чем пытаться ее количественно оценить; в противном случае вас могут ввести в заблуждение.

👉 Ссылка на html-версию

👉 Ссылка на Colab

🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
Отличный джоб-тайтл вакансии. Сразу понятно кого ищут
Forwarded from Reveal the Data
Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии.

А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics

🔗 Карточки на Табло Паблик
🔗
Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
Интересно сейчас разные специалисты рассуждают о будущем аналитики, аналитика.
В частности Алексей Свирин написал интересный пост в fb. В мимолетный миг досуга также надумал сформировать свое мнение.
Не вижу проблемы в том, что дата-аналитика как есть сейчас сдохнет. Ну и ладно, такова жизнь.
У себя в голове не могу толком разделить продуктового и дата-аналитиков. Так как продуктовый, конечно, должен уметь работать с данными, а аналитик данных должен обладать продуктовым мышлением, иначе толка от него не будет.
К вариантам, которые предложил Алексей (системный аналитик, продуктолог, программист, дата-инженер) уверенно добавлю обычного продуктового аналитика.
Предыдущий мой руководитель прекрасно понимал, как нужно работать с аналитиком: даешь аналитику проблему и он идет ее решать. И таких проблем может быть 100500. Ведь жизнь не ограничивается АБ тестами и дашбордами - любой живой развивающийся продукт требует постоянного решения многих вопросов, типа ответов на вопросы как нам сделать?, почему?, когда?, а что, если? и тд. И, слабо понимаю, как изучение прекрасных красивых дашбордов все это сможет сделать.
Аналитик сам решит, какие инструменты применить, в каком формате презентовать и обосновать результат. Наверное, поэтому, при знании только GA, экселя и совсем плохого SQL я никогда не был джуном. И благодарен ему за это.
Менеджеры продукта сами все это не сделают - у них другие обязанности. А аналитик, как его не называй, продуктовый, данных, еще как-то, просто быть самостоятельнее, и, наверное, шире владеть хард и софт-скилами, хорошо понимать, как работает компания. И, конечно, уметь проводить полный цикл решения проблемы, от "пойду в бд" по защиты отчета и рекомендаций.
И все это отлично.
Часто слышу от нанимающих менеджеров, что они ищут аналитиков, обладающих одним или несколькими типами мышления: аналитическое мышление, продуктовое мышление, бизнесовое мышление

При этом ясное дело, что каждый нанимающий менеджер мыслит все 3 типа мышления совершенно по-разному

Например, для меня:
🌳 аналитическое — про модели, структуры внутри моделей, ограничения, скрытые в моделях (видеть деревья за лесом)
👨‍🔬 продуктовое — про гипотезы и оценку effort/impact (как влиять на лес через рациональный выбор наиболее эффективных способов)
💸 бизнесовое — про цели и принципы достижения этих целей с помощью организационных структур (зачем нам что-то делать с лесом и как организовать лесников)

Понятно, что это дискуссия об определениях абстрактных понятий, а значит правильный ответ может и есть, но он такой же абстрактный. А ещё это всё субъективно для каждого нанимающего менеджера, потому что исходит из целей компании. Но интересно узнать что вы понимаете под аналитическим/продуктовым/бизнесовым мышлением?
Должен вот в чём признаться — я очень не люблю рисовать что-то в Miro

Мне мешает, что форма объектов в Miro в каком-то смысле превалирует над содержанием. При этом иногда приходится схематизировать, ведь многие знания проще передавать в виде схем. Но для меня схема всегда только визуальная репрезентация каких-то упорядоченных данных, которые могут быть описаны через некоторую нотацию: таблицу, определенной структуры или текстом с какой-то стандартизированной разметкой, которую сам придумал. Сначала структура — потом наполнение

В большинстве случаев, я набрасываю что-то в текстовом файле или в таблице, а потом на основе этого уже рисую в Miro схему, которую можно показать кому-то. Мне самому в этом случае схема уже не очень то нужна, потому что я смогу быстро ориентироваться в той структуре, которую создал изначально. А визуализация нужна как более эффективный способ коммуникации

Сегодня узнал про фреймворк mermaid.js, который позволяет из описанных текстом правил (читай Markdown) создавать диаграммы разного типа: диаграммы процессов, Гантта и даже User Journey. Я и раньше встречал фреймворки для отрисовки схем из текста. Но прелесть mermaid.js в том, что эта штука безболезненно встраивается в заметки Obsidian, или рендерится с помощью сервисов типа kroki.io в виде айфрейма, который можно вставить в Notion

О новый дивный мир, где everything as code
Forwarded from LEFT JOIN
Смена подгузников, отсутствие сна: новый baby-project dataviz

Сегодня в блоге очень личная статья. Дело в том, что в декабре прошлого года я стал папой, а это значит, что наша с супругой семейная жизнь перевернулась с ног на голову. Кроме того, что это для меня большое событие, я подошел к нему еще и с аналитической точки зрения, а именно построил дашборд, используя данные о ребенке в течение первых 8 месяцев его жизни. И сегодня я хочу показать как круто меняется жизнь семьи на примере собственного анализа данных жизни первых 8 месяцев малыша. Данные я собирал с помощью приложения BabyTracker, а затем визуализировал их в Tableau, чтобы затем проанализировать их и поделиться своими выводами, которые у меня появились к настоящему моменту.
Подробный пост со всеми графиками и нюансами их построения вы можете прочесть в блоге, а самый главный его вывод я вам расскажу уже сейчас: дети — это прекрасно! ❤️
📈 Как создавать быстрые и точные диаграммы разброса с большим количеством данных на Python


https://dev-gang.ru/article/kak-sozdavat-bystrye-i-tocznye-diagrammy-razbrosa-s-bolshim-koliczestvom-dannyh-na-python-4f6zzxa0gq/

@machinelearning_ru
Хочу обратить ваше внимание на полезный telegram-канал для обучения высокоуровневому языку программирования Python

На канале ежедневно публикуются задачи по Python и Machine Learning: алгоритмы, функции, классы, регулярные выражения, итераторы, генераторы, ООП, исключения, numpy, pandas, matplotlib, scikit-learn, TensorFlow и многое другое!

✔️Станьте специалистом по Python вместе с каналом "Задачи по Python и машинному обучению"
Forwarded from LEFT JOIN
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.

В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets

По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.

Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
Хорошая статья в блоге Павла Левчука о том, что в последнее время стало очень модным говорить про аналитику с помощью Python, из-за чего BI-системы выглядят недоцененными в то время как они прекрасно решают подавляющее число аналитических задач, а также обаладают гибкостью по отношению к «потребителю данных», которой сложно добиться «аналитическим кодом»

Как пример: обеспечение гибкости логики расчётов, при грамотно организованном представлении данных и наличии нужных слайсеров/фильтров с помощью BI-системы можно быстро оценивать retention в различных срезах, управлять окном retention, добавлять дополнительные метрики. Это конечно можно сделать и в python-ноутбуке или через SQL, но зачастую скорость изменения отчета в BI-системах на порядок выше, а если есть необходимость сделать из отчета регулярный инструмент исследований, то без BI точно не обойтись

https://ecommerce-in-ukraine.blogspot.com/2021/08/python-vs-bi.html