Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from Reveal the Data
Год назад мы с Колей Валиотти сделали дашбород по рынку вакансий аналитиков. 🎉 Подводим итоги за год! Сделали это в виде карточек по разным направлениям аналитики — пощёлкайте и сравните разные профессии.

А ещё, подобрали ТГ каналы, чтобы качаться в каждой из областей:
— Про BI и Табло — Reveal The Data =)
— Про аналитику и DS — Left Join
— Про системный анализ — BA|SA
— Про DE — Инжиниринг данных
— Про маркетинг — Матемаркетинг
— Про Web — WebAnalytics

🔗 Карточки на Табло Паблик
🔗
Основной дашборд
Disclaimer: данные по вакансиям с HH для Москвы и Питера. Профессии определяются по наличию ключевых слов в названии вакансии (есть BI → BI-аналитик, есть ML → Data Scientist и т.п.). Больше всего вакансий в разделе просто «аналитик» и «бизнес-аналитик», так как под ними часто понимают разные обязанности. Зарплаты указаны как средние и чистыми. Кажется, что можно умножать на ×1.2-1.4 и будет примерно рынок.
#пример #ссылка
Интересно сейчас разные специалисты рассуждают о будущем аналитики, аналитика.
В частности Алексей Свирин написал интересный пост в fb. В мимолетный миг досуга также надумал сформировать свое мнение.
Не вижу проблемы в том, что дата-аналитика как есть сейчас сдохнет. Ну и ладно, такова жизнь.
У себя в голове не могу толком разделить продуктового и дата-аналитиков. Так как продуктовый, конечно, должен уметь работать с данными, а аналитик данных должен обладать продуктовым мышлением, иначе толка от него не будет.
К вариантам, которые предложил Алексей (системный аналитик, продуктолог, программист, дата-инженер) уверенно добавлю обычного продуктового аналитика.
Предыдущий мой руководитель прекрасно понимал, как нужно работать с аналитиком: даешь аналитику проблему и он идет ее решать. И таких проблем может быть 100500. Ведь жизнь не ограничивается АБ тестами и дашбордами - любой живой развивающийся продукт требует постоянного решения многих вопросов, типа ответов на вопросы как нам сделать?, почему?, когда?, а что, если? и тд. И, слабо понимаю, как изучение прекрасных красивых дашбордов все это сможет сделать.
Аналитик сам решит, какие инструменты применить, в каком формате презентовать и обосновать результат. Наверное, поэтому, при знании только GA, экселя и совсем плохого SQL я никогда не был джуном. И благодарен ему за это.
Менеджеры продукта сами все это не сделают - у них другие обязанности. А аналитик, как его не называй, продуктовый, данных, еще как-то, просто быть самостоятельнее, и, наверное, шире владеть хард и софт-скилами, хорошо понимать, как работает компания. И, конечно, уметь проводить полный цикл решения проблемы, от "пойду в бд" по защиты отчета и рекомендаций.
И все это отлично.
Часто слышу от нанимающих менеджеров, что они ищут аналитиков, обладающих одним или несколькими типами мышления: аналитическое мышление, продуктовое мышление, бизнесовое мышление

При этом ясное дело, что каждый нанимающий менеджер мыслит все 3 типа мышления совершенно по-разному

Например, для меня:
🌳 аналитическое — про модели, структуры внутри моделей, ограничения, скрытые в моделях (видеть деревья за лесом)
👨‍🔬 продуктовое — про гипотезы и оценку effort/impact (как влиять на лес через рациональный выбор наиболее эффективных способов)
💸 бизнесовое — про цели и принципы достижения этих целей с помощью организационных структур (зачем нам что-то делать с лесом и как организовать лесников)

Понятно, что это дискуссия об определениях абстрактных понятий, а значит правильный ответ может и есть, но он такой же абстрактный. А ещё это всё субъективно для каждого нанимающего менеджера, потому что исходит из целей компании. Но интересно узнать что вы понимаете под аналитическим/продуктовым/бизнесовым мышлением?
Должен вот в чём признаться — я очень не люблю рисовать что-то в Miro

Мне мешает, что форма объектов в Miro в каком-то смысле превалирует над содержанием. При этом иногда приходится схематизировать, ведь многие знания проще передавать в виде схем. Но для меня схема всегда только визуальная репрезентация каких-то упорядоченных данных, которые могут быть описаны через некоторую нотацию: таблицу, определенной структуры или текстом с какой-то стандартизированной разметкой, которую сам придумал. Сначала структура — потом наполнение

В большинстве случаев, я набрасываю что-то в текстовом файле или в таблице, а потом на основе этого уже рисую в Miro схему, которую можно показать кому-то. Мне самому в этом случае схема уже не очень то нужна, потому что я смогу быстро ориентироваться в той структуре, которую создал изначально. А визуализация нужна как более эффективный способ коммуникации

Сегодня узнал про фреймворк mermaid.js, который позволяет из описанных текстом правил (читай Markdown) создавать диаграммы разного типа: диаграммы процессов, Гантта и даже User Journey. Я и раньше встречал фреймворки для отрисовки схем из текста. Но прелесть mermaid.js в том, что эта штука безболезненно встраивается в заметки Obsidian, или рендерится с помощью сервисов типа kroki.io в виде айфрейма, который можно вставить в Notion

О новый дивный мир, где everything as code
Forwarded from LEFT JOIN
Смена подгузников, отсутствие сна: новый baby-project dataviz

Сегодня в блоге очень личная статья. Дело в том, что в декабре прошлого года я стал папой, а это значит, что наша с супругой семейная жизнь перевернулась с ног на голову. Кроме того, что это для меня большое событие, я подошел к нему еще и с аналитической точки зрения, а именно построил дашборд, используя данные о ребенке в течение первых 8 месяцев его жизни. И сегодня я хочу показать как круто меняется жизнь семьи на примере собственного анализа данных жизни первых 8 месяцев малыша. Данные я собирал с помощью приложения BabyTracker, а затем визуализировал их в Tableau, чтобы затем проанализировать их и поделиться своими выводами, которые у меня появились к настоящему моменту.
Подробный пост со всеми графиками и нюансами их построения вы можете прочесть в блоге, а самый главный его вывод я вам расскажу уже сейчас: дети — это прекрасно! ❤️
📈 Как создавать быстрые и точные диаграммы разброса с большим количеством данных на Python


https://dev-gang.ru/article/kak-sozdavat-bystrye-i-tocznye-diagrammy-razbrosa-s-bolshim-koliczestvom-dannyh-na-python-4f6zzxa0gq/

@machinelearning_ru
Хочу обратить ваше внимание на полезный telegram-канал для обучения высокоуровневому языку программирования Python

На канале ежедневно публикуются задачи по Python и Machine Learning: алгоритмы, функции, классы, регулярные выражения, итераторы, генераторы, ООП, исключения, numpy, pandas, matplotlib, scikit-learn, TensorFlow и многое другое!

✔️Станьте специалистом по Python вместе с каналом "Задачи по Python и машинному обучению"
Forwarded from LEFT JOIN
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.

В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets

По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.

Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
Хорошая статья в блоге Павла Левчука о том, что в последнее время стало очень модным говорить про аналитику с помощью Python, из-за чего BI-системы выглядят недоцененными в то время как они прекрасно решают подавляющее число аналитических задач, а также обаладают гибкостью по отношению к «потребителю данных», которой сложно добиться «аналитическим кодом»

Как пример: обеспечение гибкости логики расчётов, при грамотно организованном представлении данных и наличии нужных слайсеров/фильтров с помощью BI-системы можно быстро оценивать retention в различных срезах, управлять окном retention, добавлять дополнительные метрики. Это конечно можно сделать и в python-ноутбуке или через SQL, но зачастую скорость изменения отчета в BI-системах на порядок выше, а если есть необходимость сделать из отчета регулярный инструмент исследований, то без BI точно не обойтись

https://ecommerce-in-ukraine.blogspot.com/2021/08/python-vs-bi.html
Datalytics pinned Deleted message
Наткнулся тут на канал Александра @ershovds про Data science и программирование.

На канале есть туториалы по инструментам для анализа данных, разборы практических задач и советы по карьере.

Рекомендую подписаться!
Какая ирония - когда "идешь" на собеседование соискателем, думаешь, что, вот теорию вероятностей как-то начал забывать, а что там с питоном, а что такое мощность в статистике.
А когда "идешь" на собеседование нанимающим, думаешь, как понять, что у него с головой в порядке, что он понимает, как работают деньги, чтобы был ответственным, критичным, а пандас этот за 3 месяца отлично учится, и оконки в sql не главное, и сквозная аналитика только звучит эффектно...
Прежде всего понимание, как решить задачу-проблему. А в качестве инструмента и эксель ничего так. А, может, и нет проблемы, и решать ничего не надо.
Всегда приятно делиться крутыми достижениями ребят, учившихся в Яндекс.Практикуме

Выпускник программы Data Science Антон Батомункуев написал статью, в которой рассказал о своём первом опыте контрибьюта в open-source проект. Да не в просто open-source проект, а в тот, который использует почти каждый специалист в области данных — библиотеку для анализа данных Pandas. Отдельная прелесть статьи ещё и в подробном описании процесса: от выбора тикета для фикса до пулл-реквеста в мастер. Антон пофиксил issue в методе to_datetime(). Теперь каждый раз используя этот метод буду с теплотой думать о том, что выпускник Практикума причастен к доработке того, что там крутится под капотом😄

https://medium.com/@andreibatomunkuev/my-first-contribution-to-data-science-open-source-project-300af1f8ac38
Forwarded from Data-comics
На днях прям подряд послушала два интервью на тему аналитики.
В чем-то схожие, в чем-то разные.

Про путь аналитика, про будущее профессии, про кадры, собеседования, навыки, инструменты и задачи. ☺️

Может, кому тоже интересно будет послушать.

Интервью с Алексеем Макаровым
(его канал: https://t.me/datalytx)

https://www.instagram.com/tv/CVDjDXzoyKn/?utm_medium=copy_link

Интервью с Николаем Валиотти
(его канал: https://t.me/leftjoin)

https://www.instagram.com/tv/CVFf8ebjOGW/?utm_medium=copy_link
Forwarded from Записки Ппилифа (Filipp Ulyankin)
Про гипотезу о равенстве средних.

Давайте развенчаем ещё один миф. На это раз про равенство средних. Если мы тестируем гипотезу по-честному, надо выписывать z-статистику и сравнивать её с критическим значением.

Видимо, из-за того, что это сложно, на практике иногда встречается процедура с доверительными интервалами. Строим доверительный интервал для первого среднего. Строим для второго среднего. Если они не пересекаются, значит гипотеза о равенстве средних отвергается. Периодически встречаю людей, которые так делают. Не делайте так.

Дело в том, что для одинаковых ошибок первого рода, ошибка второго рода для процедуры, основанной на доверительных интервалах, окажется выше. Соотвественно мощность такого теста будет ниже. То есть, мы часто будем не замечать верность альтернативы и оставаться с нулевой гипотезой.

В АБ мы всегда формулируем свои предположения в терминах, что вообще ничего не поменялось. Эффекта нет. Средние в контрольной группе и в тестовой совпадают. Ошибка второго рода здесь --- не найти эффекта, когда он есть. Если мы пользуемся техникой с доверительными интервалами, часть изменений, от которых мог бы быть профит будет закопана.

Понятное дело, что при очень большом числе наблюдений эта разница будет небольшой. Однако это не мешает нам устроить священную войну за статистическую корректность. Не верите? Попробуйте провести симуляции, либо держите pdf-ку с решением этой задачки. Если преподаёте матстат, включите что-то похожее студентам в домашку :3

На картинке видно, что первая процедура (z-статистика) стабильно выигрывает у второй (интервалы). При бесконечном числе наблюдений разницы не будет, так как мы всегда сможем идеально отделить две альтернативы друг от друга.


Почему так происходит?

Мне кажется, что причина в нашей извращённой логике. Когда речь идёт об одном среднем, мы можем посчитать z-статистику, а можем посмотреть попал ли в доверительный интервал ноль. Эти два способа будут эквивалентны. Наше сознание хочет обобщить этот опыт на более сложные ситуации и делает это неверно.
Forwarded from Записки Ппилифа (Filipp Ulyankin)
Forwarded from Записки Ппилифа (Filipp Ulyankin)
means-hypotesis.pdf
660 KB
Привет!
Многие из вас знают, что в 2019 NEWHR выпускали большое исследование рынка аналитиков. Этот опрос они готовили совместно с экспертами-аналитиками. Многие работодатели до сих пор ориентируются на результаты того исследования при формировании зарплат, а ведь данные уже устарели.

Поэтому NEWHR стартовали новое масштабное исследование рынка аналитиков. На этот раз - с фокусом на Продуктовых аналитиках и на Руководителях аналитики. И, если вы продуктовый аналитик, советую принять участие и повлиять на общую картину рынка или узнать, что вас ждет в ближайшем будущем.

❗️Общая цель исследования: понять, кем является продуктовый аналитик в 2021 году?
Что входит в зону ответственности, а что не входит (но все равно приходится этим заниматься);
Кто становится продуктовым аналитиком (бэкграунд) и какие карьерные перспективы есть у этой профессии;
Что влияет на уровень зарплат и есть ли паттерны, присущие наиболее зарабатывающим профессионалам;
Как устроен найм и удержание продуктовых аналитиков.

Чтобы принять участие в исследовании, необходимо заполнить верификационную анкету. Она нужна для того, чтобы быть уверенным, что опросник заполняют только релевантные респонденты.

Пройдя опрос, вы получите срез зарплат аналитиков разных грейдов в вашей отрасли, которого не будет в публичном доступе.

Все участники получают призы и подарки от партнеров исследования: Нетологии, Матемаркетинга-2021, EXPF, Издательства МИФ — будут хорошие скидки и даже бесплатные ништяки.

Также, каждую неделю разыгрывается одна консультация Оксаны Прутьяновой, эксперта направления аналитики и датасайенс, и 5 крафтовых напитков от NEWHR.
Forwarded from 42 секунды
Forbes: Основанный Яндексом стартап ClickHouse стал «единорогом»

– Компания ClickHouse привлекла $250 млн и стала «единорогом»
– В ходе раунда компанию ClickHouse была оценена в $2 млрд
– Ключевыми инвесторами стали фонды Coatue и Altimeter
– Также вложились основатели: Benchmark Capital, Index Ventures и Яндекс
– Остальные инвесторы: Lightspeed, Redpoint, Almaz, FirstMark и Lead Edge
– Средства пойдут на рост штата и на развитие международного бизнеса
– ClickHouse используют Uber, Tesla, Spotify, Bloomberg, Alibaba, ByteDance и др.