Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Простенький, но от этого не менее эффективный, приём соединения данных из различных листов Excel-файла в единый датафрейм

https://pbpython.com/pandas-excel-tabs.html
Очередная статья про сравнение производительности различных видов операций в Pandas. И в очередной раз она показывает, что использовать циклы по строкам в Pandas - это моветон.

https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06
Статья о том как делать выводы на основе статистического анализа. Автор рассказывает про подсчет доверительных интервалов для среднего с помощью бутстрапа и обычного t-test'а, а затем проверяет гипотезу о среднем генеральной совокупности.

https://towardsdatascience.com/bootstrapping-for-inferential-statistics-9b613a7653b2
👍1
Если вы давно хотели начать визуализировать данные на Python, но боитесь слов типа matplotlib, seaborn и plotly, то не отчаивайтесь. Начните с построения гистограмм с помощью метода hist() в pandas. Вот статья, которая поможет на старте:

https://mode.com/example-gallery/python_histogram/
Подробный гайд про трансформацию данных в pandas. Крайне толковое руководство, освещающее как популярные методы groupby и pivot_table, так и менее распространенные такие как melt, transpose, stack и unstack.

https://hackersandslackers.com/reshaping-pandas-dataframes/
Напоминаю, что у этого канала есть чатик, который периодически оживает от ваших вопросов. Так что не стесняйтесь их там задавать. Там умеют гуглить и стаковерфлоить за вас🙂, а ещё делиться экспертизой, что гораздо ценнее 👨‍🔬👩‍🔬

Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала.

Всем удачи!
🔥1
Бизнес постоянно находит новые задачи. Справиться с новыми вызовами невозможно без глубокого анализа данных и правильной коммуникации с клиентами. Современный digital-маркетинг гораздо больше про технологии, нежели про креатив. И как мы все знаем, хороший маркетолог никогда не даст хорошему аналитику скучать.

Главная конференция для маркетинговых и продуктовых аналитиков, data-инженеров, стратегов - Матемаркетинг-2019

80 докладов, 10 мастер-классов, 100 докладчиков, 2 полных дня
Докладчики летят со всего мира - от Сан-Франциско до Токио.
Ключевые темы: алгоритмический маркетинг, a/b-тестирование, маркетинговая аналитика, маркетинг микро- и малого бизнеса, трек игровой аналитики и полностью зарубежная секция по user acquisition.

Подробнейшая программа Матемаркетинга на двух вкладках google sheets: http://bit.ly/33SYfe0

Все решения, о которых пойдет речь, можно применять у себя в компании и учитывать при планировании сервисов.

Конференция пройдет 14 и 15 ноября (четверг и пятница) в центре Москвы

Билеты: http://bit.ly/2SEBSUJ

Все подробности на сайте: matemarketing.ru

Промокод на скидку 10% действует до конца этой недели: MM-bVflPHJm8y-10
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный пример того как с помощью Python можно генерировать "игрушечные" данные для несуществующего продукта. Это бывает полезно, если хочется написать статью или ещё какой-то обучающий материал, а показывать реальные данные не хочется. Отдельный плюс подхода, показанного в статье - сгенерированные данные содержат в себе некоторые инсайты, а не просто рандом с нормальным распределением.

https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
Всем привет! В DigitalGod стартует курс по автоматизации сбора данных из рекламных систем. Там не просто научат получать данные из основных рекламных систем (GA, Метрика, Директ, Google Ads, FB и многое другое), но и сохранять эти данные в Clickhouse. А также в курсе много про построение ETL-процессов: например, как автоматизировать сбор по расписанию и управлять сборщиками с помощью Airflow. Ну и отдельная плюшка - Papermill для параметризации ноутбуков. В общем, если вы давно хотели собрать у себя все данные мира, то приходите. Будет хардово и весело!

https://digitalgod.be/collect-data
Большой гайд про когортный анализ силами Python. Рассматривается как сформировать когорты, построить таблицу для когортного анализа, а также визуализировать результаты с помощью heatmap в библиотеке seaborn.

https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
Руководство по работе с Jupyter Notebook для новичков

https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
Встреча для аналитиков Data Driven — ежегодное мероприятие Яндекса для опытных специалистов, активно использующих анализ данных для принятия бизнес-решений. Встреча пройдет 19 октября в московском офисе Яндекса.
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.

После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.

Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.

https://events.yandex.ru/events/data-driven-2019
50 примеров крутых графиков на Matplotlib и Seaborn. В том числе различные нестандартные визуализации типа "вафельной" диаграммы, lolly-par chart. Рекомендовано к добавлению в закладки)

https://habr.com/ru/post/468295/