Простенький, но от этого не менее эффективный, приём соединения данных из различных листов Excel-файла в единый датафрейм
https://pbpython.com/pandas-excel-tabs.html
https://pbpython.com/pandas-excel-tabs.html
Pbpython
Combine Multiple Excel Worksheets Into a Single Pandas Dataframe
This article describes how to use pandas to read in multiple Excel tabs and combine into a single dataframe.
Хороший туториал с примером создания интерактивного дашборда с помощью Dash
https://towardsdatascience.com/interactive-dashboards-for-data-science-51aa038279e5
https://towardsdatascience.com/interactive-dashboards-for-data-science-51aa038279e5
Medium
Interactive Dashboards for Data Science
Creating an online dashboard in Python to analyse Facebook Stock Market Prices and Performance Metrics.
Очередная статья про сравнение производительности различных видов операций в Pandas. И в очередной раз она показывает, что использовать циклы по строкам в Pandas - это моветон.
https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06
https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06
Medium
How To Make Your Pandas Loop 71803 Times Faster
Looping through Pandas DataFrames can be very slow — I will show you some very fast options
Классный русскоязычный гайд про визуализацию данных с помощью Seaborn
https://nagornyy.me/courses/data-science/intro-to-seaborn/
https://nagornyy.me/courses/data-science/intro-to-seaborn/
Статья про анализ данных о зарплатах программистов с помощью Python. Хороший пример разведочного анализа данных, а также проверки статистической гипотезы о равенстве средних с применением Bootstrap
https://habr.com/ru/post/465371/
https://habr.com/ru/post/465371/
Хабр
Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов
Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анон...
Подробное руководство по работе с openpyxl: чтение в Excel из Python, запись в Excel, изменение существующих книг, работа со стилями.
https://realpython.com/openpyxl-excel-spreadsheets-python/
https://realpython.com/openpyxl-excel-spreadsheets-python/
Realpython
A Guide to Excel Spreadsheets in Python With openpyxl – Real Python
In this step-by-step tutorial, you'll learn how to handle spreadsheets in Python using the openpyxl package. You'll learn how to manipulate Excel spreadsheets, extract information from spreadsheets, create simple or more complex spreadsheets, including adding…
Статья о том как делать выводы на основе статистического анализа. Автор рассказывает про подсчет доверительных интервалов для среднего с помощью бутстрапа и обычного t-test'а, а затем проверяет гипотезу о среднем генеральной совокупности.
https://towardsdatascience.com/bootstrapping-for-inferential-statistics-9b613a7653b2
https://towardsdatascience.com/bootstrapping-for-inferential-statistics-9b613a7653b2
Medium
Bootstrapping for Inferential Statistics
Data Scientist’s Toolkit — bootstrapping, sampling, confidence intervals, hypothesis testing
👍1
Если вы давно хотели начать визуализировать данные на Python, но боитесь слов типа matplotlib, seaborn и plotly, то не отчаивайтесь. Начните с построения гистограмм с помощью метода
https://mode.com/example-gallery/python_histogram/
hist() в pandas. Вот статья, которая поможет на старте: https://mode.com/example-gallery/python_histogram/
Mode Resources
Plot Histograms Using Pandas: hist() Example | Charts | Charts - Mode
A histogram is a graphical representation commonly used to visualize the distribution of numerical data. When exploring a dataset, you'll often want to get a quick understanding of the distribution of certain numerical variables within it.
Подробный гайд про трансформацию данных в pandas. Крайне толковое руководство, освещающее как популярные методы
https://hackersandslackers.com/reshaping-pandas-dataframes/
groupby и pivot_table, так и менее распространенные такие как melt, transpose, stack и unstack.https://hackersandslackers.com/reshaping-pandas-dataframes/
Hackers and Slackers
Reshaping Pandas DataFrames
A guide to DataFrame manipulation using groupby, melt, pivot tables, pivot, transpose, and stack.
Напоминаю, что у этого канала есть чатик, который периодически оживает от ваших вопросов. Так что не стесняйтесь их там задавать. Там умеют гуглить и стаковерфлоить за вас🙂, а ещё делиться экспертизой, что гораздо ценнее 👨🔬👩🔬
Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала.
Всем удачи!
Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала.
Всем удачи!
Telegram
Python для анализа данных
Чат про применение Python для анализа данных, в особенности для различного рода автоматизации и аналитики.
Основной канал: @datalytx
Канал с вакансиями: @data_hr
Основной канал: @datalytx
Канал с вакансиями: @data_hr
🔥1
Бизнес постоянно находит новые задачи. Справиться с новыми вызовами невозможно без глубокого анализа данных и правильной коммуникации с клиентами. Современный digital-маркетинг гораздо больше про технологии, нежели про креатив. И как мы все знаем, хороший маркетолог никогда не даст хорошему аналитику скучать.
Главная конференция для маркетинговых и продуктовых аналитиков, data-инженеров, стратегов - Матемаркетинг-2019
80 докладов, 10 мастер-классов, 100 докладчиков, 2 полных дня
Докладчики летят со всего мира - от Сан-Франциско до Токио.
Ключевые темы: алгоритмический маркетинг, a/b-тестирование, маркетинговая аналитика, маркетинг микро- и малого бизнеса, трек игровой аналитики и полностью зарубежная секция по user acquisition.
Подробнейшая программа Матемаркетинга на двух вкладках google sheets: http://bit.ly/33SYfe0
Все решения, о которых пойдет речь, можно применять у себя в компании и учитывать при планировании сервисов.
Конференция пройдет 14 и 15 ноября (четверг и пятница) в центре Москвы
Билеты: http://bit.ly/2SEBSUJ
Все подробности на сайте: matemarketing.ru
Промокод на скидку 10% действует до конца этой недели: MM-bVflPHJm8y-10
Главная конференция для маркетинговых и продуктовых аналитиков, data-инженеров, стратегов - Матемаркетинг-2019
80 докладов, 10 мастер-классов, 100 докладчиков, 2 полных дня
Докладчики летят со всего мира - от Сан-Франциско до Токио.
Ключевые темы: алгоритмический маркетинг, a/b-тестирование, маркетинговая аналитика, маркетинг микро- и малого бизнеса, трек игровой аналитики и полностью зарубежная секция по user acquisition.
Подробнейшая программа Матемаркетинга на двух вкладках google sheets: http://bit.ly/33SYfe0
Все решения, о которых пойдет речь, можно применять у себя в компании и учитывать при планировании сервисов.
Конференция пройдет 14 и 15 ноября (четверг и пятница) в центре Москвы
Билеты: http://bit.ly/2SEBSUJ
Все подробности на сайте: matemarketing.ru
Промокод на скидку 10% действует до конца этой недели: MM-bVflPHJm8y-10
Google Docs
Программа Матемаркетинга
Интересный пример того как с помощью Python можно генерировать "игрушечные" данные для несуществующего продукта. Это бывает полезно, если хочется написать статью или ещё какой-то обучающий материал, а показывать реальные данные не хочется. Отдельный плюс подхода, показанного в статье - сгенерированные данные содержат в себе некоторые инсайты, а не просто рандом с нормальным распределением.
https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
Medium
Generating product usage data with Pandas
How can we approximate high-level user behavior?
Статья с примером выгрузки статистики роликов на YouTube-канале с помощю Python-скрипта
https://habr.com/ru/post/467035/
https://habr.com/ru/post/467035/
Хабр
Проектирование дашбордов для веб-аналитики e-commerce сайта. Часть 4: Youtube-канал
Легко посчитать, сколько трафика пришло с ютуб-канала. К примеру, зайти в счетчик Яндекс Метрики или Google Analytics. А вы попробуйте узнать, что происходило с...
Небольшой туториал по оптимизации использования памяти при работе с pandas
https://habr.com/ru/post/467785/
https://habr.com/ru/post/467785/
Хабр
Как оптимизировать pandas при работе с большими datasetами (очерк)
Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их...
Всем привет! В DigitalGod стартует курс по автоматизации сбора данных из рекламных систем. Там не просто научат получать данные из основных рекламных систем (GA, Метрика, Директ, Google Ads, FB и многое другое), но и сохранять эти данные в Clickhouse. А также в курсе много про построение ETL-процессов: например, как автоматизировать сбор по расписанию и управлять сборщиками с помощью Airflow. Ну и отдельная плюшка - Papermill для параметризации ноутбуков. В общем, если вы давно хотели собрать у себя все данные мира, то приходите. Будет хардово и весело!
https://digitalgod.be/collect-data
https://digitalgod.be/collect-data
digitalgod.be
Автоматизация сбора данных YD, GAd, FB, VK, GA, YM #1 | Digital God | Курсы
Получать данные с основных рекламных систем Yandex Direct, Google AdWords, Facebook, Vk и аналитических сервисов Google Analytics, Yandex Metrika. Сохранение в ClickHouse и BigQuery. Автоматизировать при помощи Airflow и Papermill
Большой гайд про когортный анализ силами Python. Рассматривается как сформировать когорты, построить таблицу для когортного анализа, а также визуализировать результаты с помощью heatmap в библиотеке seaborn.
https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
Medium
Cohort Analysis with Python
Or how to visualize your customer retention — a code-along guide
Руководство по работе с Jupyter Notebook для новичков
https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
Встреча для аналитиков Data Driven — ежегодное мероприятие Яндекса для опытных специалистов, активно использующих анализ данных для принятия бизнес-решений. Встреча пройдет 19 октября в московском офисе Яндекса.
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.
После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.
Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.
https://events.yandex.ru/events/data-driven-2019
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.
После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.
Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.
https://events.yandex.ru/events/data-driven-2019
50 примеров крутых графиков на Matplotlib и Seaborn. В том числе различные нестандартные визуализации типа "вафельной" диаграммы, lolly-par chart. Рекомендовано к добавлению в закладки)
https://habr.com/ru/post/468295/
https://habr.com/ru/post/468295/
Хабр
50 оттенков matplotlib — The Master Plots (с полным кодом на Python)
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала про...
Ребята из Retentioneering выложили в open-source набор методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Продуктовые аналитики заценят!
https://habr.com/ru/post/468721/
https://habr.com/ru/post/468721/
Хабр
Retentioneering: как мы open-source инструменты для продуктовой аналитики на Python и Pandas написали
Привет, Хабр. Эта статья посвящена итогам четырехлетней разработки набора методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Автор разработки — Максим Годзи...