Написал для блога CoMagic статью о том как с помощью Python делать запросы к Data API CoMagic. В статье рассмотрены особенности параметров API, с которыми часто возникают сложности, например, как ограничивать результаты с помощью фильтров, как задавать список нужных полей https://www.comagic.ru/blog/posts/mar/kak_delat_zaprosy_k_api_comagic_s_pomoshchyu_python_i_zachem_eto_nuzhno/
В среду 13.03.2019 на митапе "Зачем маркетологу программировать на Python" Дима Родин из DigitalGod расскажет о том для решения каких задач маркетологу имеет смысл учиться программировать, а потом я покажу практический пример анализа данных Facebook Ads с помощью Python. https://digitalgod.be/blog/07032019-meetup-1-python-for-marketers
И на этом фоне вот неплохой русскоязычный гайд про панд https://shwanoff.ru/pandas/
Большой туториал про использование словарей в Питоне. Если кто, вдруг, пренебрегает этой структурой данных, то самое время исправиться и начать использовать её чаще, ведь словари - наше всё😄https://www.dataquest.io/blog/python-dictionary-tutorial/
Dataquest
Python Dictionary Tutorial: Analyze Craft Beer with Dictionaries – Dataquest
Learn to use Python dictionaries to store, sort, and access data in this in-depth tutorial analyzing craft beer data to master dictionary techniques.
Наткнулся на лекцию Ильи Щурова про Pandas в рамках курса "Программирование на языке Python для сбора и анализа данных", который проходил во ВШЭ. Также на канале можно посмотреть другие лекции из этого курса: http://bit.ly/2F0NI4U. Там много информации, начиная от основ Python и до работы с API, библиотеками numpy и matplotlib. https://www.youtube.com/watch?v=ENKfnIEXyKw
YouTube
Лекция №12: библиотека pandas
Курс «Программирование на языке Python для сбора и анализа данных», НИУ ВШЭ, 2015-16 учебный год, лектор Илья Щуров. Лекция №12: библиотека pandas. 16 января 2016.
Страница курса (конспекты лекций, домашние задания и другие материалы): http://math-info.hse.ru/s15/m
Страница курса (конспекты лекций, домашние задания и другие материалы): http://math-info.hse.ru/s15/m
Короткий и понятный гайд о том как загрузить свои данные из DataFrame в ElasticSearch https://towardsdatascience.com/exporting-pandas-data-to-elasticsearch-724aa4dd8f62
Medium
Exporting Pandas Data to Elasticsearch
How to send your dataframe rows to an elasticsearch database
Часто бывает так, что данные для анализа не хранятся в виде удобного csv-файлика или в базе данных, а представляют собой какую-нибудь мало-структурированную кашу, например, логи сервера или длинный эвент лог в формате txt с произвольной структурой. Тогда приходится прежде всего решать задачу извлечения данных в таком виде, чтобы их затем можно было загнать в датафрейм. В блоге DataQuest есть интересный туториал с примером извлечения данных с помощью регулярных выражений https://www.dataquest.io/blog/regular-expressions-data-scientists
Dataquest
Tutorial: Python Regex (Regular Expressions) for Data Scientists
In this Python regex tutorial, learn how to use regular expressions and the pandas library to manage large data sets during data analysis.
Большой пост про различные неочевидные возможности Pandas. Охватывает очень много всяких небольших хаков, про которые вы могли не знать. Например, про функцию map, расчет скользящего среднего, про ресемплирование на time series, stack и unstack и ещё много всяких интересных штуковин http://deanla.com/dont_reinvent_pandas.html
DeanLa
Diving into Pandas is Faster than Reinventing it
This notebook aims to show some nice ways modern Pandas makes your life easier. It is not about efficiency. I'm pretty sure using Pandas' built-in methods will be more efficient than reinventing pandas, but the main goal is to make the code easier to read…
Если вы работаете в Jupyter Notebook или в JupyterLab, то советую поставить расширение Qgrid. Это расширение позволяет добавить к привычной табличной визуализации датафрейма функционал сортировки и фильтрации. Крайне рекомендую!
https://github.com/quantopian/qgrid
https://github.com/quantopian/qgrid
Туториал про создание бота для Telegram, который поможет автоматизировать отчетность. Всего в несколько десятков строк кода. Такой бот будет вытягивать данные из Google BigQuery, визуализировать их с помощью Matplotlib и отдавать визуализацию в сообщении Телеграма. Хороший способ автоматизировать задачи отчетности, повторяющиеся изо дня в день. https://habr.com/ru/company/skillbox/blog/443702/
Хабр
Как делегировать простые отчеты роботу. Пишем бота на Python и Google BigQuery
Есть ли у вас задачи, которые повторяются изо дня в день, из недели в неделю? Например, написание отчетов. Вы запрашиваете данные, проводите анализ, визуализируете (делаете графики, диаграммы), а...
Забавная статья, в которой показано как 4 разными способами сделать левый джоин. В начале статьи подробно объясняется что вообще такое этот левый джоин на примере экселевских функций ИНДЕКС/ПОИСКПОЗ и ВПР. Радует то, что рассказывается как работает каждое из решений, а также сравнивается производительность. https://towardsdatascience.com/name-your-favorite-excel-function-and-ill-teach-you-its-pandas-equivalent-7ee4400ada9f
Medium
Name Your Favorite Excel Function and I’ll Teach You its Pandas Equivalent
In this post we leverage popular library, Pandas, to code out ways to achieve an Index/Match in Python code.
Так. Важная веха. Нас тут 666 человек! Зовите коллег и друзей, которые до сих пор занимаются репортингом в Excel или пишут какие-то гигантские конструкции на языке M в PowerBI. Да придёт к ним прозрение. А ещё напомню, что у канала есть чатик @pydata_chat, где всегда можно задать вопросы и решить свои затыки
Гайд по созданию собственных виджетов внутри Jupyter Notebook. Кнопки, инпуты, ползунки, чекбоксы, вот это всё...
http://bit.ly/2unflQS
http://bit.ly/2unflQS
Medium
How to create buttons in Jupyter
Learn how to start interacting with your code using buttons and other widgets inside your Jupyter Notebook
Мне вот лично очень тяжело заставить себя заниматься визуализацией в Python с помощью Matplotlib, потому что это какая-то слишком неинтуитивная штука, постоянно приходится обращаться к справке, а если нужно что-то кастомизировать сверх шаблонного решения, то приходится показывать мастерство гугления, чтобы понять как отшлифовать визуализацию до нужного вида. Если кто-то сталкивается с такими же проблемами, то вам может пригодится шпаргалка по Matplotlib от DataCamp https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Mozilla сделали свой инструмент для анализа данных Iodide. Попробовать можно тут: https://alpha.iodide.io/tryit Я, если честно, пока не до конца разобрался что получилось.
Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).
Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.
Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).
Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.
Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Хабр
Iodide: интерактивный научный редактор от Mozilla
Изучение аттрактора Лоренца, а затем редактирование кода в Iodide В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению...
Йо-йо! Появилась запись митапа DigitalGod "Погружение в поведенческие данные веб-аналитики", на котором мы с Димой Родиным рассказывали про правильную настройку передачи clientId в Google Analytics, показали скрипт для выгрузки данных из нового User Activity API, а затем рассмотрели крутой пример анализа "сырых" данных о поведении https://digitalgod.be/blog/2019-03-22-meetup-2-deep-dive-web-analytics-data
digitalgod.be
Digital God Meetups / 25 марта / Погружение в поведенческие данные веб-аналитики, GA UserReports
Мы покажем способ работы с данными, который никогда не устареет и не потребует переучиваться каждые несколько лет.
Хорошая обзорная статья про Pandas. Освещаются вопросы от простых до сложных, начиная от того как загнать csv в pandas до не самых очевидных вещей вроде подсчета корреляции (df.cov) между колонками, экспоненциального среднего (df.ewm), нахождения процентного изменения со сдвигом (df.pct_change) https://medium.com/fintechexplained/did-you-know-pandas-can-do-so-much-f65dc7db3051
Medium
Did You Know Pandas Can Do So Much?
Don’t Code Python Without Exploring Pandas First
Если кто-то также как и я захотел наконец-то подтянуть свои знания в статистике, то отчаянно рекомендую курс "Introduction to Statistics" (https://stepik.org/course/701/syllabus) на Stepik. Меня очень радует, что курс содержит только текстовую информацию и никаких видео (мне очень тяжело воспринимать ролики, когда требуется погружение в сложный материал). Также в курсе крутые тестовые задания: радовался как ребенок, когда с первого раза решил задачку сопоставить бокс-плоты с гистограммами😄
Stepik: online education
Introduction to Statistics
The course provides an introduction to statistics and data analysis. During the four week we will discus the most important methods and concepts of statistics.