Часто бывает так, что данные для анализа не хранятся в виде удобного csv-файлика или в базе данных, а представляют собой какую-нибудь мало-структурированную кашу, например, логи сервера или длинный эвент лог в формате txt с произвольной структурой. Тогда приходится прежде всего решать задачу извлечения данных в таком виде, чтобы их затем можно было загнать в датафрейм. В блоге DataQuest есть интересный туториал с примером извлечения данных с помощью регулярных выражений https://www.dataquest.io/blog/regular-expressions-data-scientists
Dataquest
Tutorial: Python Regex (Regular Expressions) for Data Scientists
In this Python regex tutorial, learn how to use regular expressions and the pandas library to manage large data sets during data analysis.
Большой пост про различные неочевидные возможности Pandas. Охватывает очень много всяких небольших хаков, про которые вы могли не знать. Например, про функцию map, расчет скользящего среднего, про ресемплирование на time series, stack и unstack и ещё много всяких интересных штуковин http://deanla.com/dont_reinvent_pandas.html
DeanLa
Diving into Pandas is Faster than Reinventing it
This notebook aims to show some nice ways modern Pandas makes your life easier. It is not about efficiency. I'm pretty sure using Pandas' built-in methods will be more efficient than reinventing pandas, but the main goal is to make the code easier to read…
Если вы работаете в Jupyter Notebook или в JupyterLab, то советую поставить расширение Qgrid. Это расширение позволяет добавить к привычной табличной визуализации датафрейма функционал сортировки и фильтрации. Крайне рекомендую!
https://github.com/quantopian/qgrid
https://github.com/quantopian/qgrid
Туториал про создание бота для Telegram, который поможет автоматизировать отчетность. Всего в несколько десятков строк кода. Такой бот будет вытягивать данные из Google BigQuery, визуализировать их с помощью Matplotlib и отдавать визуализацию в сообщении Телеграма. Хороший способ автоматизировать задачи отчетности, повторяющиеся изо дня в день. https://habr.com/ru/company/skillbox/blog/443702/
Хабр
Как делегировать простые отчеты роботу. Пишем бота на Python и Google BigQuery
Есть ли у вас задачи, которые повторяются изо дня в день, из недели в неделю? Например, написание отчетов. Вы запрашиваете данные, проводите анализ, визуализируете (делаете графики, диаграммы), а...
Забавная статья, в которой показано как 4 разными способами сделать левый джоин. В начале статьи подробно объясняется что вообще такое этот левый джоин на примере экселевских функций ИНДЕКС/ПОИСКПОЗ и ВПР. Радует то, что рассказывается как работает каждое из решений, а также сравнивается производительность. https://towardsdatascience.com/name-your-favorite-excel-function-and-ill-teach-you-its-pandas-equivalent-7ee4400ada9f
Medium
Name Your Favorite Excel Function and I’ll Teach You its Pandas Equivalent
In this post we leverage popular library, Pandas, to code out ways to achieve an Index/Match in Python code.
Так. Важная веха. Нас тут 666 человек! Зовите коллег и друзей, которые до сих пор занимаются репортингом в Excel или пишут какие-то гигантские конструкции на языке M в PowerBI. Да придёт к ним прозрение. А ещё напомню, что у канала есть чатик @pydata_chat, где всегда можно задать вопросы и решить свои затыки
Гайд по созданию собственных виджетов внутри Jupyter Notebook. Кнопки, инпуты, ползунки, чекбоксы, вот это всё...
http://bit.ly/2unflQS
http://bit.ly/2unflQS
Medium
How to create buttons in Jupyter
Learn how to start interacting with your code using buttons and other widgets inside your Jupyter Notebook
Мне вот лично очень тяжело заставить себя заниматься визуализацией в Python с помощью Matplotlib, потому что это какая-то слишком неинтуитивная штука, постоянно приходится обращаться к справке, а если нужно что-то кастомизировать сверх шаблонного решения, то приходится показывать мастерство гугления, чтобы понять как отшлифовать визуализацию до нужного вида. Если кто-то сталкивается с такими же проблемами, то вам может пригодится шпаргалка по Matplotlib от DataCamp https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Mozilla сделали свой инструмент для анализа данных Iodide. Попробовать можно тут: https://alpha.iodide.io/tryit Я, если честно, пока не до конца разобрался что получилось.
Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).
Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.
Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).
Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.
Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Хабр
Iodide: интерактивный научный редактор от Mozilla
Изучение аттрактора Лоренца, а затем редактирование кода в Iodide В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению...
Йо-йо! Появилась запись митапа DigitalGod "Погружение в поведенческие данные веб-аналитики", на котором мы с Димой Родиным рассказывали про правильную настройку передачи clientId в Google Analytics, показали скрипт для выгрузки данных из нового User Activity API, а затем рассмотрели крутой пример анализа "сырых" данных о поведении https://digitalgod.be/blog/2019-03-22-meetup-2-deep-dive-web-analytics-data
digitalgod.be
Digital God Meetups / 25 марта / Погружение в поведенческие данные веб-аналитики, GA UserReports
Мы покажем способ работы с данными, который никогда не устареет и не потребует переучиваться каждые несколько лет.
Хорошая обзорная статья про Pandas. Освещаются вопросы от простых до сложных, начиная от того как загнать csv в pandas до не самых очевидных вещей вроде подсчета корреляции (df.cov) между колонками, экспоненциального среднего (df.ewm), нахождения процентного изменения со сдвигом (df.pct_change) https://medium.com/fintechexplained/did-you-know-pandas-can-do-so-much-f65dc7db3051
Medium
Did You Know Pandas Can Do So Much?
Don’t Code Python Without Exploring Pandas First
Если кто-то также как и я захотел наконец-то подтянуть свои знания в статистике, то отчаянно рекомендую курс "Introduction to Statistics" (https://stepik.org/course/701/syllabus) на Stepik. Меня очень радует, что курс содержит только текстовую информацию и никаких видео (мне очень тяжело воспринимать ролики, когда требуется погружение в сложный материал). Также в курсе крутые тестовые задания: радовался как ребенок, когда с первого раза решил задачку сопоставить бокс-плоты с гистограммами😄
Stepik: online education
Introduction to Statistics
The course provides an introduction to statistics and data analysis. During the four week we will discus the most important methods and concepts of statistics.
Статья о том как с помощью библиотеки PyMySQL делать запросы к базе данных MySQL из Python https://khashtamov.com/ru/mysql-python/
Khashtamov
Работа с MySQL в Python
Ранее я уже писал статью про работу с PostgreSQL из Python. Сегодняшний пост будет посвящен другой популярной базе данных MySQL. Мой путь в веб-программирование был классическим: PHP, MySQL и Apache.…
Хорошая статья, в которой приводится пример простого (но от этого не менее полезного) анализа статистики группы ВКонтакте. Автор сначала получает данные через API (ноутбук со скриптом http://bit.ly/2HTjUv6), а затем с помощью Pandas и Matplotlib строит графики, позволяющие увидеть интересные закономерности https://habr.com/ru/post/440738/
10 примеров нестандартного использования команд в Pandas. Лично я для себя открыл интересный пример про процентильные группы, буду использовать. https://proglib.io/p/pandas-tricks/
Библиотека программиста
10 трюков библиотеки Python Pandas, которые вам нужны
Любите панд? Мы тоже. А еще мы любим эффективный код, поэтому собрали классные трюки, которые облегчат работу с библиотекой Python Pandas.
Алексей Куличевский написал один из самых объёмных и доступных для понимания русскоязычных материалов по Pandas. Это бомба 💣 🔥http://smysl.io/blog/pandas/
smysl.io
Аналитикам: большая шпаргалка по Pandas
Для одних визуализация данных является неотъемлемой частью их профессиональной деятельности, а для других — занимательным хобби. Для обмена опытом, взаимопомощи и эффективного обучения было основано Data Visualization Society. Присоединяйтесь! ✊🏻http://tiny.cc/egrs4y
Medium
Представляем вам Сообщество Визуализации Данных
English | Espanol | Português | Română
Статья про продвинутое использование Jupyter Notebook. Если вы не в курсе что такое magic-команды и не знали, что можно выполнять shell'овские команды прямо из Юпитера, то найдете в статье много нового😉https://www.dataquest.io/blog/advanced-jupyter-notebooks-tutorial/
Dataquest
Advanced Jupyter Notebook Tutorial – Dataquest
If you're doing data science in Python, notebooks are a powerful tool. This free Jupyter Notebooks tutorial has will help you get the best out of Jupyter.
Короткий гайд об использовании функций map и replace в Pandas https://kanoki.org/2019/04/06/pandas-map-dictionary-values-with-dataframe-columns/