Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Часто бывает так, что данные для анализа не хранятся в виде удобного csv-файлика или в базе данных, а представляют собой какую-нибудь мало-структурированную кашу, например, логи сервера или длинный эвент лог в формате txt с произвольной структурой. Тогда приходится прежде всего решать задачу извлечения данных в таком виде, чтобы их затем можно было загнать в датафрейм. В блоге DataQuest есть интересный туториал с примером извлечения данных с помощью регулярных выражений https://www.dataquest.io/blog/regular-expressions-data-scientists
Большой пост про различные неочевидные возможности Pandas. Охватывает очень много всяких небольших хаков, про которые вы могли не знать. Например, про функцию map, расчет скользящего среднего, про ресемплирование на time series, stack и unstack и ещё много всяких интересных штуковин http://deanla.com/dont_reinvent_pandas.html
Если вы работаете в Jupyter Notebook или в JupyterLab, то советую поставить расширение Qgrid. Это расширение позволяет добавить к привычной табличной визуализации датафрейма функционал сортировки и фильтрации. Крайне рекомендую!
https://github.com/quantopian/qgrid
Туториал про создание бота для Telegram, который поможет автоматизировать отчетность. Всего в несколько десятков строк кода. Такой бот будет вытягивать данные из Google BigQuery, визуализировать их с помощью Matplotlib и отдавать визуализацию в сообщении Телеграма. Хороший способ автоматизировать задачи отчетности, повторяющиеся изо дня в день. https://habr.com/ru/company/skillbox/blog/443702/
Забавная статья, в которой показано как 4 разными способами сделать левый джоин. В начале статьи подробно объясняется что вообще такое этот левый джоин на примере экселевских функций ИНДЕКС/ПОИСКПОЗ и ВПР. Радует то, что рассказывается как работает каждое из решений, а также сравнивается производительность. https://towardsdatascience.com/name-your-favorite-excel-function-and-ill-teach-you-its-pandas-equivalent-7ee4400ada9f
Так. Важная веха. Нас тут 666 человек! Зовите коллег и друзей, которые до сих пор занимаются репортингом в Excel или пишут какие-то гигантские конструкции на языке M в PowerBI. Да придёт к ним прозрение. А ещё напомню, что у канала есть чатик @pydata_chat, где всегда можно задать вопросы и решить свои затыки
Гайд по созданию собственных виджетов внутри Jupyter Notebook. Кнопки, инпуты, ползунки, чекбоксы, вот это всё...
http://bit.ly/2unflQS
Мне вот лично очень тяжело заставить себя заниматься визуализацией в Python с помощью Matplotlib, потому что это какая-то слишком неинтуитивная штука, постоянно приходится обращаться к справке, а если нужно что-то кастомизировать сверх шаблонного решения, то приходится показывать мастерство гугления, чтобы понять как отшлифовать визуализацию до нужного вида. Если кто-то сталкивается с такими же проблемами, то вам может пригодится шпаргалка по Matplotlib от DataCamp https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Mozilla сделали свой инструмент для анализа данных Iodide. Попробовать можно тут: https://alpha.iodide.io/tryit Я, если честно, пока не до конца разобрался что получилось.

Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).

Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.

Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Йо-йо! Появилась запись митапа DigitalGod "Погружение в поведенческие данные веб-аналитики", на котором мы с Димой Родиным рассказывали про правильную настройку передачи clientId в Google Analytics, показали скрипт для выгрузки данных из нового User Activity API, а затем рассмотрели крутой пример анализа "сырых" данных о поведении https://digitalgod.be/blog/2019-03-22-meetup-2-deep-dive-web-analytics-data
Хорошая обзорная статья про Pandas. Освещаются вопросы от простых до сложных, начиная от того как загнать csv в pandas до не самых очевидных вещей вроде подсчета корреляции (df.cov) между колонками, экспоненциального среднего (df.ewm), нахождения процентного изменения со сдвигом (df.pct_change) https://medium.com/fintechexplained/did-you-know-pandas-can-do-so-much-f65dc7db3051
Если кто-то также как и я захотел наконец-то подтянуть свои знания в статистике, то отчаянно рекомендую курс "Introduction to Statistics" (https://stepik.org/course/701/syllabus) на Stepik. Меня очень радует, что курс содержит только текстовую информацию и никаких видео (мне очень тяжело воспринимать ролики, когда требуется погружение в сложный материал). Также в курсе крутые тестовые задания: радовался как ребенок, когда с первого раза решил задачку сопоставить бокс-плоты с гистограммами😄
Хорошая статья, в которой приводится пример простого (но от этого не менее полезного) анализа статистики группы ВКонтакте. Автор сначала получает данные через API (ноутбук со скриптом http://bit.ly/2HTjUv6), а затем с помощью Pandas и Matplotlib строит графики, позволяющие увидеть интересные закономерности https://habr.com/ru/post/440738/
Алексей Куличевский написал один из самых объёмных и доступных для понимания русскоязычных материалов по Pandas. Это бомба 💣 🔥http://smysl.io/blog/pandas/
Для одних визуализация данных является неотъемлемой частью их профессиональной деятельности, а для других — занимательным хобби. Для обмена опытом, взаимопомощи и эффективного обучения было основано Data Visualization Society. Присоединяйтесь! ✊🏻http://tiny.cc/egrs4y
Статья про продвинутое использование Jupyter Notebook. Если вы не в курсе что такое magic-команды и не знали, что можно выполнять shell'овские команды прямо из Юпитера, то найдете в статье много нового😉https://www.dataquest.io/blog/advanced-jupyter-notebooks-tutorial/