Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Так. Важная веха. Нас тут 666 человек! Зовите коллег и друзей, которые до сих пор занимаются репортингом в Excel или пишут какие-то гигантские конструкции на языке M в PowerBI. Да придёт к ним прозрение. А ещё напомню, что у канала есть чатик @pydata_chat, где всегда можно задать вопросы и решить свои затыки
Гайд по созданию собственных виджетов внутри Jupyter Notebook. Кнопки, инпуты, ползунки, чекбоксы, вот это всё...
http://bit.ly/2unflQS
Мне вот лично очень тяжело заставить себя заниматься визуализацией в Python с помощью Matplotlib, потому что это какая-то слишком неинтуитивная штука, постоянно приходится обращаться к справке, а если нужно что-то кастомизировать сверх шаблонного решения, то приходится показывать мастерство гугления, чтобы понять как отшлифовать визуализацию до нужного вида. Если кто-то сталкивается с такими же проблемами, то вам может пригодится шпаргалка по Matplotlib от DataCamp https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Mozilla сделали свой инструмент для анализа данных Iodide. Попробовать можно тут: https://alpha.iodide.io/tryit Я, если честно, пока не до конца разобрался что получилось.

Создатели разнесли логику блокнотов на три составляющие:
- Editor, где можно задавать код на разных языках (js, css, python);
- Report Preview, где отображается вывод маркдауна, то есть результат исследования;
- Console, где выводится отладочная информация).

Тем самым Mozilla пытаются решить проблему шаринга результатов исследования, чтобы не приходилось потом собирать какой-нибудь отдельный Гугл Док с результатами и графиками. То есть идеальный процесс такой анализа данных в данном случае выглядит так, что аналитик попутно с разработкой алгоритма анализа сразу же выводит в Report найденные инсайты, оформленные в понятном для всех виде.

Задумка и подход интересные. Будем разбираться https://habr.com/ru/post/444596/
Йо-йо! Появилась запись митапа DigitalGod "Погружение в поведенческие данные веб-аналитики", на котором мы с Димой Родиным рассказывали про правильную настройку передачи clientId в Google Analytics, показали скрипт для выгрузки данных из нового User Activity API, а затем рассмотрели крутой пример анализа "сырых" данных о поведении https://digitalgod.be/blog/2019-03-22-meetup-2-deep-dive-web-analytics-data
Хорошая обзорная статья про Pandas. Освещаются вопросы от простых до сложных, начиная от того как загнать csv в pandas до не самых очевидных вещей вроде подсчета корреляции (df.cov) между колонками, экспоненциального среднего (df.ewm), нахождения процентного изменения со сдвигом (df.pct_change) https://medium.com/fintechexplained/did-you-know-pandas-can-do-so-much-f65dc7db3051
Если кто-то также как и я захотел наконец-то подтянуть свои знания в статистике, то отчаянно рекомендую курс "Introduction to Statistics" (https://stepik.org/course/701/syllabus) на Stepik. Меня очень радует, что курс содержит только текстовую информацию и никаких видео (мне очень тяжело воспринимать ролики, когда требуется погружение в сложный материал). Также в курсе крутые тестовые задания: радовался как ребенок, когда с первого раза решил задачку сопоставить бокс-плоты с гистограммами😄
Хорошая статья, в которой приводится пример простого (но от этого не менее полезного) анализа статистики группы ВКонтакте. Автор сначала получает данные через API (ноутбук со скриптом http://bit.ly/2HTjUv6), а затем с помощью Pandas и Matplotlib строит графики, позволяющие увидеть интересные закономерности https://habr.com/ru/post/440738/
Алексей Куличевский написал один из самых объёмных и доступных для понимания русскоязычных материалов по Pandas. Это бомба 💣 🔥http://smysl.io/blog/pandas/
Для одних визуализация данных является неотъемлемой частью их профессиональной деятельности, а для других — занимательным хобби. Для обмена опытом, взаимопомощи и эффективного обучения было основано Data Visualization Society. Присоединяйтесь! ✊🏻http://tiny.cc/egrs4y
Статья про продвинутое использование Jupyter Notebook. Если вы не в курсе что такое magic-команды и не знали, что можно выполнять shell'овские команды прямо из Юпитера, то найдете в статье много нового😉https://www.dataquest.io/blog/advanced-jupyter-notebooks-tutorial/
Короткий гайд об использовании функций map и replace в Pandas https://kanoki.org/2019/04/06/pandas-map-dictionary-values-with-dataframe-columns/
JetBrains объявили о сотрудничестве с Anaconda. Первым шагом стал новый релиз PyCharm, в котором улучшена поддержка окружений Conda. Также JetBrains анонсировали PyCharm for Anaconda ( https://www.jetbrains.com/pycharm/promo/anaconda/) - полноценную среду разработки для анализа данных и различных научных вычислений с поддержкой Jupyter Notebooks. Жить становится лучше, жить становится веселее😊 https://blog.jetbrains.com/pycharm/2019/04/collaboration-with-anaconda-inc/
Павел Максимов (@pavel_maksimow) выложил в открытый доступ обертку для более удобной работы с API Google Analytics на Python.

- Умеет запрашивать данные маленькими порциями, чтобы обойти семплирование.

- Если в один ответ не поместятся все строки (макс 10000), сделает дополнительные запросы.

- По умолчанию возвращает данные в формате dataframe.

Налетай! Торопись! https://bit.ly/2WYeDpr
Небольшой гайд про выбор (слайсинг) данных из датафрейма. Новичкам будет полезно для того, чтобы понять чем loc отличается от iloc и когда нужно использовать какую из функций. Также там есть интересный пример использования filter для формирования выборки на основе регулярки https://www.pluralsight.com/guides/indexing-selecting-data
Алексей Куличевский написал статью о том как сделать когортный анализ в Pandas. Как всегда подробно и круто! http://smysl.io/blog/pandas-cohorts/