Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Интересная статья с примером использования функции melt в Pandas.
Зачастую для удобства анализа нужно преобразовать данные из сводной таблицы в нормальный вид, где каждая строка характеризует наблюдение или группу наблюдений. Такое преобразование позволяет привести данные к так называемому виду tidy data (https://en.wikipedia.org/wiki/Tidy_data). Когда вы работаете с tidy, то использовать функции Pandas становится удобнее, т.к. каждый столбец характеризует значение одного признака, а значит проще применять groupby или другие операции к колонкам датафрейма. Привести сводную таблицу к такому виду можно с помощью функции melt.
https://towardsdatascience.com/transforming-data-in-python-with-pandas-melt-854221daf507
Краткий экскурс, который познакомит вас с библиотекой Dask, предназначенной для распараллеливания задач на Python.

Если вам нравятся Pandas и Numpy, но иногда вам не удается справиться с данными, не умещающимися в RAM, то Dask – именно то, что вам нужно. Dask поддерживает датафреймы Pandas и массивы Numpy. Dask можно запускать либо на локальном компьютере, либо масштабировать, а затем запускать в кластере.

https://m.habr.com/ru/company/piter/blog/454262/
Статья о том как парсить сайты с помощью BeautifulSoup, Selenium и PhantomJS. Связка BeautifulSoup и Selenium распространена при парсинге сайтов с различным контентом, подгружаемым с помощью AJAX. Так что если вы хотите парсить сайты с динамически-подгружаемым контентом, то рекомендую к ознакомлению

https://likegeeks.com/python-web-scraping/
У меня тут в чатике пишут, что PhantomJS умер. Разработку и поддержку прекратили. Добрые люди рекомендуют посмотреть в сторону Splash. Тут же нашел ролик, где Splash используется в связке со Scrapy. Автор доходчиво объясняет принцип парсинга на примере получения данных с сайта букмерской конторы. https://www.youtube.com/watch?v=rofkkuSf9iA
Крутой пример статистического анализа данных с применением Plotly. Отлично показывает как много полезных инсайтов может дать правильная визуализация

https://towardsdatascience.com/practical-statistics-visualization-with-python-plotly-770e96e35067
Я редко размещаю рекламу, но сейчас воспользуюсь этим каналом для продвижения одной важной штуки, которую мы в CoMagic делали долго и наконец доделали. Это речевая аналитика звонков.

Штука, призванная освободить людей из рабства прослушивания и тегирования звонков и дать всем больше времени, чтобы можно было смотреть ютуб, сериалы, или больше заниматься интересной аналитикой на Python.

https://vc.ru/comagic/70600-kak-rasshifrovka-zvonkov-pomozhet-vam-prodavat-bolshe
Автор замечательной книжки "Automate the Boring Stuff with Python" Al Sweigart написал короткий пост про использование словарей. В нем он даёт свои рекомендации: использовать get для доступа к значению по ключу, а также использовать словарь в качестве case-конструкции. В статье есть понятные примеры.

https://inventwithpython.com/blog/2019/06/05/pythonic-ways-to-use-dictionaries/
Любопытная вакансия для практикующих аналитиков с наличием свободного времени, парт-тайм, удаленка.

Сейчас Skillfactory разрабатывает специализацию «Аналитик данных». Эта специализация предполагает обучение с нуля на аналитических кейсах и тренажерах по инструментам (есть тренажеры для Гугл Таблиц, SQL, Python).
Кейс – реальная задачка из жизни аналитика, которая решается с помощью SQL или Python. Студент изучает Python в тренажере, а потом отрабатывает навыки на практике, решая кейс.

Ребята из Skillfactory в поисках действующего аналитика, которому было бы интересно тестировать такие кейсы с Python перед выпуском и давать обратную связь на кейс в целом. Важно знать Python на уровне, достаточном для анализа данных (pandas, numpy), так как нужно будет решить кейс как студент.

Если кого-то заинтересовало и подходите по критериям (действующий аналитик, работаете на Python), пишите в тг @jane_os
Anaconda сделали инструмент для создания дашбордов в вебе - Panel.

По функционалу получилась штука сильно похожая на Dash или на Shiny в R. Радует, что в отличие от Dash, конфигурация дашбордов достаточно высокоуровневая (посмотрите пример построения простенького дашборда).

Помимо создания дашбордов, одной из задач, которую предлагается решать с помощью Panel - это создание простеньких прототипов приложений, работающих с данными. К примеру, с помощью Panel аналитики могут создавать собственные сервисы, предоставляющие UI к пайплайну обработки данных.

https://medium.com/@philipp.jfr/panel-announcement-2107c2b15f52
Крутая хардкорная статья Максима Цветкова про тестирование статистических гипотез с помощью Python.

https://your-scorpion.ru/python-data-analysis/
Статья про импорт данных в датафрейм Pandas из JSON и HTML. Достаточно простенькая, но с интересным примером импорта JSON с вложенными объектами

https://www.datacamp.com/community/tutorials/importing-data-into-pandas
Datalytics pinned «Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью. С…»
Роскошная статья про применение теории вероятности на практике. Erik Bernhardsson показывает как можно отображать статистические характеристики распределений на визуализациях. Просто кладезь готовых рецептов: boxplot'ы, отображение доверительных интервалов (как для непрерывных величин, так и для коэффициентов конверсии), boostraping. Всё с понятными примерами кода. Рекомендую для тех, кто хочет делать выводы, основанные на статистике

https://erikbern.com/2018/10/08/the-hackers-guide-to-uncertainty-estimates.html
Ууу, шестимерные графики! В комментариях упомянули лица Чернова (http://bit.ly/2wYyHwZ), которые, на мой взгляд, представляют собой самый экстраординарный способ визуализации данных. Правда, область применения лиц Чернова достаточно узкая.

https://habr.com/ru/post/456282/
Вот кстати изображения лиц Чернова
QuantStack (ребята, которые делают ipyWidgets и вообще приложили большие усилия к развитию инфраструктуры Jupyter Notebook и JupyterLab) представили Voila - свою разработку для создания standalone приложений в вебе на основе Jupyter Notebooks.

Работает это так:
1) Вы создаёте ноутбук с интерактивными элементами управления - ipyWidgets. Эти виджеты могут управлять визуализациями, входными данными алгоритмов, параметрами выводимых данных
2) Затем одной командой voila конвертируете ноутбук в web-приложение
3) В web-приложении пользователь не видит ячеек с кодом, остается только маркдаун, виджеты и ячейки вывода. Пользователь взаимодействует с виджетами для изменения результатов на выходе

Шаблоны можно кастомизировать, делать их реактивными с помощью vue.js.

С помощью voila можно создавать дашборды и небольшие прототипы веб-приложений для работы с данными. Получается инструмент похожий на Dash или недавно представленный Panel, но с более низким порогом входа: нужно только знать как работают ipyWidgets.
Одна из важнейших тенденций последних лет - это интерактивное взаимодействие с данными, в особенности с помощью разного рода визуализаций. Dash - это open-source фреймворк, который позволяет создавать крутые дашборды.

Также посмотрите краткое русскоязычное руководство по созданию дашбордов с помощью Dash:
https://habr.com/ru/post/431754/
Дима Родин из DigitalGod написал гайд о том как поднять Metabase, который поддерживает Clickhouse.

Если кто вдруг не знает что такое Metabase, то это крутая опенсорсная data exploration платформа, позволяющая в удобной форме исследовать данные и создавать дашборды.

Metabase поддерживает много различных коннекторов (в том числе Google Analytics, Postgres, BigQuery), но среди них не было Clickhouse. Сборка Димы решает эту проблему и теперь вы можете использовать отличное хранилище данных вместе с отличной BI-платформой.

https://digitalgod.be/guides/metabase_clickhouse_rockstat