Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Anaconda сделали инструмент для создания дашбордов в вебе - Panel.

По функционалу получилась штука сильно похожая на Dash или на Shiny в R. Радует, что в отличие от Dash, конфигурация дашбордов достаточно высокоуровневая (посмотрите пример построения простенького дашборда).

Помимо создания дашбордов, одной из задач, которую предлагается решать с помощью Panel - это создание простеньких прототипов приложений, работающих с данными. К примеру, с помощью Panel аналитики могут создавать собственные сервисы, предоставляющие UI к пайплайну обработки данных.

https://medium.com/@philipp.jfr/panel-announcement-2107c2b15f52
Крутая хардкорная статья Максима Цветкова про тестирование статистических гипотез с помощью Python.

https://your-scorpion.ru/python-data-analysis/
Статья про импорт данных в датафрейм Pandas из JSON и HTML. Достаточно простенькая, но с интересным примером импорта JSON с вложенными объектами

https://www.datacamp.com/community/tutorials/importing-data-into-pandas
Datalytics pinned «Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью. С…»
Роскошная статья про применение теории вероятности на практике. Erik Bernhardsson показывает как можно отображать статистические характеристики распределений на визуализациях. Просто кладезь готовых рецептов: boxplot'ы, отображение доверительных интервалов (как для непрерывных величин, так и для коэффициентов конверсии), boostraping. Всё с понятными примерами кода. Рекомендую для тех, кто хочет делать выводы, основанные на статистике

https://erikbern.com/2018/10/08/the-hackers-guide-to-uncertainty-estimates.html
Ууу, шестимерные графики! В комментариях упомянули лица Чернова (http://bit.ly/2wYyHwZ), которые, на мой взгляд, представляют собой самый экстраординарный способ визуализации данных. Правда, область применения лиц Чернова достаточно узкая.

https://habr.com/ru/post/456282/
Вот кстати изображения лиц Чернова
QuantStack (ребята, которые делают ipyWidgets и вообще приложили большие усилия к развитию инфраструктуры Jupyter Notebook и JupyterLab) представили Voila - свою разработку для создания standalone приложений в вебе на основе Jupyter Notebooks.

Работает это так:
1) Вы создаёте ноутбук с интерактивными элементами управления - ipyWidgets. Эти виджеты могут управлять визуализациями, входными данными алгоритмов, параметрами выводимых данных
2) Затем одной командой voila конвертируете ноутбук в web-приложение
3) В web-приложении пользователь не видит ячеек с кодом, остается только маркдаун, виджеты и ячейки вывода. Пользователь взаимодействует с виджетами для изменения результатов на выходе

Шаблоны можно кастомизировать, делать их реактивными с помощью vue.js.

С помощью voila можно создавать дашборды и небольшие прототипы веб-приложений для работы с данными. Получается инструмент похожий на Dash или недавно представленный Panel, но с более низким порогом входа: нужно только знать как работают ipyWidgets.
Одна из важнейших тенденций последних лет - это интерактивное взаимодействие с данными, в особенности с помощью разного рода визуализаций. Dash - это open-source фреймворк, который позволяет создавать крутые дашборды.

Также посмотрите краткое русскоязычное руководство по созданию дашбордов с помощью Dash:
https://habr.com/ru/post/431754/
Дима Родин из DigitalGod написал гайд о том как поднять Metabase, который поддерживает Clickhouse.

Если кто вдруг не знает что такое Metabase, то это крутая опенсорсная data exploration платформа, позволяющая в удобной форме исследовать данные и создавать дашборды.

Metabase поддерживает много различных коннекторов (в том числе Google Analytics, Postgres, BigQuery), но среди них не было Clickhouse. Сборка Димы решает эту проблему и теперь вы можете использовать отличное хранилище данных вместе с отличной BI-платформой.

https://digitalgod.be/guides/metabase_clickhouse_rockstat
Удивительно простой пример применения критерия хи-квадрат для проверки гипотезы о том, что количество рабочих часов в неделю зависит от пола работника.

Освящаются следующие вопросы: построение таблицы сопряженности с помощью crosstab в pandas; визуализация этой таблицы; расчет критерия хи-квадрат.

Отдельный плюс этого примера в том, что для расчета хи-квадрата не используется никаких дополнительных статистических пакетов (например, scipy.stats). Это позволяет понять смысл расчета, а не бездумно экспортировать модули.

https://codingdisciple.com/chi-squared-python.html
Отличный пример визуализации геоданных с помощью библиотеки Folium. В статье разбирается кейс выбора места для открытия нового филиала организации.

Интересно, что автор использовал открытые данные для определения населения в конкретной области карты.

https://habr.com/ru/post/456856/
Статья про контроль версий в Jupyter Notebook.

Разбирается как совладать с главной сложностью контроля версий ноутбуков: файлы ipynb содержат кучу метаданных о форматировании и визуализациях. Таким образом, сравнивать версии ноутбуков между собой в режиме «чистого» текста (plain–text) становится достаточно сложно, так как исчезает главный плюс ноутбуков — восприятие исследования не просто как кода, а как некоторой интерактивной истории.

Среди предложенных методов: конвертировать ноутбук сначала в html или py, а затем использовать обычную систему контроля версий (например, git); использовать специальные vcs для ноутбуков (nbdime, ReviewNB, Jupytext).

https://nextjournal.com/schmudde/how-to-version-control-jupyter
Большой гайд по типам данных в NumPy и распространенных манипуляциях с ними. Также приводятся интересные примеры того как выглядят тексты, изображения, звуковые дорожки, преобразованные в numpy-array.
https://jalammar.github.io/visual-numpy/
Пример построения инфраструктуры по передаче данных из Google Analytics в Google BigQuery с указанием ClientID, SessionID и HitID. Вытаскивание данных из Google Analytics API и передача в BQ реализованы на Python, в статье есть примеры кода. По сути, ничего не мешает использовать в место BQ свой Clickhouse или другую приглянувшуюся БД.

https://habr.com/ru/company/idfinance/blog/457052/
В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.

В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.

https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3
Forwarded from DataEng
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.