Datalytics – Telegram

Datalytics

9.07K subscribers

218 photos

17 videos

5 files

673 links

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение — @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr

Download Telegram

About

Blog

Apps

Platform

9.07K subscribers

Anaconda сделали инструмент для создания дашбордов в вебе - Panel.

По функционалу получилась штука сильно похожая на Dash или на Shiny в R. Радует, что в отличие от Dash, конфигурация дашбордов достаточно высокоуровневая (посмотрите пример построения простенького дашборда).

Помимо создания дашбордов, одной из задач, которую предлагается решать с помощью Panel - это создание простеньких прототипов приложений, работающих с данными. К примеру, с помощью Panel аналитики могут создавать собственные сервисы, предоставляющие UI к пайплайну обработки данных.

https://medium.com/@philipp.jfr/panel-announcement-2107c2b15f52

A high-level app and dashboarding solution for the PyData ecosystem.

5.25K viewsedited 12:35

Крутая хардкорная статья Максима Цветкова про тестирование статистических гипотез с помощью Python.

https://your-scorpion.ru/python-data-analysis/

3.04K views09:54

Статья про импорт данных в датафрейм Pandas из JSON и HTML. Достаточно простенькая, но с интересным примером импорта JSON с вложенными объектами

https://www.datacamp.com/community/tutorials/importing-data-into-pandas

Importing Data into pandas

Learn how to load and import web data formats such as JSON & HTML into pandas DataFrames. Follow our tutorial and code examples loading crypto today!

2.26K views12:09

Datalytics pinned «Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью. С…»

13:39

Роскошная статья про применение теории вероятности на практике. Erik Bernhardsson показывает как можно отображать статистические характеристики распределений на визуализациях. Просто кладезь готовых рецептов: boxplot'ы, отображение доверительных интервалов (как для непрерывных величин, так и для коэффициентов конверсии), boostraping. Всё с понятными примерами кода. Рекомендую для тех, кто хочет делать выводы, основанные на статистике

https://erikbern.com/2018/10/08/the-hackers-guide-to-uncertainty-estimates.html

Erik Bernhardsson

The hacker's guide to uncertainty estimates

I made a New Year's resolution: every plot I make during 2018 will contain uncertainty estimates. Nine months in and I have learned a lot, so I put together a summary of some of the most useful methods.

2.32K views09:07

Ууу, шестимерные графики! В комментариях упомянули лица Чернова (http://bit.ly/2wYyHwZ), которые, на мой взгляд, представляют собой самый экстраординарный способ визуализации данных. Правда, область применения лиц Чернова достаточно узкая.

https://habr.com/ru/post/456282/

Многомерные графики в Python — от трёхмерных и до шестимерных

Примеры многомерных графиков Введение Визуализация — важная часть анализа данных, а способность посмотреть на несколько измерений одновременно эту задачу облегча...

1.65K views09:09

Вот кстати изображения лиц Чернова

1.56K views09:10

1.75K views09:11

QuantStack (ребята, которые делают ipyWidgets и вообще приложили большие усилия к развитию инфраструктуры Jupyter Notebook и JupyterLab) представили Voila - свою разработку для создания standalone приложений в вебе на основе Jupyter Notebooks.

Работает это так:
1) Вы создаёте ноутбук с интерактивными элементами управления - ipyWidgets. Эти виджеты могут управлять визуализациями, входными данными алгоритмов, параметрами выводимых данных
2) Затем одной командой voila конвертируете ноутбук в web-приложение
3) В web-приложении пользователь не видит ячеек с кодом, остается только маркдаун, виджеты и ячейки вывода. Пользователь взаимодействует с виджетами для изменения результатов на выходе

Шаблоны можно кастомизировать, делать их реактивными с помощью vue.js.

С помощью voila можно создавать дашборды и небольшие прототипы веб-приложений для работы с данными. Получается инструмент похожий на Dash или недавно представленный Panel, но с более низким порогом входа: нужно только знать как работают ipyWidgets.

… from Jupyter notebooks to standalone applications and dashboards

1.79K viewsedited 11:01

Одна из важнейших тенденций последних лет - это интерактивное взаимодействие с данными, в особенности с помощью разного рода визуализаций. Dash - это open-source фреймворк, который позволяет создавать крутые дашборды.

Также посмотрите краткое русскоязычное руководство по созданию дашбордов с помощью Dash:
https://habr.com/ru/post/431754/

Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout

Всем привет! Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам...

1.9K views07:54

Дима Родин из DigitalGod написал гайд о том как поднять Metabase, который поддерживает Clickhouse.

Если кто вдруг не знает что такое Metabase, то это крутая опенсорсная data exploration платформа, позволяющая в удобной форме исследовать данные и создавать дашборды.

Metabase поддерживает много различных коннекторов (в том числе Google Analytics, Postgres, BigQuery), но среди них не было Clickhouse. Сборка Димы решает эту проблему и теперь вы можете использовать отличное хранилище данных вместе с отличной BI-платформой.

https://digitalgod.be/guides/metabase_clickhouse_rockstat

Guildes / Metabase + Clickhouse в Rockstat

Учимся делать свою конфигурацию рокстата, а заодно хватаем эксклюзивный метабейз с поддержкой ClickHouse

2.07K viewsedited 13:23

Подборка небольших полезных хаков для анализа данных в Python. В основном собраны советы по работе в Jupyter Notebook, например, Pandas Profiling, использование magic-команд и фишки дебаггинга в ноутбуке

https://habr.com/ru/post/457302/

10 фич для ускорения анализа данных в Python

Источник Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала...

1.9K views11:29

Удивительно простой пример применения критерия хи-квадрат для проверки гипотезы о том, что количество рабочих часов в неделю зависит от пола работника.

Освящаются следующие вопросы: построение таблицы сопряженности с помощью crosstab в pandas; визуализация этой таблицы; расчет критерия хи-квадрат.

Отдельный плюс этого примера в том, что для расчета хи-квадрата не используется никаких дополнительных статистических пакетов (например, scipy.stats). Это позволяет понять смысл расчета, а не бездумно экспортировать модули.

https://codingdisciple.com/chi-squared-python.html

Coding Disciple

Chi-Squared Test for Independence in Python

So far, we've been comparing data with at least one one numerical(continuous) column and one categorical(nominal) column. So what happens if we want to determine the statistical significance of two independent categorical groups of data? This is where the…

2.02K views07:56

Большой гайд по использованию лямбда-функций в Python

https://realpython.com/python-lambda/

How to Use Python Lambda Functions – Real Python

In this step-by-step tutorial, you'll learn about Python lambda functions. You'll see how they compare with regular functions and how you can use them in accordance with best practices.

2.05K views08:08

Отличный пример визуализации геоданных с помощью библиотеки Folium. В статье разбирается кейс выбора места для открытия нового филиала организации.

Интересно, что автор использовал открытые данные для определения населения в конкретной области карты.

https://habr.com/ru/post/456856/

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания...

2.03K views09:01

Статья про контроль версий в Jupyter Notebook.

Разбирается как совладать с главной сложностью контроля версий ноутбуков: файлы ipynb содержат кучу метаданных о форматировании и визуализациях. Таким образом, сравнивать версии ноутбуков между собой в режиме «чистого» текста (plain–text) становится достаточно сложно, так как исчезает главный плюс ноутбуков — восприятие исследования не просто как кода, а как некоторой интерактивной истории.

Среди предложенных методов: конвертировать ноутбук сначала в html или py, а затем использовать обычную систему контроля версий (например, git); использовать специальные vcs для ноутбуков (nbdime, ReviewNB, Jupytext).

https://nextjournal.com/schmudde/how-to-version-control-jupyter

How to Version Control Jupyter Notebooks

Jupyter notebooks generate files that may contain metadata, source code, formatted text, and rich media. Unfortunately, this makes these files poor candidates for conventional version control solutions, which works best with plain text.

2.02K views11:31

Большой гайд по типам данных в NumPy и распространенных манипуляциях с ними. Также приводятся интересные примеры того как выглядят тексты, изображения, звуковые дорожки, преобразованные в numpy-array.
https://jalammar.github.io/visual-numpy/

jalammar.github.io

A Visual Intro to NumPy and Data Representation

Discussions:
Hacker News (366 points, 21 comments), Reddit r/MachineLearning (256 points, 18 comments)

Translations: Chinese 1, Chinese 2, Japanese, Korean

The NumPy package is the workhorse of data analysis, machine learning, and scientific computing…

1.88K views07:33

Пример построения инфраструктуры по передаче данных из Google Analytics в Google BigQuery с указанием ClientID, SessionID и HitID. Вытаскивание данных из Google Analytics API и передача в BQ реализованы на Python, в статье есть примеры кода. По сути, ничего не мешает использовать в место BQ свой Clickhouse или другую приглянувшуюся БД.

https://habr.com/ru/company/idfinance/blog/457052/

Как настроить инфраструктуру веб-аналитики за $100 в месяц

Рано или поздно почти любая компания сталкивается с проблемой развития веб-аналитики. Это не значит, что нужно только поставить код Google Analytics на сайт — нужно найти пользу в полученных данных. В...

2.04K views11:44

Перевод статьи об оптимизации работы с Jupyter Notebook. Рассмотрены основные горячие клавиши, установка дополнений, использование magic-команд

https://tproger.ru/translations/how-to-optimize-jupyter-notebook/

Как оптимизировать работу в Jupyter Notebook

Оптимизируем работу в Jupyter Notebook с помощью основных команд и расширений и добавляем немного магии, чтобы всё стало ещё быстрее и проще.

1.71K views07:13

В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.

В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.

https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3

Cleaning and Prepping Data with Python for Data Science — Best Practices and Helpful Packages

1.73K views12:35

Forwarded from DataEng

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

166 views16:22