Datalytics – Telegram

Datalytics

9.07K subscribers

218 photos

17 videos

5 files

673 links

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение — @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr

Download Telegram

About

Blog

Apps

Platform

9.07K subscribers

1.75K views09:11

QuantStack (ребята, которые делают ipyWidgets и вообще приложили большие усилия к развитию инфраструктуры Jupyter Notebook и JupyterLab) представили Voila - свою разработку для создания standalone приложений в вебе на основе Jupyter Notebooks.

Работает это так:
1) Вы создаёте ноутбук с интерактивными элементами управления - ipyWidgets. Эти виджеты могут управлять визуализациями, входными данными алгоритмов, параметрами выводимых данных
2) Затем одной командой voila конвертируете ноутбук в web-приложение
3) В web-приложении пользователь не видит ячеек с кодом, остается только маркдаун, виджеты и ячейки вывода. Пользователь взаимодействует с виджетами для изменения результатов на выходе

Шаблоны можно кастомизировать, делать их реактивными с помощью vue.js.

С помощью voila можно создавать дашборды и небольшие прототипы веб-приложений для работы с данными. Получается инструмент похожий на Dash или недавно представленный Panel, но с более низким порогом входа: нужно только знать как работают ipyWidgets.

… from Jupyter notebooks to standalone applications and dashboards

1.79K viewsedited 11:01

Одна из важнейших тенденций последних лет - это интерактивное взаимодействие с данными, в особенности с помощью разного рода визуализаций. Dash - это open-source фреймворк, который позволяет создавать крутые дашборды.

Также посмотрите краткое русскоязычное руководство по созданию дашбордов с помощью Dash:
https://habr.com/ru/post/431754/

Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout

Всем привет! Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам...

1.9K views07:54

Дима Родин из DigitalGod написал гайд о том как поднять Metabase, который поддерживает Clickhouse.

Если кто вдруг не знает что такое Metabase, то это крутая опенсорсная data exploration платформа, позволяющая в удобной форме исследовать данные и создавать дашборды.

Metabase поддерживает много различных коннекторов (в том числе Google Analytics, Postgres, BigQuery), но среди них не было Clickhouse. Сборка Димы решает эту проблему и теперь вы можете использовать отличное хранилище данных вместе с отличной BI-платформой.

https://digitalgod.be/guides/metabase_clickhouse_rockstat

Guildes / Metabase + Clickhouse в Rockstat

Учимся делать свою конфигурацию рокстата, а заодно хватаем эксклюзивный метабейз с поддержкой ClickHouse

2.07K viewsedited 13:23

Подборка небольших полезных хаков для анализа данных в Python. В основном собраны советы по работе в Jupyter Notebook, например, Pandas Profiling, использование magic-команд и фишки дебаггинга в ноутбуке

https://habr.com/ru/post/457302/

10 фич для ускорения анализа данных в Python

Источник Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала...

1.9K views11:29

Удивительно простой пример применения критерия хи-квадрат для проверки гипотезы о том, что количество рабочих часов в неделю зависит от пола работника.

Освящаются следующие вопросы: построение таблицы сопряженности с помощью crosstab в pandas; визуализация этой таблицы; расчет критерия хи-квадрат.

Отдельный плюс этого примера в том, что для расчета хи-квадрата не используется никаких дополнительных статистических пакетов (например, scipy.stats). Это позволяет понять смысл расчета, а не бездумно экспортировать модули.

https://codingdisciple.com/chi-squared-python.html

Coding Disciple

Chi-Squared Test for Independence in Python

So far, we've been comparing data with at least one one numerical(continuous) column and one categorical(nominal) column. So what happens if we want to determine the statistical significance of two independent categorical groups of data? This is where the…

2.02K views07:56

Большой гайд по использованию лямбда-функций в Python

https://realpython.com/python-lambda/

How to Use Python Lambda Functions – Real Python

In this step-by-step tutorial, you'll learn about Python lambda functions. You'll see how they compare with regular functions and how you can use them in accordance with best practices.

2.05K views08:08

Отличный пример визуализации геоданных с помощью библиотеки Folium. В статье разбирается кейс выбора места для открытия нового филиала организации.

Интересно, что автор использовал открытые данные для определения населения в конкретной области карты.

https://habr.com/ru/post/456856/

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания...

2.03K views09:01

Статья про контроль версий в Jupyter Notebook.

Разбирается как совладать с главной сложностью контроля версий ноутбуков: файлы ipynb содержат кучу метаданных о форматировании и визуализациях. Таким образом, сравнивать версии ноутбуков между собой в режиме «чистого» текста (plain–text) становится достаточно сложно, так как исчезает главный плюс ноутбуков — восприятие исследования не просто как кода, а как некоторой интерактивной истории.

Среди предложенных методов: конвертировать ноутбук сначала в html или py, а затем использовать обычную систему контроля версий (например, git); использовать специальные vcs для ноутбуков (nbdime, ReviewNB, Jupytext).

https://nextjournal.com/schmudde/how-to-version-control-jupyter

How to Version Control Jupyter Notebooks

Jupyter notebooks generate files that may contain metadata, source code, formatted text, and rich media. Unfortunately, this makes these files poor candidates for conventional version control solutions, which works best with plain text.

2.02K views11:31

Большой гайд по типам данных в NumPy и распространенных манипуляциях с ними. Также приводятся интересные примеры того как выглядят тексты, изображения, звуковые дорожки, преобразованные в numpy-array.
https://jalammar.github.io/visual-numpy/

jalammar.github.io

A Visual Intro to NumPy and Data Representation

Discussions:
Hacker News (366 points, 21 comments), Reddit r/MachineLearning (256 points, 18 comments)

Translations: Chinese 1, Chinese 2, Japanese, Korean

The NumPy package is the workhorse of data analysis, machine learning, and scientific computing…

1.88K views07:33

Пример построения инфраструктуры по передаче данных из Google Analytics в Google BigQuery с указанием ClientID, SessionID и HitID. Вытаскивание данных из Google Analytics API и передача в BQ реализованы на Python, в статье есть примеры кода. По сути, ничего не мешает использовать в место BQ свой Clickhouse или другую приглянувшуюся БД.

https://habr.com/ru/company/idfinance/blog/457052/

Как настроить инфраструктуру веб-аналитики за $100 в месяц

Рано или поздно почти любая компания сталкивается с проблемой развития веб-аналитики. Это не значит, что нужно только поставить код Google Analytics на сайт — нужно найти пользу в полученных данных. В...

2.04K views11:44

Перевод статьи об оптимизации работы с Jupyter Notebook. Рассмотрены основные горячие клавиши, установка дополнений, использование magic-команд

https://tproger.ru/translations/how-to-optimize-jupyter-notebook/

Как оптимизировать работу в Jupyter Notebook

Оптимизируем работу в Jupyter Notebook с помощью основных команд и расширений и добавляем немного магии, чтобы всё стало ещё быстрее и проще.

1.71K views07:13

В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.

В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.

https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3

Cleaning and Prepping Data with Python for Data Science — Best Practices and Helpful Packages

1.73K views12:35

Forwarded from DataEng

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

166 views16:22

Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.

https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7

Apply and Lambda usage in pandas

Learn these to master Pandas

1.7K views09:28

Forwarded from DevBrain

Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.

После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.

Видео можно посмотреть вот тут.

Исходник jupyter notebook можно скачать здесь

Введение в pandas: анализ данных на Python

pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…

206 views07:22

Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете reset_index(drop=True), то почитайте статью про индексацию в датафрейме

https://brohrer.github.io/dataframe_indexing.html

1.97K viewsedited 12:48

Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях

https://risk-engineering.org/notebook/data-analysis-weather.html

1.87K views08:42

Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.

https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/

Python's Bokeh Library for Interactive Data Visualization

Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…

2K views09:16

Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!

Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

https://habr.com/ru/post/460321/

Галерея лучших блокнотов по ML и Data Science

Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...

2.15K views11:55

Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.

https://www.datacamp.com/community/tutorials/probability-distributions-python

Probability Distributions in Python Tutorial

Learn about probability distributions with Python. Understand common distributions used in machine learning today!

1.98K views08:00