QuantStack (ребята, которые делают ipyWidgets и вообще приложили большие усилия к развитию инфраструктуры Jupyter Notebook и JupyterLab) представили Voila - свою разработку для создания standalone приложений в вебе на основе Jupyter Notebooks.
Работает это так:
1) Вы создаёте ноутбук с интерактивными элементами управления - ipyWidgets. Эти виджеты могут управлять визуализациями, входными данными алгоритмов, параметрами выводимых данных
2) Затем одной командой voila конвертируете ноутбук в web-приложение
3) В web-приложении пользователь не видит ячеек с кодом, остается только маркдаун, виджеты и ячейки вывода. Пользователь взаимодействует с виджетами для изменения результатов на выходе
Шаблоны можно кастомизировать, делать их реактивными с помощью vue.js.
С помощью voila можно создавать дашборды и небольшие прототипы веб-приложений для работы с данными. Получается инструмент похожий на Dash или недавно представленный Panel, но с более низким порогом входа: нужно только знать как работают ipyWidgets.
Работает это так:
1) Вы создаёте ноутбук с интерактивными элементами управления - ipyWidgets. Эти виджеты могут управлять визуализациями, входными данными алгоритмов, параметрами выводимых данных
2) Затем одной командой voila конвертируете ноутбук в web-приложение
3) В web-приложении пользователь не видит ячеек с кодом, остается только маркдаун, виджеты и ячейки вывода. Пользователь взаимодействует с виджетами для изменения результатов на выходе
Шаблоны можно кастомизировать, делать их реактивными с помощью vue.js.
С помощью voila можно создавать дашборды и небольшие прототипы веб-приложений для работы с данными. Получается инструмент похожий на Dash или недавно представленный Panel, но с более низким порогом входа: нужно только знать как работают ipyWidgets.
Medium
And Voilà!
… from Jupyter notebooks to standalone applications and dashboards
Одна из важнейших тенденций последних лет - это интерактивное взаимодействие с данными, в особенности с помощью разного рода визуализаций. Dash - это open-source фреймворк, который позволяет создавать крутые дашборды.
Также посмотрите краткое русскоязычное руководство по созданию дашбордов с помощью Dash:
https://habr.com/ru/post/431754/
Также посмотрите краткое русскоязычное руководство по созданию дашбордов с помощью Dash:
https://habr.com/ru/post/431754/
Хабр
Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout
Всем привет! Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам...
Дима Родин из DigitalGod написал гайд о том как поднять Metabase, который поддерживает Clickhouse.
Если кто вдруг не знает что такое Metabase, то это крутая опенсорсная data exploration платформа, позволяющая в удобной форме исследовать данные и создавать дашборды.
Metabase поддерживает много различных коннекторов (в том числе Google Analytics, Postgres, BigQuery), но среди них не было Clickhouse. Сборка Димы решает эту проблему и теперь вы можете использовать отличное хранилище данных вместе с отличной BI-платформой.
https://digitalgod.be/guides/metabase_clickhouse_rockstat
Если кто вдруг не знает что такое Metabase, то это крутая опенсорсная data exploration платформа, позволяющая в удобной форме исследовать данные и создавать дашборды.
Metabase поддерживает много различных коннекторов (в том числе Google Analytics, Postgres, BigQuery), но среди них не было Clickhouse. Сборка Димы решает эту проблему и теперь вы можете использовать отличное хранилище данных вместе с отличной BI-платформой.
https://digitalgod.be/guides/metabase_clickhouse_rockstat
digitalgod.be
Guildes / Metabase + Clickhouse в Rockstat
Учимся делать свою конфигурацию рокстата, а заодно хватаем эксклюзивный метабейз с поддержкой ClickHouse
Подборка небольших полезных хаков для анализа данных в Python. В основном собраны советы по работе в Jupyter Notebook, например, Pandas Profiling, использование magic-команд и фишки дебаггинга в ноутбуке
https://habr.com/ru/post/457302/
https://habr.com/ru/post/457302/
Хабр
10 фич для ускорения анализа данных в Python
Источник Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала...
Удивительно простой пример применения критерия хи-квадрат для проверки гипотезы о том, что количество рабочих часов в неделю зависит от пола работника.
Освящаются следующие вопросы: построение таблицы сопряженности с помощью crosstab в pandas; визуализация этой таблицы; расчет критерия хи-квадрат.
Отдельный плюс этого примера в том, что для расчета хи-квадрата не используется никаких дополнительных статистических пакетов (например, scipy.stats). Это позволяет понять смысл расчета, а не бездумно экспортировать модули.
https://codingdisciple.com/chi-squared-python.html
Освящаются следующие вопросы: построение таблицы сопряженности с помощью crosstab в pandas; визуализация этой таблицы; расчет критерия хи-квадрат.
Отдельный плюс этого примера в том, что для расчета хи-квадрата не используется никаких дополнительных статистических пакетов (например, scipy.stats). Это позволяет понять смысл расчета, а не бездумно экспортировать модули.
https://codingdisciple.com/chi-squared-python.html
Coding Disciple
Chi-Squared Test for Independence in Python
So far, we've been comparing data with at least one one numerical(continuous) column and one categorical(nominal) column. So what happens if we want to determine the statistical significance of two independent categorical groups of data? This is where the…
Отличный пример визуализации геоданных с помощью библиотеки Folium. В статье разбирается кейс выбора места для открытия нового филиала организации.
Интересно, что автор использовал открытые данные для определения населения в конкретной области карты.
https://habr.com/ru/post/456856/
Интересно, что автор использовал открытые данные для определения населения в конкретной области карты.
https://habr.com/ru/post/456856/
Хабр
Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах
Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания...
Статья про контроль версий в Jupyter Notebook.
Разбирается как совладать с главной сложностью контроля версий ноутбуков: файлы ipynb содержат кучу метаданных о форматировании и визуализациях. Таким образом, сравнивать версии ноутбуков между собой в режиме «чистого» текста (plain–text) становится достаточно сложно, так как исчезает главный плюс ноутбуков — восприятие исследования не просто как кода, а как некоторой интерактивной истории.
Среди предложенных методов: конвертировать ноутбук сначала в html или py, а затем использовать обычную систему контроля версий (например, git); использовать специальные vcs для ноутбуков (nbdime, ReviewNB, Jupytext).
https://nextjournal.com/schmudde/how-to-version-control-jupyter
Разбирается как совладать с главной сложностью контроля версий ноутбуков: файлы ipynb содержат кучу метаданных о форматировании и визуализациях. Таким образом, сравнивать версии ноутбуков между собой в режиме «чистого» текста (plain–text) становится достаточно сложно, так как исчезает главный плюс ноутбуков — восприятие исследования не просто как кода, а как некоторой интерактивной истории.
Среди предложенных методов: конвертировать ноутбук сначала в html или py, а затем использовать обычную систему контроля версий (например, git); использовать специальные vcs для ноутбуков (nbdime, ReviewNB, Jupytext).
https://nextjournal.com/schmudde/how-to-version-control-jupyter
Nextjournal
How to Version Control Jupyter Notebooks
Jupyter notebooks generate files that may contain metadata, source code, formatted text, and rich media. Unfortunately, this makes these files poor candidates for conventional version control solutions, which works best with plain text.
Большой гайд по типам данных в NumPy и распространенных манипуляциях с ними. Также приводятся интересные примеры того как выглядят тексты, изображения, звуковые дорожки, преобразованные в numpy-array.
https://jalammar.github.io/visual-numpy/
https://jalammar.github.io/visual-numpy/
jalammar.github.io
A Visual Intro to NumPy and Data Representation
Discussions:
Hacker News (366 points, 21 comments), Reddit r/MachineLearning (256 points, 18 comments)
Translations: Chinese 1, Chinese 2, Japanese, Korean
The NumPy package is the workhorse of data analysis, machine learning, and scientific computing…
Hacker News (366 points, 21 comments), Reddit r/MachineLearning (256 points, 18 comments)
Translations: Chinese 1, Chinese 2, Japanese, Korean
The NumPy package is the workhorse of data analysis, machine learning, and scientific computing…
Пример построения инфраструктуры по передаче данных из Google Analytics в Google BigQuery с указанием ClientID, SessionID и HitID. Вытаскивание данных из Google Analytics API и передача в BQ реализованы на Python, в статье есть примеры кода. По сути, ничего не мешает использовать в место BQ свой Clickhouse или другую приглянувшуюся БД.
https://habr.com/ru/company/idfinance/blog/457052/
https://habr.com/ru/company/idfinance/blog/457052/
Хабр
Как настроить инфраструктуру веб-аналитики за $100 в месяц
Рано или поздно почти любая компания сталкивается с проблемой развития веб-аналитики. Это не значит, что нужно только поставить код Google Analytics на сайт — нужно найти пользу в полученных данных. В...
Перевод статьи об оптимизации работы с Jupyter Notebook. Рассмотрены основные горячие клавиши, установка дополнений, использование magic-команд
https://tproger.ru/translations/how-to-optimize-jupyter-notebook/
https://tproger.ru/translations/how-to-optimize-jupyter-notebook/
Tproger
Как оптимизировать работу в Jupyter Notebook
Оптимизируем работу в Jupyter Notebook с помощью основных команд и расширений и добавляем немного магии, чтобы всё стало ещё быстрее и проще.
В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.
В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.
https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3
В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.
https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3
Medium
Cleaning and Prepping Data with Python for Data Science — Best Practices and Helpful Packages
P
Forwarded from DataEng
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
GitHub
GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.
An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster
Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.
https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
Medium
Apply and Lambda usage in pandas
Learn these to master Pandas
Forwarded from DevBrain
Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.
После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.
Видео можно посмотреть вот тут.
Исходник jupyter notebook можно скачать здесь
После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.
Видео можно посмотреть вот тут.
Исходник jupyter notebook можно скачать здесь
Khashtamov
Введение в pandas: анализ данных на Python
pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…
Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете
https://brohrer.github.io/dataframe_indexing.html
reset_index(drop=True), то почитайте статью про индексацию в датафреймеhttps://brohrer.github.io/dataframe_indexing.html
Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях
https://risk-engineering.org/notebook/data-analysis-weather.html
https://risk-engineering.org/notebook/data-analysis-weather.html
Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.
https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
Stack Abuse
Python's Bokeh Library for Interactive Data Visualization
Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…
Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!
Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.
https://habr.com/ru/post/460321/
Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.
https://habr.com/ru/post/460321/
Хабр
Галерея лучших блокнотов по ML и Data Science
Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...
Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.
https://www.datacamp.com/community/tutorials/probability-distributions-python
https://www.datacamp.com/community/tutorials/probability-distributions-python
Datacamp
Probability Distributions in Python Tutorial
Learn about probability distributions with Python. Understand common distributions used in machine learning today!
Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.
На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды
https://digitalgod.be/guides/metabase_video_dr5_metabase
На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды
https://digitalgod.be/guides/metabase_video_dr5_metabase
digitalgod.be
Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse
Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.