Forwarded from DataEng
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
GitHub
GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.
An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster
Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.
https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
Medium
Apply and Lambda usage in pandas
Learn these to master Pandas
Forwarded from DevBrain
Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.
После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.
Видео можно посмотреть вот тут.
Исходник jupyter notebook можно скачать здесь
После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.
Видео можно посмотреть вот тут.
Исходник jupyter notebook можно скачать здесь
Khashtamov
Введение в pandas: анализ данных на Python
pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…
Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете
https://brohrer.github.io/dataframe_indexing.html
reset_index(drop=True), то почитайте статью про индексацию в датафреймеhttps://brohrer.github.io/dataframe_indexing.html
Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях
https://risk-engineering.org/notebook/data-analysis-weather.html
https://risk-engineering.org/notebook/data-analysis-weather.html
Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.
https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
Stack Abuse
Python's Bokeh Library for Interactive Data Visualization
Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…
Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!
Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.
https://habr.com/ru/post/460321/
Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.
https://habr.com/ru/post/460321/
Хабр
Галерея лучших блокнотов по ML и Data Science
Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...
Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.
https://www.datacamp.com/community/tutorials/probability-distributions-python
https://www.datacamp.com/community/tutorials/probability-distributions-python
Datacamp
Probability Distributions in Python Tutorial
Learn about probability distributions with Python. Understand common distributions used in machine learning today!
Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.
На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды
https://digitalgod.be/guides/metabase_video_dr5_metabase
На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды
https://digitalgod.be/guides/metabase_video_dr5_metabase
digitalgod.be
Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse
Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.
Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.
https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/
https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/
Erik Marsja
9 Data Visualization Techniques You Should Learn in Python - Erik Marsja
In this Python data visualization tutorial we will learn how to create 9 different plots using Python Seaborn. More precisely we have used Python to create a scatter plot, histogram, bar plot, time series plot, box plot, heat map, correlogram, violin plot…
Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке
https://digitalgod.be/meetup/0719_comagic_api_webhook
https://digitalgod.be/meetup/0719_comagic_api_webhook
digitalgod.be
Digital God | Meetups | Работа с API, WebHook CoMagic. 25 июля.
Препарируем данные CoMagic, прокачиваем интеграцию
Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования
https://vishalmnemonic.github.io/DC9/
https://vishalmnemonic.github.io/DC9/
Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.
https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e
https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e
Medium
How to use the Split-Apply-Combine strategy in Pandas groupby
Master the Split-Apply-Combine pattern in Python with this visual guide to Pandas groupby-apply.
User Interface для Pandas. В чатике "Python для анализа данных" уже шутят, что скоро из Python сделают инструмент, в котором смогут работать секретарши.
https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be
https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be
YouTube
Product vision of bamboolib - a GUI for pandas. Stop googling pandas commands!
bamboolib is out now. Go to https://bamboolib.com to see it in action
Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам
https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams
https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams
Series являются фундаментом Pandas. Dataframe по сути представляет собой контейнер для Series, объединенных одним индексом. Это подводит к тому, что понимание того как устроены Series и как с ними работать - это важный навык для глубокого понимания принципов работы с данными в Pandas. Подробно ознакомиться с основами Series можно в статье
https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa
https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa
Medium
Gaining a solid understanding of Pandas series
Expertise in series is prerequisite for being productive with Pandas
Если вы хотите заняться анализом данных, но не знаете с чего начать, посмотрите статью от автора канала @programming_python. Статья написана для новичков в Pandas. Автор занимается анализом данных, так что в будущем планируется еще несколько статей подобного плана.
Telegraph
Pandas for beginners.
На сегодняшний день, пакет Pandas это самый важный инструмент во всем, что касается анализа данных. Многие аналитики и data scientis'ы пользуются этим пакетом. Первые шаги в Pandas
Статья в блоге Chris Moffitt о том как автоматизировать репортинг, используя Jupyter Notebook, nbconvert и Papermill. Чуть подробнее о том зачем нужны эти инструменты: nbconvert используется для преобразования ipynb в html без отображения ячеек с кодом, а Papermill нужен для параметризации ноутбуков, то есть чтобы передавать в ноутбуки разные входные параметры и автоматически запускать их.
https://pbpython.com/papermil-rclone-report-1.html
https://pbpython.com/papermil-rclone-report-1.html
Pbpython
Automated Report Generation with Papermill: Part 1
This is part 1 of a two-part series post about automating report generation using python, jupyter, papermill, and a couple of other tools.
Написал небольшую статейку про новые функции pandas, появившиеся в версии 0.25.0.
Из самого крутого: именованные агрегаты (попробуйте, вам понравится) и разворачивание колонок со списками (а ля unnest в postgresql).
Приятного чтения!
http://bit.ly/2YRVMgv
Из самого крутого: именованные агрегаты (попробуйте, вам понравится) и разворачивание колонок со списками (а ля unnest в postgresql).
Приятного чтения!
http://bit.ly/2YRVMgv
Medium
Что нового в Pandas 0.25.0
Небольшой обзор новых функций
Хорошая статья с детальным объяснением того, что под капотом у Pandas. Рассматриваются базовые концепции numpy, на основе которых работают практически все операции в Pandas, будь то создание срезов через булевы индексы, либо арифметические операции с колонками
http://heydenberk.com/blog/posts/demystifying-pandas-numpy-filtering/
http://heydenberk.com/blog/posts/demystifying-pandas-numpy-filtering/
Eric Heydenblog
Demystifying pandas and numpy filtering
In the course of analyzing data, one will inevitably want to remove items from a collection, leaving behind only the items which satisfy a condition. In vanilla python, there are two equivalent ways t