Datalytics

Forwarded from DataEng

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

166 views16:22

Show comments

Datalytics

Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.

https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7

Medium

Apply and Lambda usage in pandas

Learn these to master Pandas

1.7K views09:28

Datalytics

Forwarded from DevBrain

Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.

После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.

Видео можно посмотреть вот тут.

Исходник jupyter notebook можно скачать здесь

Khashtamov

Введение в pandas: анализ данных на Python

pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…

206 views07:22

Show comments

Datalytics

Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете reset_index(drop=True), то почитайте статью про индексацию в датафрейме

https://brohrer.github.io/dataframe_indexing.html

1.97K viewsedited 12:48

Datalytics

Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях

https://risk-engineering.org/notebook/data-analysis-weather.html

1.87K views08:42

Datalytics

Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.

https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/

Stack Abuse

Python's Bokeh Library for Interactive Data Visualization

Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…

2K views09:16

Datalytics

Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!

Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

https://habr.com/ru/post/460321/

Хабр

Галерея лучших блокнотов по ML и Data Science

Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...

2.15K views11:55

Datalytics

Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.

https://www.datacamp.com/community/tutorials/probability-distributions-python

Datacamp

Probability Distributions in Python Tutorial

Learn about probability distributions with Python. Understand common distributions used in machine learning today!

1.98K views08:00

Datalytics

Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.

На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды

https://digitalgod.be/guides/metabase_video_dr5_metabase

digitalgod.be

Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse

Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.

2.27K viewsedited 16:18

Datalytics

Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.

https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/

Erik Marsja

9 Data Visualization Techniques You Should Learn in Python - Erik Marsja

In this Python data visualization tutorial we will learn how to create 9 different plots using Python Seaborn. More precisely we have used Python to create a scatter plot, histogram, bar plot, time series plot, box plot, heat map, correlogram, violin plot…

1.99K views08:53

Datalytics

Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке

https://digitalgod.be/meetup/0719_comagic_api_webhook

digitalgod.be

Digital God | Meetups | Работа с API, WebHook CoMagic. 25 июля.

Препарируем данные CoMagic, прокачиваем интеграцию

1.47K viewsedited 08:53

Datalytics

Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования

https://vishalmnemonic.github.io/DC9/

1.97K views11:43

Datalytics

Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.

https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e

Medium

How to use the Split-Apply-Combine strategy in Pandas groupby

Master the Split-Apply-Combine pattern in Python with this visual guide to Pandas groupby-apply.

1.89K views09:01

Datalytics

Подробная шпаргалка по работе с Pandas

https://www.webpages.uidaho.edu/~stevel/504/Pandas%20DataFrame%20Notes.pdf

1.91K views06:55

Datalytics

User Interface для Pandas. В чатике "Python для анализа данных" уже шутят, что скоро из Python сделают инструмент, в котором смогут работать секретарши.

https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be

YouTube

Product vision of bamboolib - a GUI for pandas. Stop googling pandas commands!

bamboolib is out now. Go to https://bamboolib.com to see it in action

1.95K viewsedited 08:41

Datalytics

Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам

https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams

1.89K viewsedited 09:39

Datalytics

Series являются фундаментом Pandas. Dataframe по сути представляет собой контейнер для Series, объединенных одним индексом. Это подводит к тому, что понимание того как устроены Series и как с ними работать - это важный навык для глубокого понимания принципов работы с данными в Pandas. Подробно ознакомиться с основами Series можно в статье

https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa

Medium

Gaining a solid understanding of Pandas series

Expertise in series is prerequisite for being productive with Pandas

1.54K views09:40

Datalytics

Если вы хотите заняться анализом данных, но не знаете с чего начать, посмотрите статью от автора канала @programming_python. Статья написана для новичков в Pandas. Автор занимается анализом данных, так что в будущем планируется еще несколько статей подобного плана.

Telegraph

Pandas for beginners.

На сегодняшний день, пакет Pandas это самый важный инструмент во всем, что касается анализа данных. Многие аналитики и data scientis'ы пользуются этим пакетом. Первые шаги в Pandas

1.83K views10:22

Datalytics

Статья в блоге Chris Moffitt о том как автоматизировать репортинг, используя Jupyter Notebook, nbconvert и Papermill. Чуть подробнее о том зачем нужны эти инструменты: nbconvert используется для преобразования ipynb в html без отображения ячеек с кодом, а Papermill нужен для параметризации ноутбуков, то есть чтобы передавать в ноутбуки разные входные параметры и автоматически запускать их.

https://pbpython.com/papermil-rclone-report-1.html

Pbpython

Automated Report Generation with Papermill: Part 1

This is part 1 of a two-part series post about automating report generation using python, jupyter, papermill, and a couple of other tools.

1.84K views10:41

Datalytics

Написал небольшую статейку про новые функции pandas, появившиеся в версии 0.25.0.

Из самого крутого: именованные агрегаты (попробуйте, вам понравится) и разворачивание колонок со списками (а ля unnest в postgresql).

Приятного чтения!
http://bit.ly/2YRVMgv

Medium

Что нового в Pandas 0.25.0

Небольшой обзор новых функций

2.06K views14:33

Datalytics

Хорошая статья с детальным объяснением того, что под капотом у Pandas. Рассматриваются базовые концепции numpy, на основе которых работают практически все операции в Pandas, будь то создание срезов через булевы индексы, либо арифметические операции с колонками

http://heydenberk.com/blog/posts/demystifying-pandas-numpy-filtering/

Eric Heydenblog

Demystifying pandas and numpy filtering

In the course of analyzing data, one will inevitably want to remove items from a collection, leaving behind only the items which satisfy a condition. In vanilla python, there are two equivalent ways t

1.5K views08:21

About

Blog

Apps

Platform