Перевод статьи об оптимизации работы с Jupyter Notebook. Рассмотрены основные горячие клавиши, установка дополнений, использование magic-команд
https://tproger.ru/translations/how-to-optimize-jupyter-notebook/
https://tproger.ru/translations/how-to-optimize-jupyter-notebook/
Tproger
Как оптимизировать работу в Jupyter Notebook
Оптимизируем работу в Jupyter Notebook с помощью основных команд и расширений и добавляем немного магии, чтобы всё стало ещё быстрее и проще.
В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.
В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.
https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3
В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.
https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3
Medium
Cleaning and Prepping Data with Python for Data Science — Best Practices and Helpful Packages
P
Forwarded from DataEng
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
GitHub
GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.
An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster
Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.
https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
Medium
Apply and Lambda usage in pandas
Learn these to master Pandas
Forwarded from DevBrain
Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.
После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.
Видео можно посмотреть вот тут.
Исходник jupyter notebook можно скачать здесь
После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.
Видео можно посмотреть вот тут.
Исходник jupyter notebook можно скачать здесь
Khashtamov
Введение в pandas: анализ данных на Python
pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…
Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете
https://brohrer.github.io/dataframe_indexing.html
reset_index(drop=True), то почитайте статью про индексацию в датафреймеhttps://brohrer.github.io/dataframe_indexing.html
Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях
https://risk-engineering.org/notebook/data-analysis-weather.html
https://risk-engineering.org/notebook/data-analysis-weather.html
Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.
https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
Stack Abuse
Python's Bokeh Library for Interactive Data Visualization
Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…
Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!
Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.
https://habr.com/ru/post/460321/
Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.
https://habr.com/ru/post/460321/
Хабр
Галерея лучших блокнотов по ML и Data Science
Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...
Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.
https://www.datacamp.com/community/tutorials/probability-distributions-python
https://www.datacamp.com/community/tutorials/probability-distributions-python
Datacamp
Probability Distributions in Python Tutorial
Learn about probability distributions with Python. Understand common distributions used in machine learning today!
Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.
На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды
https://digitalgod.be/guides/metabase_video_dr5_metabase
На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды
https://digitalgod.be/guides/metabase_video_dr5_metabase
digitalgod.be
Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse
Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.
Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.
https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/
https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/
Erik Marsja
9 Data Visualization Techniques You Should Learn in Python - Erik Marsja
In this Python data visualization tutorial we will learn how to create 9 different plots using Python Seaborn. More precisely we have used Python to create a scatter plot, histogram, bar plot, time series plot, box plot, heat map, correlogram, violin plot…
Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке
https://digitalgod.be/meetup/0719_comagic_api_webhook
https://digitalgod.be/meetup/0719_comagic_api_webhook
digitalgod.be
Digital God | Meetups | Работа с API, WebHook CoMagic. 25 июля.
Препарируем данные CoMagic, прокачиваем интеграцию
Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования
https://vishalmnemonic.github.io/DC9/
https://vishalmnemonic.github.io/DC9/
Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.
https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e
https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e
Medium
How to use the Split-Apply-Combine strategy in Pandas groupby
Master the Split-Apply-Combine pattern in Python with this visual guide to Pandas groupby-apply.
User Interface для Pandas. В чатике "Python для анализа данных" уже шутят, что скоро из Python сделают инструмент, в котором смогут работать секретарши.
https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be
https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be
YouTube
Product vision of bamboolib - a GUI for pandas. Stop googling pandas commands!
bamboolib is out now. Go to https://bamboolib.com to see it in action
Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам
https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams
https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams
Series являются фундаментом Pandas. Dataframe по сути представляет собой контейнер для Series, объединенных одним индексом. Это подводит к тому, что понимание того как устроены Series и как с ними работать - это важный навык для глубокого понимания принципов работы с данными в Pandas. Подробно ознакомиться с основами Series можно в статье
https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa
https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa
Medium
Gaining a solid understanding of Pandas series
Expertise in series is prerequisite for being productive with Pandas
Если вы хотите заняться анализом данных, но не знаете с чего начать, посмотрите статью от автора канала @programming_python. Статья написана для новичков в Pandas. Автор занимается анализом данных, так что в будущем планируется еще несколько статей подобного плана.
Telegraph
Pandas for beginners.
На сегодняшний день, пакет Pandas это самый важный инструмент во всем, что касается анализа данных. Многие аналитики и data scientis'ы пользуются этим пакетом. Первые шаги в Pandas
Статья в блоге Chris Moffitt о том как автоматизировать репортинг, используя Jupyter Notebook, nbconvert и Papermill. Чуть подробнее о том зачем нужны эти инструменты: nbconvert используется для преобразования ipynb в html без отображения ячеек с кодом, а Papermill нужен для параметризации ноутбуков, то есть чтобы передавать в ноутбуки разные входные параметры и автоматически запускать их.
https://pbpython.com/papermil-rclone-report-1.html
https://pbpython.com/papermil-rclone-report-1.html
Pbpython
Automated Report Generation with Papermill: Part 1
This is part 1 of a two-part series post about automating report generation using python, jupyter, papermill, and a couple of other tools.