Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from DataEng
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.

https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7
Forwarded from DevBrain
Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.

После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.

Видео можно посмотреть вот тут.

Исходник jupyter notebook можно скачать здесь
Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете reset_index(drop=True), то почитайте статью про индексацию в датафрейме

https://brohrer.github.io/dataframe_indexing.html
Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях

https://risk-engineering.org/notebook/data-analysis-weather.html
Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.

https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/
Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!

Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

https://habr.com/ru/post/460321/
Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.

https://www.datacamp.com/community/tutorials/probability-distributions-python
Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.

На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды

https://digitalgod.be/guides/metabase_video_dr5_metabase
Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.

https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/
Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке

https://digitalgod.be/meetup/0719_comagic_api_webhook
Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования

https://vishalmnemonic.github.io/DC9/
Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.

https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e
User Interface для Pandas. В чатике "Python для анализа данных" уже шутят, что скоро из Python сделают инструмент, в котором смогут работать секретарши.

https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be
Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам

https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams
Series являются фундаментом Pandas. Dataframe по сути представляет собой контейнер для Series, объединенных одним индексом. Это подводит к тому, что понимание того как устроены Series и как с ними работать - это важный навык для глубокого понимания принципов работы с данными в Pandas. Подробно ознакомиться с основами Series можно в статье

https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa
Если вы хотите заняться анализом данных, но не знаете с чего начать, посмотрите статью от автора канала @programming_python. Статья написана для новичков в Pandas. Автор занимается анализом данных, так что в будущем планируется еще несколько статей подобного плана.
Статья в блоге Chris Moffitt о том как автоматизировать репортинг, используя Jupyter Notebook, nbconvert и Papermill. Чуть подробнее о том зачем нужны эти инструменты: nbconvert используется для преобразования ipynb в html без отображения ячеек с кодом, а Papermill нужен для параметризации ноутбуков, то есть чтобы передавать в ноутбуки разные входные параметры и автоматически запускать их.

https://pbpython.com/papermil-rclone-report-1.html
Написал небольшую статейку про новые функции pandas, появившиеся в версии 0.25.0.

Из самого крутого: именованные агрегаты (попробуйте, вам понравится) и разворачивание колонок со списками (а ля unnest в postgresql).

Приятного чтения!
http://bit.ly/2YRVMgv
Хорошая статья с детальным объяснением того, что под капотом у Pandas. Рассматриваются базовые концепции numpy, на основе которых работают практически все операции в Pandas, будь то создание срезов через булевы индексы, либо арифметические операции с колонками

http://heydenberk.com/blog/posts/demystifying-pandas-numpy-filtering/