Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью.

С тех пор как я выкладывал эту ссылку в первый раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском.

Делитесь, распространяйте)

http://bit.ly/2GFnA21
Обалденная статья в блоге Chris Moffit. Автор рассказывает о том как выводить датафрейм не просто безжизненной массой данных, а стильно и красиво. Начиная от форматирования чисел (например, валютный или процентный формат), условного форматирования, и заканчивая столбчатыми диаграммами внутри колонок и спарклайнами.

https://pbpython.com/styling-pandas.html
Статья о том почему method chaining - это эффективный прием для повышения читаемости кода. Обратная сторона - становится сложнее отлаживать код.

https://towardsdatascience.com/the-unreasonable-effectiveness-of-method-chaining-in-pandas-15c2109e3c69
Крутая статья в блоге сервиса Mode Analytics про сравнение оконных функций в SQL и в Pandas. На мой вкус, в Pandas функции скользящего окна реализованы сильно понятнее и удобнее в использовании. Но это скорее дело привычки

https://mode.com/blog/bridge-the-gap-window-functions
Держите 15 коротких роликов про визуализацию данных с помощью Matplotlib. И ничего страшного, что там всё это рассказывает товарищ с явным акцентом - вот лично мне так даже легче воспринимать английский на слух🙃

https://www.youtube.com/playlist?list=PLqEbL1vopgvs1p90E3Ig_OTY08wBTCj9B
Интересная статья про не самые очевидные вещи в Pandas: сравнение производительности операций с векторами и со списками; преобразование типов для экономии памяти; работа с чанками; обзор библиотеки pandasql; форматирование данных с помощью prettypandas.

https://medium.com/analytics-and-data/become-a-pro-at-pandas-pythons-data-manipulation-library-264351b586b1
Статья-путеводитель по открытым наборам данных для машинного обучения. Собрана подборка интересных и свежих (относительно) датасетов. В конце статьи, прикреплены полезные ссылки по самостоятельному поиску датасетов.

https://habr.com/ru/post/452392/
Pandas разработан для выполнения операций с векторами. Поэтому обычные итерации с помощью циклов внутри строки, столбца или датафрейма - это не самый эффективный способ использования. Но если вам всё же нужны циклы, то в этом гайде рассмотрены примеры эффективной организации циклов в Pandas с помощью iterrows и apply.

https://towardsdatascience.com/how-to-use-pandas-the-right-way-to-speed-up-your-code-4a19bd89926d
Немного NLP. Статья про то как визуализировать терм-документную матрицу (матрицу частоты встречаемости термов в коллекции документов) с помощью библиотеки Scattertext

https://kanoki.org/2019/03/17/text-data-visualization-in-python/
Всем кому интересен Python не только для анализа данных, советую подписаться на канал @devbrain, где автор делится интересным авторским контентом (и не только) на тему веб-разработки, анализа данных, дата инжиниринга и многого другого!

P.S. в моём канале уже проскальзывал материал автора:

- Python и MySQL
- Python и PostgreSQL

а также в статье в блоге про изучение аналитики на Python
Руководство по работе с окружениями в Python. В нем вы можете узнать зачем нужны окружения, как их создавать и управлять ими, в чем отличие в установке пакетов через pip и conda, как устанавливать пакеты в разные окружения. Достаточно подробное и полезное чтиво, рекомендую!

https://towardsdatascience.com/a-guide-to-conda-environments-bc6180fc533
Интересная статья с примером использования функции melt в Pandas.
Зачастую для удобства анализа нужно преобразовать данные из сводной таблицы в нормальный вид, где каждая строка характеризует наблюдение или группу наблюдений. Такое преобразование позволяет привести данные к так называемому виду tidy data (https://en.wikipedia.org/wiki/Tidy_data). Когда вы работаете с tidy, то использовать функции Pandas становится удобнее, т.к. каждый столбец характеризует значение одного признака, а значит проще применять groupby или другие операции к колонкам датафрейма. Привести сводную таблицу к такому виду можно с помощью функции melt.
https://towardsdatascience.com/transforming-data-in-python-with-pandas-melt-854221daf507
Краткий экскурс, который познакомит вас с библиотекой Dask, предназначенной для распараллеливания задач на Python.

Если вам нравятся Pandas и Numpy, но иногда вам не удается справиться с данными, не умещающимися в RAM, то Dask – именно то, что вам нужно. Dask поддерживает датафреймы Pandas и массивы Numpy. Dask можно запускать либо на локальном компьютере, либо масштабировать, а затем запускать в кластере.

https://m.habr.com/ru/company/piter/blog/454262/
Статья о том как парсить сайты с помощью BeautifulSoup, Selenium и PhantomJS. Связка BeautifulSoup и Selenium распространена при парсинге сайтов с различным контентом, подгружаемым с помощью AJAX. Так что если вы хотите парсить сайты с динамически-подгружаемым контентом, то рекомендую к ознакомлению

https://likegeeks.com/python-web-scraping/
У меня тут в чатике пишут, что PhantomJS умер. Разработку и поддержку прекратили. Добрые люди рекомендуют посмотреть в сторону Splash. Тут же нашел ролик, где Splash используется в связке со Scrapy. Автор доходчиво объясняет принцип парсинга на примере получения данных с сайта букмерской конторы. https://www.youtube.com/watch?v=rofkkuSf9iA
Крутой пример статистического анализа данных с применением Plotly. Отлично показывает как много полезных инсайтов может дать правильная визуализация

https://towardsdatascience.com/practical-statistics-visualization-with-python-plotly-770e96e35067
Я редко размещаю рекламу, но сейчас воспользуюсь этим каналом для продвижения одной важной штуки, которую мы в CoMagic делали долго и наконец доделали. Это речевая аналитика звонков.

Штука, призванная освободить людей из рабства прослушивания и тегирования звонков и дать всем больше времени, чтобы можно было смотреть ютуб, сериалы, или больше заниматься интересной аналитикой на Python.

https://vc.ru/comagic/70600-kak-rasshifrovka-zvonkov-pomozhet-vam-prodavat-bolshe
Автор замечательной книжки "Automate the Boring Stuff with Python" Al Sweigart написал короткий пост про использование словарей. В нем он даёт свои рекомендации: использовать get для доступа к значению по ключу, а также использовать словарь в качестве case-конструкции. В статье есть понятные примеры.

https://inventwithpython.com/blog/2019/06/05/pythonic-ways-to-use-dictionaries/
Любопытная вакансия для практикующих аналитиков с наличием свободного времени, парт-тайм, удаленка.

Сейчас Skillfactory разрабатывает специализацию «Аналитик данных». Эта специализация предполагает обучение с нуля на аналитических кейсах и тренажерах по инструментам (есть тренажеры для Гугл Таблиц, SQL, Python).
Кейс – реальная задачка из жизни аналитика, которая решается с помощью SQL или Python. Студент изучает Python в тренажере, а потом отрабатывает навыки на практике, решая кейс.

Ребята из Skillfactory в поисках действующего аналитика, которому было бы интересно тестировать такие кейсы с Python перед выпуском и давать обратную связь на кейс в целом. Важно знать Python на уровне, достаточном для анализа данных (pandas, numpy), так как нужно будет решить кейс как студент.

Если кого-то заинтересовало и подходите по критериям (действующий аналитик, работаете на Python), пишите в тг @jane_os