Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Отвечая на вопрос о вчерашней головоломке. Этот код задает в колонке some_column значение, равное 1, для 10% случайно выбранных строк датафрейма. Мне кажется, что для новичков будет полезным детально рассмотреть как работает эта строчка кода, потому что там зарыто много мелких неочевидных нюансов. Написал про это статью: http://datalytics.ru/all/golovolomka-pro-randomny-sempl/
Подробный гайд по визуализации данных с помощью Seaborn.

Лично мне Seaborn нравится больше, чем matplotlib, какие-то более аккуратные графики в нём получаются, даже если использовать дефолтные визуализации.

https://elitedatascience.com/python-seaborn-tutorial
Перевод статьи из блога DataQuest о том как использовать Pandas для анализа тяжелых датасетов. Рассматриваются методики преобразования типов к более легковесным, оптимизация хранения объектных типов с помощью их преобразования к категориальным типам. В итоге, на тестовом датасете получилось на 90% снизить объем памяти, нужной для хранения датасета. https://habr.com/ru/company/ruvds/blog/442516/
Наткнулся на интересную утилиту csvkit.

Это набор инструментов, вызываемых из командной строки, позволяющих быстро производить рутинные операции с csv.
Так csvkit умеет конвертировать csv в json и обратно, читать xlsx-файлы, находить строки, соответствующие условию, вытягивать и передавать данные в БД. Ну и ещё много всего. Почитайте доку, там интересно

https://csvkit.readthedocs.io/en/latest/
Анимации помогают осветить определенные аспекты визуализации, которые никак не могут быть показаны статическими графиками.

Например, автор YouTube-канала 3Blue1Brown использует Python, чтобы красивые визуальные объяснения сложных математических концепций. Рекомендую посмотреть несколько видео, например, про фракталы там рассказано очень интересно. Для создания этих анимаций автор разработал целую библиотеку под названием Manim (Mathematical Animation Engine)

Manim крутой, но сложный. Если вы хотите быстро научиться создавать анимации, то вот вам большая статья с примерами создания анимированных графиков с помощью библиотеки matplotlib. https://python-scripts.com/animations-with-matplotlib
Крутейший гайд по визуализации данных с помощью matplotlib и seaborn. Особенно ценная штука - схема "Anatomy of a figure", на которой представлены элементы чарта в matplotlib. Основываясь на этой схеме, становится понятнее какими элементами можно управлять и что "гуглить"🙂Ну и интересно про GridSpec

https://towardsdatascience.com/a-step-by-step-guide-for-creating-advanced-python-data-visualizations-with-seaborn-matplotlib-1579d6a1a7d0
Странное конечно название у статьи - "Pandas вместо SQL". Но суть полезная - сравнение синтаксиса SQL с Pandas. Будет крайне полезно для тех, кто знает SQL, но хочет подучить Pandas.
https://tproger.ru/translations/rewrite-sql-queries-in-pandas/amp/
Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью.

С тех пор как я выкладывал эту ссылку в первый раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском.

Делитесь, распространяйте)

http://bit.ly/2GFnA21
Обалденная статья в блоге Chris Moffit. Автор рассказывает о том как выводить датафрейм не просто безжизненной массой данных, а стильно и красиво. Начиная от форматирования чисел (например, валютный или процентный формат), условного форматирования, и заканчивая столбчатыми диаграммами внутри колонок и спарклайнами.

https://pbpython.com/styling-pandas.html
Статья о том почему method chaining - это эффективный прием для повышения читаемости кода. Обратная сторона - становится сложнее отлаживать код.

https://towardsdatascience.com/the-unreasonable-effectiveness-of-method-chaining-in-pandas-15c2109e3c69
Крутая статья в блоге сервиса Mode Analytics про сравнение оконных функций в SQL и в Pandas. На мой вкус, в Pandas функции скользящего окна реализованы сильно понятнее и удобнее в использовании. Но это скорее дело привычки

https://mode.com/blog/bridge-the-gap-window-functions
Держите 15 коротких роликов про визуализацию данных с помощью Matplotlib. И ничего страшного, что там всё это рассказывает товарищ с явным акцентом - вот лично мне так даже легче воспринимать английский на слух🙃

https://www.youtube.com/playlist?list=PLqEbL1vopgvs1p90E3Ig_OTY08wBTCj9B
Интересная статья про не самые очевидные вещи в Pandas: сравнение производительности операций с векторами и со списками; преобразование типов для экономии памяти; работа с чанками; обзор библиотеки pandasql; форматирование данных с помощью prettypandas.

https://medium.com/analytics-and-data/become-a-pro-at-pandas-pythons-data-manipulation-library-264351b586b1
Статья-путеводитель по открытым наборам данных для машинного обучения. Собрана подборка интересных и свежих (относительно) датасетов. В конце статьи, прикреплены полезные ссылки по самостоятельному поиску датасетов.

https://habr.com/ru/post/452392/
Pandas разработан для выполнения операций с векторами. Поэтому обычные итерации с помощью циклов внутри строки, столбца или датафрейма - это не самый эффективный способ использования. Но если вам всё же нужны циклы, то в этом гайде рассмотрены примеры эффективной организации циклов в Pandas с помощью iterrows и apply.

https://towardsdatascience.com/how-to-use-pandas-the-right-way-to-speed-up-your-code-4a19bd89926d
Немного NLP. Статья про то как визуализировать терм-документную матрицу (матрицу частоты встречаемости термов в коллекции документов) с помощью библиотеки Scattertext

https://kanoki.org/2019/03/17/text-data-visualization-in-python/
Всем кому интересен Python не только для анализа данных, советую подписаться на канал @devbrain, где автор делится интересным авторским контентом (и не только) на тему веб-разработки, анализа данных, дата инжиниринга и многого другого!

P.S. в моём канале уже проскальзывал материал автора:

- Python и MySQL
- Python и PostgreSQL

а также в статье в блоге про изучение аналитики на Python