Отвечая на вопрос о вчерашней головоломке. Этот код задает в колонке some_column значение, равное 1, для 10% случайно выбранных строк датафрейма. Мне кажется, что для новичков будет полезным детально рассмотреть как работает эта строчка кода, потому что там зарыто много мелких неочевидных нюансов. Написал про это статью: http://datalytics.ru/all/golovolomka-pro-randomny-sempl/
datalytics.ru
Головоломка про рандомный сэмпл
Иногда чтение чужого кода бывает крайне интересным и увлекательным, будто читаешь отличный нон-фикшн
Подробный гайд по визуализации данных с помощью Seaborn.
Лично мне Seaborn нравится больше, чем matplotlib, какие-то более аккуратные графики в нём получаются, даже если использовать дефолтные визуализации.
https://elitedatascience.com/python-seaborn-tutorial
Лично мне Seaborn нравится больше, чем matplotlib, какие-то более аккуратные графики в нём получаются, даже если использовать дефолтные визуализации.
https://elitedatascience.com/python-seaborn-tutorial
EliteDataScience
The Ultimate Python Seaborn Tutorial: Gotta Catch 'Em All
In this step-by-step Python Seaborn tutorial, you'll learn how to use one of Python's most convenient libraries for data visualization.
Перевод статьи из блога DataQuest о том как использовать Pandas для анализа тяжелых датасетов. Рассматриваются методики преобразования типов к более легковесным, оптимизация хранения объектных типов с помощью их преобразования к категориальным типам. В итоге, на тестовом датасете получилось на 90% снизить объем памяти, нужной для хранения датасета. https://habr.com/ru/company/ruvds/blog/442516/
Хабр
Руководство по использованию pandas для анализа больших наборов данных
При использовании библиотеки pandas для анализа маленьких наборов данных, размер которых не превышает 100 мегабайт, производительность редко становится проблемой. Но когда речь идёт об исследовании...
Небольшой туториал о том как получить статистику из API Яндекс.Директа с помощью несложного скрипта
https://habr.com/ru/post/449392/
https://habr.com/ru/post/449392/
Хабр
Получение статистики по всем клиентам из API Яндекс Директ в разрезе дней с помощью Python
В работе часто использую короткую статистику в разрезе дней чтобы отслеживать отклонения трафика. Более подробно о написании запросов написал в статье « Получе...
Наткнулся на интересную утилиту csvkit.
Это набор инструментов, вызываемых из командной строки, позволяющих быстро производить рутинные операции с csv.
Так csvkit умеет конвертировать csv в json и обратно, читать xlsx-файлы, находить строки, соответствующие условию, вытягивать и передавать данные в БД. Ну и ещё много всего. Почитайте доку, там интересно
https://csvkit.readthedocs.io/en/latest/
Это набор инструментов, вызываемых из командной строки, позволяющих быстро производить рутинные операции с csv.
Так csvkit умеет конвертировать csv в json и обратно, читать xlsx-файлы, находить строки, соответствующие условию, вытягивать и передавать данные в БД. Ну и ещё много всего. Почитайте доку, там интересно
https://csvkit.readthedocs.io/en/latest/
Небольшая статья про визуализацию данных с помощью Altair http://fernandoi.cl/blog/posts/altair/
fernandoi.cl
The reason I am using Altair for most of my visualization in Python
Visualizing data in Python.
Анимации помогают осветить определенные аспекты визуализации, которые никак не могут быть показаны статическими графиками.
Например, автор YouTube-канала 3Blue1Brown использует Python, чтобы красивые визуальные объяснения сложных математических концепций. Рекомендую посмотреть несколько видео, например, про фракталы там рассказано очень интересно. Для создания этих анимаций автор разработал целую библиотеку под названием Manim (Mathematical Animation Engine)
Manim крутой, но сложный. Если вы хотите быстро научиться создавать анимации, то вот вам большая статья с примерами создания анимированных графиков с помощью библиотеки matplotlib. https://python-scripts.com/animations-with-matplotlib
Например, автор YouTube-канала 3Blue1Brown использует Python, чтобы красивые визуальные объяснения сложных математических концепций. Рекомендую посмотреть несколько видео, например, про фракталы там рассказано очень интересно. Для создания этих анимаций автор разработал целую библиотеку под названием Manim (Mathematical Animation Engine)
Manim крутой, но сложный. Если вы хотите быстро научиться создавать анимации, то вот вам большая статья с примерами создания анимированных графиков с помощью библиотеки matplotlib. https://python-scripts.com/animations-with-matplotlib
GitHub
GitHub - 3b1b/manim: Animation engine for explanatory math videos
Animation engine for explanatory math videos. Contribute to 3b1b/manim development by creating an account on GitHub.
Туториал по обработке данных с помощью NumPy и Pandas от HackerEarth
https://www.hackerearth.com/ru/practice/machine-learning/data-manipulation-visualisation-r-python/tutorial-data-manipulation-numpy-pandas-python/tutorial/
https://www.hackerearth.com/ru/practice/machine-learning/data-manipulation-visualisation-r-python/tutorial-data-manipulation-numpy-pandas-python/tutorial/
Крутейший гайд по визуализации данных с помощью matplotlib и seaborn. Особенно ценная штука - схема "Anatomy of a figure", на которой представлены элементы чарта в matplotlib. Основываясь на этой схеме, становится понятнее какими элементами можно управлять и что "гуглить"🙂Ну и интересно про GridSpec
https://towardsdatascience.com/a-step-by-step-guide-for-creating-advanced-python-data-visualizations-with-seaborn-matplotlib-1579d6a1a7d0
https://towardsdatascience.com/a-step-by-step-guide-for-creating-advanced-python-data-visualizations-with-seaborn-matplotlib-1579d6a1a7d0
Medium
A step-by-step guide for creating advanced Python data visualizations with Seaborn / Matplotlib
Although there’re tons of cool visualization tools in Python, Matplotlib + Seaborn still stands out for its capability to create and…
Странное конечно название у статьи - "Pandas вместо SQL". Но суть полезная - сравнение синтаксиса SQL с Pandas. Будет крайне полезно для тех, кто знает SQL, но хочет подучить Pandas.
https://tproger.ru/translations/rewrite-sql-queries-in-pandas/amp/
https://tproger.ru/translations/rewrite-sql-queries-in-pandas/amp/
Tproger
Работа с данными по-новому: Pandas вместо SQL
Статья покажет, как переписать SQL-запросы для Pandas и многое другое. Эта библиотека хорошо подходит для структурированных данных.
Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью.
С тех пор как я выкладывал эту ссылку в первый раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском.
Делитесь, распространяйте)
http://bit.ly/2GFnA21
С тех пор как я выкладывал эту ссылку в первый раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском.
Делитесь, распространяйте)
http://bit.ly/2GFnA21
Alexey's Workspace on Notion
Pandas Tutorials, Articles & Videos | Notion
Curator: Datalytics telegram blog email chat
Обалденная статья в блоге Chris Moffit. Автор рассказывает о том как выводить датафрейм не просто безжизненной массой данных, а стильно и красиво. Начиная от форматирования чисел (например, валютный или процентный формат), условного форматирования, и заканчивая столбчатыми диаграммами внутри колонок и спарклайнами.
https://pbpython.com/styling-pandas.html
https://pbpython.com/styling-pandas.html
Pbpython
Stylin’ with Pandas
Pandas has a relatively new API for styling output. This article shows examples of using the style API in pandas.
Статья о том почему method chaining - это эффективный прием для повышения читаемости кода. Обратная сторона - становится сложнее отлаживать код.
https://towardsdatascience.com/the-unreasonable-effectiveness-of-method-chaining-in-pandas-15c2109e3c69
https://towardsdatascience.com/the-unreasonable-effectiveness-of-method-chaining-in-pandas-15c2109e3c69
Medium
The Unreasonable Effectiveness of Method Chaining in Pandas
How Method Chaining improves the readability of code, writing custom pipes with lambda functions to enable maximum flexibility and wrapping
Крутая статья в блоге сервиса Mode Analytics про сравнение оконных функций в SQL и в Pandas. На мой вкус, в Pandas функции скользящего окна реализованы сильно понятнее и удобнее в использовании. Но это скорее дело привычки
https://mode.com/blog/bridge-the-gap-window-functions
https://mode.com/blog/bridge-the-gap-window-functions
Mode
Window Functions in Python and SQL | Mode
Window functions are incredibly common operations in the world of reporting and analytics. Understanding how to execute these functions in both SQL and Python can help determine which language to use, and when.
Держите 15 коротких роликов про визуализацию данных с помощью Matplotlib. И ничего страшного, что там всё это рассказывает товарищ с явным акцентом - вот лично мне так даже легче воспринимать английский на слух🙃
https://www.youtube.com/playlist?list=PLqEbL1vopgvs1p90E3Ig_OTY08wBTCj9B
https://www.youtube.com/playlist?list=PLqEbL1vopgvs1p90E3Ig_OTY08wBTCj9B
YouTube
Data Visualization with Matplotlib for beginners
Share your videos with friends, family, and the world
Интересная статья про не самые очевидные вещи в Pandas: сравнение производительности операций с векторами и со списками; преобразование типов для экономии памяти; работа с чанками; обзор библиотеки pandasql; форматирование данных с помощью prettypandas.
https://medium.com/analytics-and-data/become-a-pro-at-pandas-pythons-data-manipulation-library-264351b586b1
https://medium.com/analytics-and-data/become-a-pro-at-pandas-pythons-data-manipulation-library-264351b586b1
Medium
Become a Pro at Pandas, Python’s data manipulation Library
The pandas library is the most popular data manipulation library for python. It provides an easy way to manipulate data through its…
Статья-путеводитель по открытым наборам данных для машинного обучения. Собрана подборка интересных и свежих (относительно) датасетов. В конце статьи, прикреплены полезные ссылки по самостоятельному поиску датасетов.
https://habr.com/ru/post/452392/
https://habr.com/ru/post/452392/
Хабр
Подборка датасетов для машинного обучения
Привет, читатель! Меня зовут Рушан, и я автор Telegram‑канала Нейрон . Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи. Перед тобой статья-путеводитель по открытым...
Pandas разработан для выполнения операций с векторами. Поэтому обычные итерации с помощью циклов внутри строки, столбца или датафрейма - это не самый эффективный способ использования. Но если вам всё же нужны циклы, то в этом гайде рассмотрены примеры эффективной организации циклов в Pandas с помощью iterrows и apply.
https://towardsdatascience.com/how-to-use-pandas-the-right-way-to-speed-up-your-code-4a19bd89926d
https://towardsdatascience.com/how-to-use-pandas-the-right-way-to-speed-up-your-code-4a19bd89926d
Medium
How to use Pandas the RIGHT way to speed up your code
The Pandas library has been a heavenly gift to the Data Science community. Ask any Data Scientist how they like to handle their datasets…
Немного NLP. Статья про то как визуализировать терм-документную матрицу (матрицу частоты встречаемости термов в коллекции документов) с помощью библиотеки Scattertext
https://kanoki.org/2019/03/17/text-data-visualization-in-python/
https://kanoki.org/2019/03/17/text-data-visualization-in-python/
GitHub
GitHub - JasonKessler/scattertext: Beautiful visualizations of how language differs among document types.
Beautiful visualizations of how language differs among document types. - JasonKessler/scattertext
Всем кому интересен Python не только для анализа данных, советую подписаться на канал @devbrain, где автор делится интересным авторским контентом (и не только) на тему веб-разработки, анализа данных, дата инжиниринга и многого другого!
P.S. в моём канале уже проскальзывал материал автора:
- Python и MySQL
- Python и PostgreSQL
а также в статье в блоге про изучение аналитики на Python
P.S. в моём канале уже проскальзывал материал автора:
- Python и MySQL
- Python и PostgreSQL
а также в статье в блоге про изучение аналитики на Python
Telegram
DevBrain
Автор @adilkhash
Веду блог https://khashtamov.com/
Веду блог https://khashtamov.com/