Pandas разработан для выполнения операций с векторами. Поэтому обычные итерации с помощью циклов внутри строки, столбца или датафрейма - это не самый эффективный способ использования. Но если вам всё же нужны циклы, то в этом гайде рассмотрены примеры эффективной организации циклов в Pandas с помощью iterrows и apply.
https://towardsdatascience.com/how-to-use-pandas-the-right-way-to-speed-up-your-code-4a19bd89926d
https://towardsdatascience.com/how-to-use-pandas-the-right-way-to-speed-up-your-code-4a19bd89926d
Medium
How to use Pandas the RIGHT way to speed up your code
The Pandas library has been a heavenly gift to the Data Science community. Ask any Data Scientist how they like to handle their datasets…
Немного NLP. Статья про то как визуализировать терм-документную матрицу (матрицу частоты встречаемости термов в коллекции документов) с помощью библиотеки Scattertext
https://kanoki.org/2019/03/17/text-data-visualization-in-python/
https://kanoki.org/2019/03/17/text-data-visualization-in-python/
GitHub
GitHub - JasonKessler/scattertext: Beautiful visualizations of how language differs among document types.
Beautiful visualizations of how language differs among document types. - JasonKessler/scattertext
Всем кому интересен Python не только для анализа данных, советую подписаться на канал @devbrain, где автор делится интересным авторским контентом (и не только) на тему веб-разработки, анализа данных, дата инжиниринга и многого другого!
P.S. в моём канале уже проскальзывал материал автора:
- Python и MySQL
- Python и PostgreSQL
а также в статье в блоге про изучение аналитики на Python
P.S. в моём канале уже проскальзывал материал автора:
- Python и MySQL
- Python и PostgreSQL
а также в статье в блоге про изучение аналитики на Python
Telegram
DevBrain
Автор @adilkhash
Веду блог https://khashtamov.com/
Веду блог https://khashtamov.com/
Руководство по работе с окружениями в Python. В нем вы можете узнать зачем нужны окружения, как их создавать и управлять ими, в чем отличие в установке пакетов через pip и conda, как устанавливать пакеты в разные окружения. Достаточно подробное и полезное чтиво, рекомендую!
https://towardsdatascience.com/a-guide-to-conda-environments-bc6180fc533
https://towardsdatascience.com/a-guide-to-conda-environments-bc6180fc533
Medium
The Definitive Guide to Conda Environments
How to manage environments with conda for Python & R.
Интересная статья с примером использования функции melt в Pandas.
Зачастую для удобства анализа нужно преобразовать данные из сводной таблицы в нормальный вид, где каждая строка характеризует наблюдение или группу наблюдений. Такое преобразование позволяет привести данные к так называемому виду tidy data (https://en.wikipedia.org/wiki/Tidy_data). Когда вы работаете с tidy, то использовать функции Pandas становится удобнее, т.к. каждый столбец характеризует значение одного признака, а значит проще применять groupby или другие операции к колонкам датафрейма. Привести сводную таблицу к такому виду можно с помощью функции melt.
https://towardsdatascience.com/transforming-data-in-python-with-pandas-melt-854221daf507
Зачастую для удобства анализа нужно преобразовать данные из сводной таблицы в нормальный вид, где каждая строка характеризует наблюдение или группу наблюдений. Такое преобразование позволяет привести данные к так называемому виду tidy data (https://en.wikipedia.org/wiki/Tidy_data). Когда вы работаете с tidy, то использовать функции Pandas становится удобнее, т.к. каждый столбец характеризует значение одного признака, а значит проще применять groupby или другие операции к колонкам датафрейма. Привести сводную таблицу к такому виду можно с помощью функции melt.
https://towardsdatascience.com/transforming-data-in-python-with-pandas-melt-854221daf507
Medium
Transforming Data in Python with Pandas Melt
The World Bank hosts one of the richest sources of data on the Interwebs. This data has many practical applications such as forecasting…
Краткий экскурс, который познакомит вас с библиотекой Dask, предназначенной для распараллеливания задач на Python.
Если вам нравятся Pandas и Numpy, но иногда вам не удается справиться с данными, не умещающимися в RAM, то Dask – именно то, что вам нужно. Dask поддерживает датафреймы Pandas и массивы Numpy. Dask можно запускать либо на локальном компьютере, либо масштабировать, а затем запускать в кластере.
https://m.habr.com/ru/company/piter/blog/454262/
Если вам нравятся Pandas и Numpy, но иногда вам не удается справиться с данными, не умещающимися в RAM, то Dask – именно то, что вам нужно. Dask поддерживает датафреймы Pandas и массивы Numpy. Dask можно запускать либо на локальном компьютере, либо масштабировать, а затем запускать в кластере.
https://m.habr.com/ru/company/piter/blog/454262/
Хабр
Почему каждый Data Scientist должен знать Dask
Здравствуйте, коллеги! Возможно, название сегодняшней публикации лучше смотрелось бы с вопросительным знаком — сложно сказать. В любом случае, сегодня мы хотим предложить вам краткий экскурс,...
Статья о том как парсить сайты с помощью BeautifulSoup, Selenium и PhantomJS. Связка BeautifulSoup и Selenium распространена при парсинге сайтов с различным контентом, подгружаемым с помощью AJAX. Так что если вы хотите парсить сайты с динамически-подгружаемым контентом, то рекомендую к ознакомлению
https://likegeeks.com/python-web-scraping/
https://likegeeks.com/python-web-scraping/
У меня тут в чатике пишут, что PhantomJS умер. Разработку и поддержку прекратили. Добрые люди рекомендуют посмотреть в сторону Splash. Тут же нашел ролик, где Splash используется в связке со Scrapy. Автор доходчиво объясняет принцип парсинга на примере получения данных с сайта букмерской конторы. https://www.youtube.com/watch?v=rofkkuSf9iA
Telegram
Python для анализа данных
Чат про применение Python для анализа данных, в особенности для различного рода автоматизации и аналитики.
Основной канал — @datalytx
В чате вакансии просьба не размещать. Канал с вакансиями — @data_hr. Для размещения вакансии пишите @ax_makarov
Основной канал — @datalytx
В чате вакансии просьба не размещать. Канал с вакансиями — @data_hr. Для размещения вакансии пишите @ax_makarov
Крутой пример статистического анализа данных с применением Plotly. Отлично показывает как много полезных инсайтов может дать правильная визуализация
https://towardsdatascience.com/practical-statistics-visualization-with-python-plotly-770e96e35067
https://towardsdatascience.com/practical-statistics-visualization-with-python-plotly-770e96e35067
Я редко размещаю рекламу, но сейчас воспользуюсь этим каналом для продвижения одной важной штуки, которую мы в CoMagic делали долго и наконец доделали. Это речевая аналитика звонков.
Штука, призванная освободить людей из рабства прослушивания и тегирования звонков и дать всем больше времени, чтобы можно было смотреть ютуб, сериалы, или больше заниматься интересной аналитикой на Python.
https://vc.ru/comagic/70600-kak-rasshifrovka-zvonkov-pomozhet-vam-prodavat-bolshe
Штука, призванная освободить людей из рабства прослушивания и тегирования звонков и дать всем больше времени, чтобы можно было смотреть ютуб, сериалы, или больше заниматься интересной аналитикой на Python.
https://vc.ru/comagic/70600-kak-rasshifrovka-zvonkov-pomozhet-vam-prodavat-bolshe
vc.ru
Как расшифровка звонков поможет вам продавать больше — Платформа для бизнеса на vc.ru
Коротко, вот так: коллтрекинг определяет лучший рекламный источник, а речевая аналитика — показывает, как продавцы закрывают обращения в сделки. Profit!
Автор замечательной книжки "Automate the Boring Stuff with Python" Al Sweigart написал короткий пост про использование словарей. В нем он даёт свои рекомендации: использовать get для доступа к значению по ключу, а также использовать словарь в качестве case-конструкции. В статье есть понятные примеры.
https://inventwithpython.com/blog/2019/06/05/pythonic-ways-to-use-dictionaries/
https://inventwithpython.com/blog/2019/06/05/pythonic-ways-to-use-dictionaries/
Inventwithpython
Pythonic Ways to Use Dictionaries
Python dictionaries are a useful part of the language. In addition to having the ability to store keys and values, you can also use dictionary methods to manipulate those values, and you can use dictionaries to write more concise code.
Любопытная вакансия для практикующих аналитиков с наличием свободного времени, парт-тайм, удаленка.
Сейчас Skillfactory разрабатывает специализацию «Аналитик данных». Эта специализация предполагает обучение с нуля на аналитических кейсах и тренажерах по инструментам (есть тренажеры для Гугл Таблиц, SQL, Python).
Кейс – реальная задачка из жизни аналитика, которая решается с помощью SQL или Python. Студент изучает Python в тренажере, а потом отрабатывает навыки на практике, решая кейс.
Ребята из Skillfactory в поисках действующего аналитика, которому было бы интересно тестировать такие кейсы с Python перед выпуском и давать обратную связь на кейс в целом. Важно знать Python на уровне, достаточном для анализа данных (pandas, numpy), так как нужно будет решить кейс как студент.
Если кого-то заинтересовало и подходите по критериям (действующий аналитик, работаете на Python), пишите в тг @jane_os
Сейчас Skillfactory разрабатывает специализацию «Аналитик данных». Эта специализация предполагает обучение с нуля на аналитических кейсах и тренажерах по инструментам (есть тренажеры для Гугл Таблиц, SQL, Python).
Кейс – реальная задачка из жизни аналитика, которая решается с помощью SQL или Python. Студент изучает Python в тренажере, а потом отрабатывает навыки на практике, решая кейс.
Ребята из Skillfactory в поисках действующего аналитика, которому было бы интересно тестировать такие кейсы с Python перед выпуском и давать обратную связь на кейс в целом. Важно знать Python на уровне, достаточном для анализа данных (pandas, numpy), так как нужно будет решить кейс как студент.
Если кого-то заинтересовало и подходите по критериям (действующий аналитик, работаете на Python), пишите в тг @jane_os
Интересная статья с рассуждениями на тему автоматизации рутины в компании с помощью Python
https://pbpython.com/python-for-business.html
https://pbpython.com/python-for-business.html
Pbpython
Evangelizing Python for Business
Bringing Python out of IT and into the business can solve lots of problems but it is not easy to do. This article will discuss some ideas and considerations for introducing python into your organization.
Anaconda сделали инструмент для создания дашбордов в вебе - Panel.
По функционалу получилась штука сильно похожая на Dash или на Shiny в R. Радует, что в отличие от Dash, конфигурация дашбордов достаточно высокоуровневая (посмотрите пример построения простенького дашборда).
Помимо создания дашбордов, одной из задач, которую предлагается решать с помощью Panel - это создание простеньких прототипов приложений, работающих с данными. К примеру, с помощью Panel аналитики могут создавать собственные сервисы, предоставляющие UI к пайплайну обработки данных.
https://medium.com/@philipp.jfr/panel-announcement-2107c2b15f52
По функционалу получилась штука сильно похожая на Dash или на Shiny в R. Радует, что в отличие от Dash, конфигурация дашбордов достаточно высокоуровневая (посмотрите пример построения простенького дашборда).
Помимо создания дашбордов, одной из задач, которую предлагается решать с помощью Panel - это создание простеньких прототипов приложений, работающих с данными. К примеру, с помощью Panel аналитики могут создавать собственные сервисы, предоставляющие UI к пайплайну обработки данных.
https://medium.com/@philipp.jfr/panel-announcement-2107c2b15f52
Medium
Panel
A high-level app and dashboarding solution for the PyData ecosystem.
Крутая хардкорная статья Максима Цветкова про тестирование статистических гипотез с помощью Python.
https://your-scorpion.ru/python-data-analysis/
https://your-scorpion.ru/python-data-analysis/
Статья про импорт данных в датафрейм Pandas из JSON и HTML. Достаточно простенькая, но с интересным примером импорта JSON с вложенными объектами
https://www.datacamp.com/community/tutorials/importing-data-into-pandas
https://www.datacamp.com/community/tutorials/importing-data-into-pandas
Datacamp
Importing Data into pandas
Learn how to load and import web data formats such as JSON & HTML into pandas DataFrames. Follow our tutorial and code examples loading crypto today!
Datalytics pinned «Собрал все ссылки про Pandas, которые были размещены в этом канале и не только, на одну страничку, с тегами и указанием языка статьи или туториала. Также там есть ссылка на случай, если кто-то захочет предложить свою статью или заинтересовавшую статью. С…»
Роскошная статья про применение теории вероятности на практике. Erik Bernhardsson показывает как можно отображать статистические характеристики распределений на визуализациях. Просто кладезь готовых рецептов: boxplot'ы, отображение доверительных интервалов (как для непрерывных величин, так и для коэффициентов конверсии), boostraping. Всё с понятными примерами кода. Рекомендую для тех, кто хочет делать выводы, основанные на статистике
https://erikbern.com/2018/10/08/the-hackers-guide-to-uncertainty-estimates.html
https://erikbern.com/2018/10/08/the-hackers-guide-to-uncertainty-estimates.html
Erik Bernhardsson
The hacker's guide to uncertainty estimates
I made a New Year's resolution: every plot I make during 2018 will contain uncertainty estimates. Nine months in and I have learned a lot, so I put together a summary of some of the most useful methods.
Ууу, шестимерные графики! В комментариях упомянули лица Чернова (http://bit.ly/2wYyHwZ), которые, на мой взгляд, представляют собой самый экстраординарный способ визуализации данных. Правда, область применения лиц Чернова достаточно узкая.
https://habr.com/ru/post/456282/
https://habr.com/ru/post/456282/
Хабр
Многомерные графики в Python — от трёхмерных и до шестимерных
Примеры многомерных графиков Введение Визуализация — важная часть анализа данных, а способность посмотреть на несколько измерений одновременно эту задачу облегча...