На RealPython появился большой туториал про основы описательной статистики с помощью Python. Прелесть туториала в том, что он через простые примеры и небольшие сниппеты кода разъясняет базовые концепции статистики. Для тех кто только начинает погружение в мир средних, медиан и стандартных отклонений - самое то.
https://realpython.com/python-statistics/
https://realpython.com/python-statistics/
Realpython
Python Statistics Fundamentals: How to Describe Your Data – Real Python
In this step-by-step tutorial, you'll learn the fundamentals of descriptive statistics and how to calculate them in Python. You'll find out how to describe, summarize, and represent your data visually using NumPy, SciPy, pandas, Matplotlib, and the built…
Про numpy все как-то часто забывают, а между тем многие операции на numpy делать также удобно как и в pandas. В множестве случаев это взаимодополняемые инструменты аналитика. Про несколько интересных функций numpy читайте в статье.
https://habr.com/ru/post/480740/
https://habr.com/ru/post/480740/
Хабр
4 крутых функции Numpy, которые я использую постоянно
В этой статье я хочу рассказать о нескольких функциях Numpy, которые я использую для анализа данных постоянно. Это ни в коем случае не исчерпывающий список, но д...
Впереди небольшие каникулы, а значит можно провести их с пользой и потренироваться в анализе данных. Лучше всего оттачивать навыки на датасетах, непосредственно связанных с вашими проектами, но если таких не находится, то может пригодится подборка тренировочных датасетов
https://habr.com/ru/company/edison/blog/480408/
https://habr.com/ru/company/edison/blog/480408/
Тем кто работает в ecommerce точно пригодится. Статья о том как подготовить товарные cross-sell рекомендации с помощью pandas и алгоритма ассоциативных правил из библиотеки MLextend.
https://pythondata.com/market-basket-analysis-with-python-and-pandas/
https://pythondata.com/market-basket-analysis-with-python-and-pandas/
Python Data
Market Basket Analysis with Python and Pandas - Python Data
Market basket analysis looks at retail sales data and determines what products are purchased together. In this article, I provide an approach using python to perform this analysis.
Сегодня я выхожу из зимней спячки. Первый пост в новом году будет посвящен EDA (разведочному анализу данных) на основе датасета из игры FIFA 2019. Вообще, публичные EDA - прекрасные примеры практического применения инструментов анализа, на которых легко учиться. Так что если вы только начинаете изучение - накопайте побольше всяких ноутбуков с разведочным анализом данных.
https://towardsdatascience.com/exploratory-data-analysis-of-the-fifa-19-dataset-in-python-24eb27de9e59
https://towardsdatascience.com/exploratory-data-analysis-of-the-fifa-19-dataset-in-python-24eb27de9e59
Medium
Exploratory Data Analysis of the FIFA 19 Dataset in Python
FIFA 19 Data Analysis
Хорошая подборка в помощь начинающим изучать Data Science и анализ данных
https://habr.com/ru/post/482652/
https://habr.com/ru/post/482652/
Хабр
Письмо начинающему изучать Data Science
Я бы хотел получить такое письмо три года назад, когда только начинал изучать Data Science (DS). Чтобы там были необходимые ссылки на полезные материалы. Статья не претендует на полноту охвата...
Netflix выложил в открытый доступ собственную разработку для создания пайплайнов обработки данных - Metaflow. Идеологически основано на все тех же DAG (direct acyclic graph), подобная идеология построения пайплайнов используется и в Apache Airflow. Статья представляет собой вводный туториал с обзором основных возможностей.
https://towardsdatascience.com/learn-metaflow-in-10-mins-netflixs-python-r-framework-for-data-scientists-2ef124c716e4
https://towardsdatascience.com/learn-metaflow-in-10-mins-netflixs-python-r-framework-for-data-scientists-2ef124c716e4
Medium
Learn Metaflow in 10 mins — Netflix’s Python/R Framework for Data Science
Spend more time modeling, and less time managing infrastructures. A hands-on tutorial.
Статья с интересным примером прикладного анализа данных. Автор Олег Юрьев исследует характеристики, рейтинг и стоимость светодиодных ламп, сопровождая всё подробными комментариями.
http://rweather.ru/blog/all/veselaya-analitika-lamptest/
http://rweather.ru/blog/all/veselaya-analitika-lamptest/
Есть отличные новости!
9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25.
Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации.
https://habr.com/ru/post/483720/
9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25.
Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации.
https://habr.com/ru/post/483720/
Хабр
Что принёс нам Pandas 1.0
9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25. Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование...
Рекомендую ознакомиться также с полными release notes.
https://dev.pandas.io/docs/whatsnew/v1.0.0.html
https://dev.pandas.io/docs/whatsnew/v1.0.0.html
Статья о том как важно для аналитика данных автоматизировать свои рутинные задачи, писать функции, которые будут использоваться из проекта в проект. В статье есть несколько примеров таких функций, например, для объединения csv-файлов или переименования колонок датафреймов.
https://towardsdatascience.com/automate-boring-tasks-with-your-own-functions-a32785437179
https://towardsdatascience.com/automate-boring-tasks-with-your-own-functions-a32785437179
Medium
7 Simple Python Functions to Clean Your Data
Automating tasks with Python is easy. Once you have a script that works, turn it into a function that will help you code more efficiently!
Принес вам очередной всеобъемлющий туториал по Pandas. Для новичков самое то
https://realpython.com/pandas-python-explore-dataset/
https://realpython.com/pandas-python-explore-dataset/
Realpython
Using pandas and Python to Explore Your Dataset – Real Python
In this step-by-step tutorial, you'll learn how to start exploring a dataset with pandas and Python. You'll learn how to access specific rows and columns to answer questions about your data. You'll also see how to handle missing values and prepare to visualize…
Напоминаю, что у этого канала есть чатик, который периодически оживает от ваших вопросов. Так что не стесняйтесь их там задавать. Там умеют гуглить и стаковерфлоить за вас🙂, а ещё делиться экспертизой, что гораздо ценнее 👨🔬👩🔬
Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала. С тех пор как я выкладывал эту ссылку в предыдущий раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском: http://bit.ly/2GFnA21
Всем удачи!
Также я актуализировал список ссылок про Pandas 🐼, который накопился за время существования этого канала. С тех пор как я выкладывал эту ссылку в предыдущий раз, в канале уже сильно подросло количество народу, да и саму подборку я актуализировал, например, сильно подросло количество статей на русском: http://bit.ly/2GFnA21
Всем удачи!
Telegram
Python для анализа данных
Чат про применение Python для анализа данных, в особенности для различного рода автоматизации и аналитики.
Основной канал — @datalytx
В чате вакансии просьба не размещать. Канал с вакансиями — @data_hr. Для размещения вакансии пишите @ax_makarov
Основной канал — @datalytx
В чате вакансии просьба не размещать. Канал с вакансиями — @data_hr. Для размещения вакансии пишите @ax_makarov
👍1
Datalytics pinned «Напоминаю, что у этого канала есть чатик, который периодически оживает от ваших вопросов. Так что не стесняйтесь их там задавать. Там умеют гуглить и стаковерфлоить за вас🙂, а ещё делиться экспертизой, что гораздо ценнее 👨🔬👩🔬 Также я актуализировал список…»
Иллюстрированная статья про функции объединения в pandas: merge, join и concat.
https://towardsdatascience.com/python-pandas-dataframe-join-merge-and-concatenate-84985c29ef78
https://towardsdatascience.com/python-pandas-dataframe-join-merge-and-concatenate-84985c29ef78
Medium
Python Pandas DataFrame Join, Merge, and Concatenate
Code and illustration on how pandas.DataFrame join, merge, and concatenate works
Небольшой русскоязычный туториал по pandas: освещается чтение данных из файла и базовые операции вывода, обзора данных и фильтрации
https://pythonru.com/uroki/osnovy-pandas-1-chtenie-fajlov-dataframe-otbor-dannyh
https://pythonru.com/uroki/osnovy-pandas-1-chtenie-fajlov-dataframe-otbor-dannyh
PythonRu
Pandas Урок — чтение файлов csv, создание dataframe и фильтрация данных
Pandas — одна из самых популярных библиотек Python для аналитики и работы с Data Science. Это как SQL для Python. Все потому, что pandas позволяет
Статья с примером парсинга данных с веб-сайтов с применением BeautifulSoup. Освещены все основные этапы: формирование запроса и получение странички с помощью requests, поиск нужного элемента в HTML через инспектор, выделение данных из элемента через методы BeautifulSoup.
https://www.agiratech.com/web-scraping-using-python/
https://www.agiratech.com/web-scraping-using-python/
Agira Technologies
Beginner’s Guide To Web Scraping Using Python
Learn how to perform web scraping in Python using libraries such as BeautifulSoup, Pandas. This is a step by step tutorial to extract the web data.
Если вы хотите смоделировать систему, чтобы больше понимать о ее поведении, то вам понадобится собрав измерения переменных (статистику) внутри системы определить их распределение, чтобы можно было генерировать входные данные для моделирования системы. В этом случае достаточно найти параметры распределения, которые лучше всего соответствуют наблюдениям. Этот процесс известен как статистический вывод. В этой статье рассматривается метод оценки максимального правдоподобия (MLE).
https://richardstartin.github.io/posts/maximum-likelihood-estimation
https://richardstartin.github.io/posts/maximum-likelihood-estimation
Richard Startin’s Blog
Maximum Likelihood Estimation
Suppose you want to model a system in order to gain insight about its behaviour. Having collected some measurements of the state variables of your system, you want to infer their distribution so you can generate input for a system simulation. With some insight…
Пост с различными полезными сниппетами для работы с pandas: от группировки и до method chaining.
https://kadekillary.work/post/embarrassment-of-pandas/
https://kadekillary.work/post/embarrassment-of-pandas/
Статья о том как сделать Jupyter Notebook более интерактивным: добавление прогресс-баров, виджетов для ввода, оформление текста. В общем, куча полезных советов, которые сделают ваши блокноты более удобными и красивыми
https://habr.com/ru/post/485318/
https://habr.com/ru/post/485318/
Хабр
Добавляем в Jupyter Notebooks красоту и интерактивность
Многие используют в своей работе Jupyter Notebooks. Но с ростом сложности проекта появляются проблемы. В блокноте появляются ячейки с красными пометками для самого себя «перед запуском укажи число...»...
Крутая статья про кластеризацию последовательности значений с помощью метода оптимизации Дженкса. Представьте, что у вас есть последовательность чисел, которые распределены не непрерывно, а имеют какие-то разрывы, например, значения после 50 перестают появляться и начинаются вновь только с 500. Алгоритм Дженкса позволяет на основе таких разрывов сформировать кластеры. Это очень удобный метод для того, чтобы сформировать более естественные диапазоны, нежели например с использованием квартилей, так как диапазоны будут можно сказать следовать природе данных.
https://pbpython.com/natural-breaks.html
https://pbpython.com/natural-breaks.html
Pbpython
Finding Natural Breaks in Data with the Fisher-Jenks Algorithm
The Fisher-Jenks optimization algorithm can be used to find natural breaks in your data and can be a useful tool for simple clustering of 1 dimensional data.