Статья с банальными, казалось бы, советами о том как выбирать колонки датафрейма в Pandas. Но автор делится парой полезных хаков, например, как выбрать все колонки, содержащие какую-то подстроку или выбрать колонки на основе их порядкового места.
https://pbpython.com/selecting-columns.html
https://pbpython.com/selecting-columns.html
Pbpython
Tips for Selecting Columns in a DataFrame
This article will discuss several ways that the pandas iloc function can be used to select columns of data.
👍1
Статья о том как анализировать большой объем данных с помощью библиотеки vaex
https://towardsdatascience.com/how-to-analyse-100s-of-gbs-of-data-on-your-laptop-with-python-f83363dda94
https://towardsdatascience.com/how-to-analyse-100s-of-gbs-of-data-on-your-laptop-with-python-f83363dda94
Medium
How to analyse 100 GB of data on your laptop with Python
Your laptop is way more powerful than you think. Unleash its full potential with the Vaex dataframe library.
🔥1
Наткнулся на библиотеку pomegranate. Она предоставляет ряд высокоуровневых методов для работы с вероятностными моделями: цепи Маркова, байесовские классификаторы, модели распределения вероятностей, скрытые марковские модели и ещё куча всего. Отдельный плюс библиотеки - доступная документация с множеством примеров, например, вот документация по использованию цепей Маркова со ссылкой на ноутбук с примерами.
https://pomegranate.readthedocs.io/en/latest/index.html
https://pomegranate.readthedocs.io/en/latest/index.html
Интересная статья про выстраивание аналитической инфраструктуры на основе Hadoop и Apache Airflow
https://habr.com/ru/company/mailru/blog/479900/
https://habr.com/ru/company/mailru/blog/479900/
Хабр
Клиентоориентированный Data Lake в игровой компании
Источник Привет, Хабр! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье по мотивам наше...
Оказывается QuantStack (это те товарищи, что сделали Voila и приложили большие усилия в развитию экосистемы Jupyter) сделали виджеты для работы с таблицами внутри ноутбуков. Прелесть не только в том, что можно выводить таблицы, но и редактировать в них данные, а также привязывать данные в таблицах к другим виджетам (слайдерам, инпутам и т.д.)
https://towardsdatascience.com/interactive-spreadsheets-in-jupyter-32ab6ec0f4ff
https://towardsdatascience.com/interactive-spreadsheets-in-jupyter-32ab6ec0f4ff
Medium
Interactive spreadsheets in Jupyter
ipywidgets plays an essential part in the Jupyter ecosystem; it brings interactivity between user and data.
Статья, посвященная не самым распространенным методам Pandas - idxmax(), idxmin(), ne(), nlargest(). В статье приводятся интересные примеры использования этих методов при решении практических задач анализа.
https://habr.com/ru/company/ruvds/blog/479276/
https://habr.com/ru/company/ruvds/blog/479276/
Хабр
Три метода Pandas, о которых вы, возможно, не знали
Автор статьи, перевод которой мы сегодня публикуем, говорит, что когда он узнал о тех методах библиотеки Pandas, о которых хочет тут рассказать, он почувствовал...
Годнота подъехала! Павел Максимов выложил в открытый доступ библиотеку для получения данных из API Яндекс.Метрики (как Logs API, так и из обычного).
https://github.com/pavelmaksimov/tapi-yandex-metrika
https://github.com/pavelmaksimov/tapi-yandex-metrika
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какая красота! Визуализация странных аттракторов с помощью Plotly в 3D. Теория хаоса в действии!)
https://habr.com/ru/post/480660/
https://habr.com/ru/post/480660/
Введение в визуализацию данных с помощью Matplotlib. Достаточно подробно объяснены многие нюансы создания визуализаций, например, объектная модель графиков, построение subplots.
https://pythonlearning.org/2019/12/19/introduction-to-data-visualization-using-matplotlib/
https://pythonlearning.org/2019/12/19/introduction-to-data-visualization-using-matplotlib/
Шпаргалка в формате ipynb по работе с различными форматами файлов (csv, xml, json и многие другие). Взята из статьи: https://habr.com/ru/post/481140/
http://axil.github.io/serialization.html
http://axil.github.io/serialization.html
Уже выкладывал в канале ссылку на код инструмента для анализа цепей Маркова, но появилась хорошая обзорная статья по мотивам доклада Mark Sysoev на Матемаркетинге. Ссылка на Гитхаб внутри статьи
https://vc.ru/skyeng/92219-besplatnyy-python-skript-kotoryy-pomozhet-vam-uluchshit-analiz-voronok-cjm-i-dazhe-poisk-bagov-v-produkte
https://vc.ru/skyeng/92219-besplatnyy-python-skript-kotoryy-pomozhet-vam-uluchshit-analiz-voronok-cjm-i-dazhe-poisk-bagov-v-produkte
vc.ru
Бесплатный Python-скрипт, который поможет вам улучшить анализ воронок, CJM и даже поиск багов в продукте — Skyeng на vc.ru
Обычно вы используете кучу дорогих тяжелых приложений с закрытым кодом, чтобы анализировать путь клиента и интерпретировать данные о его поведении. Наш коллега Марк Сысоев создал свой простой инструмент для тех же задач и выложил на Github в виде небольшого…
Продолжая тему анализа поведенческих цепочек пользователей. Со мной связался @shommel - автор небольшой, но классной, библиотеки для кластеризации и интерпретации цепочки пользовательских событий. На сайте размещена простая инструкция по использованию.
http://webchains.tilda.ws/
http://webchains.tilda.ws/
На RealPython появился большой туториал про основы описательной статистики с помощью Python. Прелесть туториала в том, что он через простые примеры и небольшие сниппеты кода разъясняет базовые концепции статистики. Для тех кто только начинает погружение в мир средних, медиан и стандартных отклонений - самое то.
https://realpython.com/python-statistics/
https://realpython.com/python-statistics/
Realpython
Python Statistics Fundamentals: How to Describe Your Data – Real Python
In this step-by-step tutorial, you'll learn the fundamentals of descriptive statistics and how to calculate them in Python. You'll find out how to describe, summarize, and represent your data visually using NumPy, SciPy, pandas, Matplotlib, and the built…
Про numpy все как-то часто забывают, а между тем многие операции на numpy делать также удобно как и в pandas. В множестве случаев это взаимодополняемые инструменты аналитика. Про несколько интересных функций numpy читайте в статье.
https://habr.com/ru/post/480740/
https://habr.com/ru/post/480740/
Хабр
4 крутых функции Numpy, которые я использую постоянно
В этой статье я хочу рассказать о нескольких функциях Numpy, которые я использую для анализа данных постоянно. Это ни в коем случае не исчерпывающий список, но д...
Впереди небольшие каникулы, а значит можно провести их с пользой и потренироваться в анализе данных. Лучше всего оттачивать навыки на датасетах, непосредственно связанных с вашими проектами, но если таких не находится, то может пригодится подборка тренировочных датасетов
https://habr.com/ru/company/edison/blog/480408/
https://habr.com/ru/company/edison/blog/480408/
Тем кто работает в ecommerce точно пригодится. Статья о том как подготовить товарные cross-sell рекомендации с помощью pandas и алгоритма ассоциативных правил из библиотеки MLextend.
https://pythondata.com/market-basket-analysis-with-python-and-pandas/
https://pythondata.com/market-basket-analysis-with-python-and-pandas/
Python Data
Market Basket Analysis with Python and Pandas - Python Data
Market basket analysis looks at retail sales data and determines what products are purchased together. In this article, I provide an approach using python to perform this analysis.
Сегодня я выхожу из зимней спячки. Первый пост в новом году будет посвящен EDA (разведочному анализу данных) на основе датасета из игры FIFA 2019. Вообще, публичные EDA - прекрасные примеры практического применения инструментов анализа, на которых легко учиться. Так что если вы только начинаете изучение - накопайте побольше всяких ноутбуков с разведочным анализом данных.
https://towardsdatascience.com/exploratory-data-analysis-of-the-fifa-19-dataset-in-python-24eb27de9e59
https://towardsdatascience.com/exploratory-data-analysis-of-the-fifa-19-dataset-in-python-24eb27de9e59
Medium
Exploratory Data Analysis of the FIFA 19 Dataset in Python
FIFA 19 Data Analysis
Хорошая подборка в помощь начинающим изучать Data Science и анализ данных
https://habr.com/ru/post/482652/
https://habr.com/ru/post/482652/
Хабр
Письмо начинающему изучать Data Science
Я бы хотел получить такое письмо три года назад, когда только начинал изучать Data Science (DS). Чтобы там были необходимые ссылки на полезные материалы. Статья не претендует на полноту охвата...
Netflix выложил в открытый доступ собственную разработку для создания пайплайнов обработки данных - Metaflow. Идеологически основано на все тех же DAG (direct acyclic graph), подобная идеология построения пайплайнов используется и в Apache Airflow. Статья представляет собой вводный туториал с обзором основных возможностей.
https://towardsdatascience.com/learn-metaflow-in-10-mins-netflixs-python-r-framework-for-data-scientists-2ef124c716e4
https://towardsdatascience.com/learn-metaflow-in-10-mins-netflixs-python-r-framework-for-data-scientists-2ef124c716e4
Medium
Learn Metaflow in 10 mins — Netflix’s Python/R Framework for Data Science
Spend more time modeling, and less time managing infrastructures. A hands-on tutorial.
Статья с интересным примером прикладного анализа данных. Автор Олег Юрьев исследует характеристики, рейтинг и стоимость светодиодных ламп, сопровождая всё подробными комментариями.
http://rweather.ru/blog/all/veselaya-analitika-lamptest/
http://rweather.ru/blog/all/veselaya-analitika-lamptest/
Есть отличные новости!
9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25.
Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации.
https://habr.com/ru/post/483720/
9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25.
Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование датафреймов, больше форматов вывода, новые типы данных и даже новый сайт документации.
https://habr.com/ru/post/483720/
Хабр
Что принёс нам Pandas 1.0
9 января состоялся релиз Pandas 1.0.0rc. Предыдущая версия библиотеки — 0.25. Первый мажорный релиз содержит множество замечательных нововведений, в том числе улучшенное автоматическое суммирование...