Интересный пример того как с помощью Python можно генерировать "игрушечные" данные для несуществующего продукта. Это бывает полезно, если хочется написать статью или ещё какой-то обучающий материал, а показывать реальные данные не хочется. Отдельный плюс подхода, показанного в статье - сгенерированные данные содержат в себе некоторые инсайты, а не просто рандом с нормальным распределением.
https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d
Medium
Generating product usage data with Pandas
How can we approximate high-level user behavior?
Статья с примером выгрузки статистики роликов на YouTube-канале с помощю Python-скрипта
https://habr.com/ru/post/467035/
https://habr.com/ru/post/467035/
Хабр
Проектирование дашбордов для веб-аналитики e-commerce сайта. Часть 4: Youtube-канал
Легко посчитать, сколько трафика пришло с ютуб-канала. К примеру, зайти в счетчик Яндекс Метрики или Google Analytics. А вы попробуйте узнать, что происходило с...
Небольшой туториал по оптимизации использования памяти при работе с pandas
https://habr.com/ru/post/467785/
https://habr.com/ru/post/467785/
Хабр
Как оптимизировать pandas при работе с большими datasetами (очерк)
Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их...
Всем привет! В DigitalGod стартует курс по автоматизации сбора данных из рекламных систем. Там не просто научат получать данные из основных рекламных систем (GA, Метрика, Директ, Google Ads, FB и многое другое), но и сохранять эти данные в Clickhouse. А также в курсе много про построение ETL-процессов: например, как автоматизировать сбор по расписанию и управлять сборщиками с помощью Airflow. Ну и отдельная плюшка - Papermill для параметризации ноутбуков. В общем, если вы давно хотели собрать у себя все данные мира, то приходите. Будет хардово и весело!
https://digitalgod.be/collect-data
https://digitalgod.be/collect-data
digitalgod.be
Автоматизация сбора данных YD, GAd, FB, VK, GA, YM #1 | Digital God | Курсы
Получать данные с основных рекламных систем Yandex Direct, Google AdWords, Facebook, Vk и аналитических сервисов Google Analytics, Yandex Metrika. Сохранение в ClickHouse и BigQuery. Автоматизировать при помощи Airflow и Papermill
Большой гайд про когортный анализ силами Python. Рассматривается как сформировать когорты, построить таблицу для когортного анализа, а также визуализировать результаты с помощью heatmap в библиотеке seaborn.
https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b
Medium
Cohort Analysis with Python
Or how to visualize your customer retention — a code-along guide
Руководство по работе с Jupyter Notebook для новичков
https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
Встреча для аналитиков Data Driven — ежегодное мероприятие Яндекса для опытных специалистов, активно использующих анализ данных для принятия бизнес-решений. Встреча пройдет 19 октября в московском офисе Яндекса.
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.
После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.
Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.
https://events.yandex.ru/events/data-driven-2019
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.
После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.
Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.
https://events.yandex.ru/events/data-driven-2019
50 примеров крутых графиков на Matplotlib и Seaborn. В том числе различные нестандартные визуализации типа "вафельной" диаграммы, lolly-par chart. Рекомендовано к добавлению в закладки)
https://habr.com/ru/post/468295/
https://habr.com/ru/post/468295/
Хабр
50 оттенков matplotlib — The Master Plots (с полным кодом на Python)
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала про...
Ребята из Retentioneering выложили в open-source набор методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Продуктовые аналитики заценят!
https://habr.com/ru/post/468721/
https://habr.com/ru/post/468721/
Хабр
Retentioneering: как мы open-source инструменты для продуктовой аналитики на Python и Pandas написали
Привет, Хабр. Эта статья посвящена итогам четырехлетней разработки набора методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Автор разработки — Максим Годзи...
RFM-анализ - один из методов сегментации клиентов. Если вы хотите заняться сегментацией клиентской базы, то вам поможет статья о том как делать RFM-анализ в Python, а также визуализировать полученные сегменты.
https://guillaume-martin.github.io/rfm-segmentation-with-python.html
https://guillaume-martin.github.io/rfm-segmentation-with-python.html
Guillaume Martin
RFM Segmentation with Python
How to segment your customers using RFM analysis with Python
Использовать Jupyter Notebook на удаленном сервере - крайне удобно. Во-первых, все ваши ноутбуки будут доступны с любого устройства, будь то рабочий или домашний компьютер. Во-вторых, не нужно оставлять свой личный компьютер включенным на выполнение длительных задач. Статья расскажет о том как запустить Jupyter Notebook в облаке.
https://towardsdatascience.com/running-jupyter-notebook-in-google-cloud-platform-in-15-min-61e16da34d52
https://towardsdatascience.com/running-jupyter-notebook-in-google-cloud-platform-in-15-min-61e16da34d52
Medium
Running Jupyter Notebook on Google Cloud Platform in 15 min
Recently, while I was doing my research project on Computer Vision using Convolutional Neural Network, I found out that my 8GB RAM laptop…
Статья о том как трансформировать JSON с множественными уровнями вложенности для дальнейшей работы с данными в Pandas
https://hackersandslackers.com/json-into-pandas-dataframes/
https://hackersandslackers.com/json-into-pandas-dataframes/
Hackers and Slackers
Automagically Turn JSON into Pandas DataFrames
Let Pandas do the heavy lifting for you when turning JSON into a DataFrame, especially when that JSON is heavily nested.
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Pandas - отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые могут сильно облегчить жизнь, если о них знать.
Николай Марков рассказывает о различных приёмах эффективной работы с данными. Настоятельно рекомендую к просмотру
https://www.youtube.com/watch?v=2xS_glCEuRg
Николай Марков рассказывает о различных приёмах эффективной работы с данными. Настоятельно рекомендую к просмотру
https://www.youtube.com/watch?v=2xS_glCEuRg
YouTube
Как ухаживать за пандами – Николай Марков
Pandas - отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые…
Пожалуй, обращение к элементам датафрейма с помощью loc и iloc - это одна из тех тем, которая становится камнем преткновения для людей, начинающих изучать pandas. На самом деле, всё не так сложно. Erik Marsja в своей статье подробно освещает использование loc и iloc.
https://www.marsja.se/how-to-use-iloc-and-loc-for-indexing-and-slicing-pandas-dataframes/
https://www.marsja.se/how-to-use-iloc-and-loc-for-indexing-and-slicing-pandas-dataframes/
Erik Marsja
How to use iloc and loc for Indexing and Slicing Pandas Dataframes
In this extensive tutorial you will learn how to work with Pandas iloc and loc to slice, index, and subset your dataframes, e.g., by row and columns.
Проверка гипотез с помощью статистических критериев ничего не сообщает о величине различия. В ходе теста устанавливается p-value, что говорит о уровне статистической значимости. А для того чтобы выяснить величину какого-то явления или уровень различия между величинами используют методы оценки величины эффекта (effect size). Величина эффекта может считаться по-разному в зависимости от типа гипотезы, которую мы проверяем. Мер для оценки величины эффекта очень много, чтобы в этом убедиться можно посмотреть статью на википедии. Например, для проверки гипотезы равенства двух средних можно использовать метрику d-Коэна. В статье представлен доступный разбор того что же такое effect size и несколько примеров его расчета с кодом.
https://machinelearningmastery.com/effect-size-measures-in-python/
https://machinelearningmastery.com/effect-size-measures-in-python/
MachineLearningMastery.com
A Gentle Introduction to Effect Size Measures in Python - MachineLearningMastery.com
Statistical hypothesis tests report on the likelihood of the observed results given an assumption, such as no association between variables or no difference between groups. Hypothesis tests do not comment on the size of the effect if the association or difference…
WolframMathematica официально представили клиентскую библиотеку Wolfram для Python. Библиотека имеет полностью открытый исходный код.
Клиентская библиотека Wolfram позволяет легко интегрировать большую коллекцию алгоритмов языка Wolfram Language, а также базу знаний Wolfram непосредственно в любой уже существующий код Python.
В статье есть классный пример использования встроенного алгоритма обнаружения лиц в пару строчек кода.
https://habr.com/ru/company/wolfram/blog/471814/
Клиентская библиотека Wolfram позволяет легко интегрировать большую коллекцию алгоритмов языка Wolfram Language, а также базу знаний Wolfram непосредственно в любой уже существующий код Python.
В статье есть классный пример использования встроенного алгоритма обнаружения лиц в пару строчек кода.
https://habr.com/ru/company/wolfram/blog/471814/
Хабр
WolframClientForPython | Новая клиентская библиотека Wolfram Language для Python
Оригинал перевода в моём блоге Получение полного доступа к языку Wolfram Language из языка Python Язык Wolfram ( Wolfram Language ) дает программистам в руки уникальный язык с огромным множеством...