Datalytics – Telegram

Datalytics

9.37K subscribers

187 photos

13 videos

5 files

630 links

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение — @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr

Download Telegram

About

Blog

Apps

Platform

9.37K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

1.5K views12:12

Интересный пример того как с помощью Python можно генерировать "игрушечные" данные для несуществующего продукта. Это бывает полезно, если хочется написать статью или ещё какой-то обучающий материал, а показывать реальные данные не хочется. Отдельный плюс подхода, показанного в статье - сгенерированные данные содержат в себе некоторые инсайты, а не просто рандом с нормальным распределением.

https://towardsdatascience.com/generating-product-usage-data-from-scratch-with-pandas-319487590c6d

Generating product usage data with Pandas

How can we approximate high-level user behavior?

1.9K views09:53

Статья с примером выгрузки статистики роликов на YouTube-канале с помощю Python-скрипта

https://habr.com/ru/post/467035/

Проектирование дашбордов для веб-аналитики e-commerce сайта. Часть 4: Youtube-канал

Легко посчитать, сколько трафика пришло с ютуб-канала. К примеру, зайти в счетчик Яндекс Метрики или Google Analytics. А вы попробуйте узнать, что происходило с...

1.6K views13:36

Небольшой туториал по оптимизации использования памяти при работе с pandas

https://habr.com/ru/post/467785/

Как оптимизировать pandas при работе с большими datasetами (очерк)

Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их...

1.9K views11:27

Всем привет! В DigitalGod стартует курс по автоматизации сбора данных из рекламных систем. Там не просто научат получать данные из основных рекламных систем (GA, Метрика, Директ, Google Ads, FB и многое другое), но и сохранять эти данные в Clickhouse. А также в курсе много про построение ETL-процессов: например, как автоматизировать сбор по расписанию и управлять сборщиками с помощью Airflow. Ну и отдельная плюшка - Papermill для параметризации ноутбуков. В общем, если вы давно хотели собрать у себя все данные мира, то приходите. Будет хардово и весело!

https://digitalgod.be/collect-data

Автоматизация сбора данных YD, GAd, FB, VK, GA, YM #1 | Digital God | Курсы

Получать данные с основных рекламных систем Yandex Direct, Google AdWords, Facebook, Vk и аналитических сервисов Google Analytics, Yandex Metrika. Сохранение в ClickHouse и BigQuery. Автоматизировать при помощи Airflow и Papermill

1.7K views09:04

Большой гайд про когортный анализ силами Python. Рассматривается как сформировать когорты, построить таблицу для когортного анализа, а также визуализировать результаты с помощью heatmap в библиотеке seaborn.

https://medium.com/better-programming/cohort-analysis-with-python-e81d9d740a9b

Cohort Analysis with Python

Or how to visualize your customer retention — a code-along guide

2.0K views09:26

Руководство по работе с Jupyter Notebook для новичков

https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/

1.7K views09:16

Встреча для аналитиков Data Driven — ежегодное мероприятие Яндекса для опытных специалистов, активно использующих анализ данных для принятия бизнес-решений. Встреча пройдет 19 октября в московском офисе Яндекса.
Мероприятие откроет рассказ о практической юнит-экономике от команды Yandex Growth Team, обсуждение основных трудностей и практические советы по их решению. Далее из доклада эксперта по Data Science Алексея Чернобровова вы узнаете, чем хорошие аналитики отличаются от незаменимых и при чём тут soft skills. Эксперты из аналитики рекламных продуктов Яндекса расскажут, как научились смотреть на тысячу графиков одновременно. А команда Яндекс.Толоки поделится опытом, как собирать размеченные данные с помощью краудсорсинга и проводить эффективные А/Б-тестирования.

После перерыва вас ждёт разбор нестандартных кейсов — для этого все участники разделятся на команды и переместятся за столы.

Участие в мероприятии бесплатное, но нужно зарегистрироваться: количество мест ограничено. Эта встреча для опытных аналитиков, поэтому в анкете есть небольшой тест.

https://events.yandex.ru/events/data-driven-2019

1.7K views15:26

50 примеров крутых графиков на Matplotlib и Seaborn. В том числе различные нестандартные визуализации типа "вафельной" диаграммы, lolly-par chart. Рекомендовано к добавлению в закладки)

https://habr.com/ru/post/468295/

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала про...

2.2K views11:38

Ребята из Retentioneering выложили в open-source набор методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Продуктовые аналитики заценят!

https://habr.com/ru/post/468721/

Retentioneering: как мы open-source инструменты для продуктовой аналитики на Python и Pandas написали

Привет, Хабр. Эта статья посвящена итогам четырехлетней разработки набора методов и инструментов обработки траекторий движения пользователей в приложении или на сайте. Автор разработки — Максим Годзи...

2.4K views15:06

RFM-анализ - один из методов сегментации клиентов. Если вы хотите заняться сегментацией клиентской базы, то вам поможет статья о том как делать RFM-анализ в Python, а также визуализировать полученные сегменты.

https://guillaume-martin.github.io/rfm-segmentation-with-python.html

Guillaume Martin

RFM Segmentation with Python

How to segment your customers using RFM analysis with Python

2.1K views08:30

Анализ time-series данных с помощью Pandas

https://dev.to/kite/time-series-analysis-with-pandas-3472

Time Series Analysis with Pandas

Let's use Pandas to analyze Amazon’s stock prices and perform some basic time series operations. By Parul Pandey for the Kite Blog

2.2K views10:09

Использовать Jupyter Notebook на удаленном сервере - крайне удобно. Во-первых, все ваши ноутбуки будут доступны с любого устройства, будь то рабочий или домашний компьютер. Во-вторых, не нужно оставлять свой личный компьютер включенным на выполнение длительных задач. Статья расскажет о том как запустить Jupyter Notebook в облаке.

https://towardsdatascience.com/running-jupyter-notebook-in-google-cloud-platform-in-15-min-61e16da34d52

Running Jupyter Notebook on Google Cloud Platform in 15 min

Recently, while I was doing my research project on Computer Vision using Convolutional Neural Network, I found out that my 8GB RAM laptop…

2.0K viewsedited 08:45

Статья о том как трансформировать JSON с множественными уровнями вложенности для дальнейшей работы с данными в Pandas

https://hackersandslackers.com/json-into-pandas-dataframes/

Hackers and Slackers

Automagically Turn JSON into Pandas DataFrames

Let Pandas do the heavy lifting for you when turning JSON into a DataFrame, especially when that JSON is heavily nested.

1.7K views08:33

Forwarded from Ivan Begtin (Ivan Begtin)

Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.

Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML

Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/

#opendata #data #git #datatools

GitHub - dolthub/dolt: Dolt – Git for Data

Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.

153 views08:51

Pandas - отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые могут сильно облегчить жизнь, если о них знать.

Николай Марков рассказывает о различных приёмах эффективной работы с данными. Настоятельно рекомендую к просмотру

https://www.youtube.com/watch?v=2xS_glCEuRg

Как ухаживать за пандами – Николай Марков

Pandas - отличная базовая библиотека для работы с данными, включая очистку, генерацию новых фич и интеграцию с инструментами машинного обучения. Проблема в том, что в ней, несмотря на кажущуюся простоту, есть разные тонкости, а также готовые обертки, которые…

2.1K views13:07

Пожалуй, обращение к элементам датафрейма с помощью loc и iloc - это одна из тех тем, которая становится камнем преткновения для людей, начинающих изучать pandas. На самом деле, всё не так сложно. Erik Marsja в своей статье подробно освещает использование loc и iloc.

https://www.marsja.se/how-to-use-iloc-and-loc-for-indexing-and-slicing-pandas-dataframes/

How to use iloc and loc for Indexing and Slicing Pandas Dataframes

In this extensive tutorial you will learn how to work with Pandas iloc and loc to slice, index, and subset your dataframes, e.g., by row and columns.

1.9K viewsedited 09:05

Проверка гипотез с помощью статистических критериев ничего не сообщает о величине различия. В ходе теста устанавливается p-value, что говорит о уровне статистической значимости. А для того чтобы выяснить величину какого-то явления или уровень различия между величинами используют методы оценки величины эффекта (effect size). Величина эффекта может считаться по-разному в зависимости от типа гипотезы, которую мы проверяем. Мер для оценки величины эффекта очень много, чтобы в этом убедиться можно посмотреть статью на википедии. Например, для проверки гипотезы равенства двух средних можно использовать метрику d-Коэна. В статье представлен доступный разбор того что же такое effect size и несколько примеров его расчета с кодом.

https://machinelearningmastery.com/effect-size-measures-in-python/

MachineLearningMastery.com

A Gentle Introduction to Effect Size Measures in Python - MachineLearningMastery.com

Statistical hypothesis tests report on the likelihood of the observed results given an assumption, such as no association between variables or no difference between groups. Hypothesis tests do not comment on the size of the effect if the association or difference…

1.8K views12:59

WolframMathematica официально представили клиентскую библиотеку Wolfram для Python. Библиотека имеет полностью открытый исходный код.

Клиентская библиотека Wolfram позволяет легко интегрировать большую коллекцию алгоритмов языка Wolfram Language, а также базу знаний Wolfram непосредственно в любой уже существующий код Python.

В статье есть классный пример использования встроенного алгоритма обнаружения лиц в пару строчек кода.

https://habr.com/ru/company/wolfram/blog/471814/

WolframClientForPython | Новая клиентская библиотека Wolfram Language для Python

Оригинал перевода в моём блоге Получение полного доступа к языку Wolfram Language из языка Python Язык Wolfram ( Wolfram Language ) дает программистам в руки уникальный язык с огромным множеством...

3.0K views12:02

Лёша Куличевский делится замечательными советами о том как стать аналитиком

1.3K views15:20