Datalytics – Telegram

Datalytics

9.08K subscribers

218 photos

17 videos

5 files

673 links

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение — @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr

Download Telegram

About

Blog

Apps

Platform

9.08K subscribers

Пример построения инфраструктуры по передаче данных из Google Analytics в Google BigQuery с указанием ClientID, SessionID и HitID. Вытаскивание данных из Google Analytics API и передача в BQ реализованы на Python, в статье есть примеры кода. По сути, ничего не мешает использовать в место BQ свой Clickhouse или другую приглянувшуюся БД.

https://habr.com/ru/company/idfinance/blog/457052/

Как настроить инфраструктуру веб-аналитики за $100 в месяц

Рано или поздно почти любая компания сталкивается с проблемой развития веб-аналитики. Это не значит, что нужно только поставить код Google Analytics на сайт — нужно найти пользу в полученных данных. В...

2.04K views11:44

Перевод статьи об оптимизации работы с Jupyter Notebook. Рассмотрены основные горячие клавиши, установка дополнений, использование magic-команд

https://tproger.ru/translations/how-to-optimize-jupyter-notebook/

Как оптимизировать работу в Jupyter Notebook

Оптимизируем работу в Jupyter Notebook с помощью основных команд и расширений и добавляем немного магии, чтобы всё стало ещё быстрее и проще.

1.71K views07:13

В работе аналитика, зачастую, 80% времени уходит на подготовку данных: очистку, замену пропущенных значений, трансформацию, нормализацию. Обычно никто это дело особо не любит, но от этих процедур напрямую зависит конечный результат. Как известно, garbage in -> garbage out.

В этой статье разбираются разные приемы обработки данных, как с помощью общепринятых методов, например, df.fillna(), так и с помощью различных библиотек, таких как dedupe для поиска нечетких дублей или fuzzywuzzy для нечеткого сравнения строк.

https://medium.com/@rrfd/cleaning-and-prepping-data-with-python-for-data-science-best-practices-and-helpful-packages-af1edfbe2a3

Cleaning and Prepping Data with Python for Data Science — Best Practices and Helpful Packages

1.73K views12:35

Forwarded from DataEng

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

166 views16:22

Если вам нужно создать новую колонку, которая формируется по сложной логике, например, на основе функции, которая принимает в качестве аргументов значения из других колонок, то не обойтись без apply и lambda. В этой статье рассматривается использование этих функций на множестве понятных примеров.

https://towardsdatascience.com/apply-and-lambda-usage-in-pandas-b13a1ea037f7

Apply and Lambda usage in pandas

Learn these to master Pandas

1.7K views09:28

Forwarded from DevBrain

Без pandas сейчас никуда, если дело касается анализа данных. Несколько лет назад я писал вводную заметку про pandas и анализ данных на Python для тех, кто только начинает свой путь и немного запутан. Ежедневно её читает около 300 человек.

После этого у меня были попытки написать более продвинутый туториал, но руки никак не доходили. А буквально вчера я наткнулся на чумовое видео про 25 трюков на pandas от Kevin Markham, основателя DataSchool.

Видео можно посмотреть вот тут.

Исходник jupyter notebook можно скачать здесь

Введение в pandas: анализ данных на Python

pandas это высокоуровневая Python библиотека для анализа данных. Почему я её называю высокоуровневой, потому что построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что явл…

206 views07:22

Если у вас возникают проблемы с индексами в датафрейме или вы вообще не понимаете зачем они нужны и при любом удобном случае делаете reset_index(drop=True), то почитайте статью про индексацию в датафрейме

https://brohrer.github.io/dataframe_indexing.html

1.97K viewsedited 12:48

Статья о том как проводить исследовательский анализ данных на примере данных о метеорологических наблюдениях

https://risk-engineering.org/notebook/data-analysis-weather.html

1.87K views08:42

Хороший туториал по Bokeh - библиотеке для визуализации данных, которую выгодно отличает от matplotlib или seaborn возможность строить интерактивные графики. Также эта библиотека используется для построения графиков на дашбордах в рамках фреймворка Panel.

https://stackabuse.com/pythons-bokeh-library-for-interactive-data-visualization/

Python's Bokeh Library for Interactive Data Visualization

Introduction In this tutorial, we're going to learn how to use Bokeh library in Python. Most of you would have heard of matplotlib, numpy, seaborn, etc. as they are very popular python libraries for graphics and visualizations. What distinguishes Bokeh from…

2K views09:16

Мегапост с гигантской подборкой блокнотов по ML, Data Science, анализу и визуализации данных. Налетай, разбирай, сохраняй в закладки!

Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

https://habr.com/ru/post/460321/

Галерея лучших блокнотов по ML и Data Science

Привет, читатель. Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Ma...

2.15K views11:55

Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.

https://www.datacamp.com/community/tutorials/probability-distributions-python

Probability Distributions in Python Tutorial

Learn about probability distributions with Python. Understand common distributions used in machine learning today!

1.98K views08:00

Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.

На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды

https://digitalgod.be/guides/metabase_video_dr5_metabase

Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse

Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.

2.27K viewsedited 16:18

Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.

https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/

9 Data Visualization Techniques You Should Learn in Python - Erik Marsja

In this Python data visualization tutorial we will learn how to create 9 different plots using Python Seaborn. More precisely we have used Python to create a scatter plot, histogram, bar plot, time series plot, box plot, heat map, correlogram, violin plot…

1.99K views08:53

Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке

https://digitalgod.be/meetup/0719_comagic_api_webhook

Digital God | Meetups | Работа с API, WebHook CoMagic. 25 июля.

Препарируем данные CoMagic, прокачиваем интеграцию

1.47K viewsedited 08:53

Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования

https://vishalmnemonic.github.io/DC9/

1.97K views11:43

Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.

https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e

How to use the Split-Apply-Combine strategy in Pandas groupby

Master the Split-Apply-Combine pattern in Python with this visual guide to Pandas groupby-apply.

1.89K views09:01

Подробная шпаргалка по работе с Pandas

https://www.webpages.uidaho.edu/~stevel/504/Pandas%20DataFrame%20Notes.pdf

1.91K views06:55

User Interface для Pandas. В чатике "Python для анализа данных" уже шутят, что скоро из Python сделают инструмент, в котором смогут работать секретарши.

https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be

Product vision of bamboolib - a GUI for pandas. Stop googling pandas commands!

bamboolib is out now. Go to https://bamboolib.com to see it in action

1.95K viewsedited 08:41

Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам

https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams

1.89K viewsedited 09:39

Series являются фундаментом Pandas. Dataframe по сути представляет собой контейнер для Series, объединенных одним индексом. Это подводит к тому, что понимание того как устроены Series и как с ними работать - это важный навык для глубокого понимания принципов работы с данными в Pandas. Подробно ознакомиться с основами Series можно в статье

https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa

Gaining a solid understanding of Pandas series

Expertise in series is prerequisite for being productive with Pandas

1.54K views09:40

Если вы хотите заняться анализом данных, но не знаете с чего начать, посмотрите статью от автора канала @programming_python. Статья написана для новичков в Pandas. Автор занимается анализом данных, так что в будущем планируется еще несколько статей подобного плана.

Pandas for beginners.

На сегодняшний день, пакет Pandas это самый важный инструмент во всем, что касается анализа данных. Многие аналитики и data scientis'ы пользуются этим пакетом. Первые шаги в Pandas

1.83K views10:22