Datalytics – Telegram

Datalytics

9.07K subscribers

218 photos

17 videos

5 files

673 links

Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение — @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr

Download Telegram

About

Blog

Apps

Platform

9.07K subscribers

Неплохая вводная статья про различные виды распределений вероятностей. В статье приведены примеры генерации случайных чисел, подчиняющихся определенным законам распределения, с использованием пакета scipy.stats.

https://www.datacamp.com/community/tutorials/probability-distributions-python

Probability Distributions in Python Tutorial

Learn about probability distributions with Python. Understand common distributions used in machine learning today!

1.98K views08:00

Крутейшая видеолекция Алексея Куличевского, в которой он рассказывает про построение системы репортинга и self-service аналитики с помощью Metabase.

На примере подключения Metabase к PostgreSQL, Алексей рассказывает и показывает с какими сложностями он столкнулся, как настроить различные дашборды, как делать ad-hoc запросы, как создавать пользователей и выдавать им права доступа. В общем, красота. Смотреть тем, кто хочет делать крутые open-source дашборды

https://digitalgod.be/guides/metabase_video_dr5_metabase

Digital God | Guides | Использование Metabase с PostgreSQL и ClickHouse

Тема с Digital Rockstar #5, Алексей Куличевский делится опытом работы с Metabase.

2.27K viewsedited 16:18

Туториал по визуализации данных с помощью Seaborn. Erik Marsja рассказывает о том как использовать различные техники визуализации данных, от барчартов до raincloud-plots, для исследования данных.

https://www.marsja.se/python-data-visualization-techniques-you-should-learn-seaborn/

9 Data Visualization Techniques You Should Learn in Python - Erik Marsja

In this Python data visualization tutorial we will learn how to create 9 different plots using Python Seaborn. More precisely we have used Python to create a scatter plot, histogram, bar plot, time series plot, box plot, heat map, correlogram, violin plot…

1.99K views08:53

Всем привет! Завтра я и Дима Родин в DigitalGod покажем как собирать данные из коллтрекинга CoMagic с помощью API и анализировать эти данные в Python. А затем рассмотрим как самостоятельно сделать интеграцию с Rockstat через WebHook'и. Спешите, количество мест ограничено. Регистрация на страничке

https://digitalgod.be/meetup/0719_comagic_api_webhook

Digital God | Meetups | Работа с API, WebHook CoMagic. 25 июля.

Препарируем данные CoMagic, прокачиваем интеграцию

1.47K viewsedited 08:53

Огромная подборка различных полезных сниппетов кода для Pandas. Изучайте, открывайте для себя новые примеры использования

https://vishalmnemonic.github.io/DC9/

1.97K views11:43

Хорошая иллюстрированная статья про groupby и концепцию split-apply-combine в Pandas. Если вы хотите на более низком уровне понимать как работает группировка и применение агрегирующих функций, настоятельно рекомендую ознакомиться.

https://towardsdatascience.com/how-to-use-the-split-apply-combine-strategy-in-pandas-groupby-29e0eb44b62e

How to use the Split-Apply-Combine strategy in Pandas groupby

Master the Split-Apply-Combine pattern in Python with this visual guide to Pandas groupby-apply.

1.89K views09:01

Подробная шпаргалка по работе с Pandas

https://www.webpages.uidaho.edu/~stevel/504/Pandas%20DataFrame%20Notes.pdf

1.91K views06:55

User Interface для Pandas. В чатике "Python для анализа данных" уже шутят, что скоро из Python сделают инструмент, в котором смогут работать секретарши.

https://www.youtube.com/watch?v=yM-j5bY6cHw&feature=youtu.be

Product vision of bamboolib - a GUI for pandas. Stop googling pandas commands!

bamboolib is out now. Go to https://bamboolib.com to see it in action

1.95K viewsedited 08:41

Если вы хотите начать работать с анализом различных текстовых корпусов и вообще заняться NLP (natural language proccessing, не путать с нейро-лингвистическим программированием🙃), то вам наверняка понадобится раскладывать текст на n-граммы. Вот вам небольшой туториал по n-граммам

https://www.kaggle.com/boldy717/textual-data-exploration-with-n-grams

1.89K viewsedited 09:39

Series являются фундаментом Pandas. Dataframe по сути представляет собой контейнер для Series, объединенных одним индексом. Это подводит к тому, что понимание того как устроены Series и как с ними работать - это важный навык для глубокого понимания принципов работы с данными в Pandas. Подробно ознакомиться с основами Series можно в статье

https://towardsdatascience.com/gaining-a-solid-understanding-of-pandas-series-893fb8f785aa

Gaining a solid understanding of Pandas series

Expertise in series is prerequisite for being productive with Pandas

1.54K views09:40

Если вы хотите заняться анализом данных, но не знаете с чего начать, посмотрите статью от автора канала @programming_python. Статья написана для новичков в Pandas. Автор занимается анализом данных, так что в будущем планируется еще несколько статей подобного плана.

Pandas for beginners.

На сегодняшний день, пакет Pandas это самый важный инструмент во всем, что касается анализа данных. Многие аналитики и data scientis'ы пользуются этим пакетом. Первые шаги в Pandas

1.83K views10:22

Статья в блоге Chris Moffitt о том как автоматизировать репортинг, используя Jupyter Notebook, nbconvert и Papermill. Чуть подробнее о том зачем нужны эти инструменты: nbconvert используется для преобразования ipynb в html без отображения ячеек с кодом, а Papermill нужен для параметризации ноутбуков, то есть чтобы передавать в ноутбуки разные входные параметры и автоматически запускать их.

https://pbpython.com/papermil-rclone-report-1.html

Automated Report Generation with Papermill: Part 1

This is part 1 of a two-part series post about automating report generation using python, jupyter, papermill, and a couple of other tools.

1.84K views10:41

Написал небольшую статейку про новые функции pandas, появившиеся в версии 0.25.0.

Из самого крутого: именованные агрегаты (попробуйте, вам понравится) и разворачивание колонок со списками (а ля unnest в postgresql).

Приятного чтения!
http://bit.ly/2YRVMgv

Что нового в Pandas 0.25.0

Небольшой обзор новых функций

2.06K views14:33

Хорошая статья с детальным объяснением того, что под капотом у Pandas. Рассматриваются базовые концепции numpy, на основе которых работают практически все операции в Pandas, будь то создание срезов через булевы индексы, либо арифметические операции с колонками

http://heydenberk.com/blog/posts/demystifying-pandas-numpy-filtering/

Eric Heydenblog

Demystifying pandas and numpy filtering

In the course of analyzing data, one will inevitably want to remove items from a collection, leaving behind only the items which satisfy a condition. In vanilla python, there are two equivalent ways t

1.5K views08:21

Наткнулся на статью (http://bit.ly/2YQHSQE) с перечнем рекомендаций для создания хороших тетрадок в Jupyter Notebook. Под «хорошестью» имеется в виду понятность, простота чтения, воспроизводимость. Это крайне важно, если вашей тетрадью будут пользоваться другие люди, и ещё более важно, когда речь идет о тетрадках-туториалах. Эти правила могут показаться «капитанскими», но полезно о них помнить:

1. Выстраивайте анализ как историю. Комбинируйте код, текст и визуализации в полноценный рассказ. Задумайтесь о том с какой целью вы публикуете тетрадку, кто целевая аудитория, которая будет читать и использовать код.

2. Документируйте процесс, а не только результат. Поэтому не скупитесь на текст, описывайте свои мысли, интересные наблюдения и какие выводы можно сделать из этих наблюдений. Может быть самоочевидным, что делает код, но не всегда из кода очевидно какими соображениями вы руководствовались, какие полезные инсайты получили.

3. Используйте ячейки, чтобы сделать ход алгоритма более ясным. Не пытайтесь запихнуть всё в одну ячейку, но и на каждый чих создавать новую ячейку не нужно. Одна ячейка - это один важный шаг анализа. Полезно давать к каждой ячейке краткий комментарий о том какую функцию она выполняет.

4. Не повторяйте себя. Несмотря на то, что тетрадки очень сильно склоняют к тому, чтобы делать множество почти одинаковых ячеек, создавайте функции для повторяющихся действий, делайте код модульным. Особенно это касается различных функций для вывода визуализаций, однотипных алгоритмов обработки данных.

5. Описывайте зависимости. Давайте исчерпывающее описание необходимых библиотек и их версий. Также можно генерировать файл с конфигурацией окружения, в котором запускался ноутбук. Ну а если вы дружите с докером, то можно даже сделать отдельный контейнер (хотя это существенно усложняет порог использования тетрадки, но если вы публикуете её для технически подкованных людей, то это может иметь смысл).

6. Используйте системы контроля версий. Это позволит отслеживать изменения и эффективнее управлять ими, например, быстро откатываться к предыдущей версии. На эту тему есть хорошая статья «How to Version Control Jupyter Notebooks». (https://nextjournal.com/schmudde/how-to-version-control-jupyter)

7. Выстраивайте полноценный пайплайн обработки данных. Идеально воспроизводимый анализ должен выполняться от А до Я без необходимости что-то обрабатывать вручную. Например, если вы предобрабатываете данные, то делайте это в ноутбуке. Также полезно делать ноутбуки параметризируемыми, чтобы быстро перезапускать весь процесс с другими входными данными. В этом может помочь Papermill. (загуглите, кто ещё не)

8. Вместе с ноутбуком старайтесь публиковать и данные. Не всегда это возможно из-за того, что датасет большой или содержит конфиденциальные данные. Но можно выложить отдельный кусок или попробовать нагенерить что-то похожее, если датасет непубличный.

9. Постарайтесь сделать так, чтобы ноутбук был читабельным, воспроизводимым и кастомизируемым. Смотри правила 3, 5 и 7.
10. Будьте тем, кто применяет эти правила. Будь то работа, ваша open-source активность или соревнования на Кагле. Чем больше будет воспроизводимых, читабельных и полезных ноутбуков - тем выше уровень открытости данных и компетенций.

Оригинал статьи: https://doi.org/10.1371/journal.pcbi.1007007. В самой статье есть ссылка на GitHub с парочкой примеров «хороших» тетрадок.

Медиум для шера http://bit.ly/2YZJym0

journals.plos.org

Ten simple rules for writing and sharing computational analyses in Jupyter Notebooks

1.79K viewsedited 20:50

Короткая статья, в которой выясняется что лучше: df.iterrows() или df.itertuples()?

https://medium.com/@formigone/stop-using-df-iterrows-2fbc2931b60e

Stop using df.iterrows()

This morning I came across an article with tips for using Pandas better. One of the claims was that df.itertuples() should be used instead…

1.65K viewsedited 09:23

Куча tips & tricks по pandas в твиттере Kevin Markham, основателя Data School

1.29K views14:25

Forwarded from Data Phoenix

More pandas tricks!

Kevin Markham, founder of Data School has expanded his popular pandas tricks series. There are now more than 45 tricks and new ones are added daily.

http://bit.ly/2MZJal4

154 views14:25

Отличный ноутбук с примерами расчета и визуализации различных бизнес-показателей: когортный анализ, подсчет MRR (Monthly Recurring Revenue) и ARR (Annual Recuriring Revenue), расчет Retention Rate. Будет полезно, если вы занимаетесь продуктовой аналитикой.

http://highpeakfinancial.com/blog/2019/1/16/customer-data-visualizations-using-python-pandas-and-graphing-libraries

1.7K views08:11

Forwarded from Нейрон

Давненько на канале не выходило постов — за то теперь будет жирненький. Написал пост, который будет передаваться бережно из уст в уста. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности.

Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа!

Если вы знаете, какой-то проект, который можно добавить в любую из подотраслей, пожалуйста, свяжитесь со мной. Я его добавлю в список.

https://neurondata.ru/ryfJPJN4S

#нейронавтор #нейронстатьи
С любовью, Нейрон ❤️

221 views08:36

https://pbpython.com/papermil-rclone-report-2.html

Вторая часть статьи про автоматизацию формирования отчетности с использованием Papermill (первая тут - https://t.me/datalytx/195)

Automated Report Generation with Papermill: Part 2

This is part two of a two-part series post about automating report generation using python, jupyter, papermill, and a couple of other tools.

1.82K views10:54