Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Небольшая шпаргалка по веб-скрапингу с помощью BeautifulSoup

https://www.banjocode.com/web-scraping/
Онлайн-самоучитель по экосистеме Python для научных вычислений. Множество хорошо детализированных уроков освещают вопросы использования пакетов NumPy, SciPy. На последок немного рассказывается про Sympy и Sklearn

https://scipy-lectures.org/index.html
Гайд по визуализации данных в Python: начиная от раскрашивания ячеек и спарклайнов в Pandas, и завершая интерактивными визуализациями с помощью Bokeh и Altair, а также геовизуализациями в Folium.

https://towardsdatascience.com/complete-guide-to-data-visualization-with-python-2dd74df12b5e
Beautiful Soup — это библиотека Python для извлечения данных из файлов HTML и XML. Она обычно экономит программистам часы и дни работы. Появился перевод официальной документации Beautiful Soup на русский язык

http://bs4ru.geekwriter.ru/
Блокнот про анализ данных в E-commerce с примером использования ассоциативных правил (алгоритм Apriori) для создания товарных рекомендаций

https://www.kaggle.com/ostrowski/market-basket-analysis-exploring-e-commerce-data
Алексей Селезнев написал на Хабре статью, в которой сравнил подход к основным возможностям по манипуляции данных в R и Python.

В статье сравниваются следующие пакеты: tidyverse, data.table и pandas.

Цель статьи упростить миграцию между языками для их пользователей.

https://habr.com/ru/post/475210/
Статья о том как проводить простейший финансовый анализ с помощью Python. Показаны простые, но эффективные способы расчета показателей, таких как доходность, кумулятивная доходность, а также матрица рассеяния по парам акций. Отличный пример анализа реальных данных.

https://habr.com/ru/post/492364/
И снова про финансы. Интересный пример анализа котировок в том числе с использованием скользящего среднего, так что если вы хотели посмотреть на рабочие примеры применения rolling() в pandas, то вам сюда. Ну и ещё плюс статьи в том, что в самом начале указана ссылка на скачивание котировок с Финама в csv, что удобно, если вам лень возиться с финансовыми АПИ.

https://habr.com/ru/post/491612/
Крутые примеры генеративного искусства, созданного с помощью библиотеки Processing на Python со ссылками на исходный код

https://github.com/aaronpenne/generative_art
Виталий Черемисинов и Искандер Мирмахмадов из ExperimentFest запустили телеграм-канал. В нем будут публиковаться интересные статьи, книги, лекции и кейсы из мира математической статистики, анализа данных и экспериментов. Bootstrap, методы сокращения дисперсии, AB-тестирования - ребята знают толк в прикладной статистике, так что смело присоединяйтесь!

https://t.me/exp_fest
Интересная статья о том как использовать if-else конструкции для формирования новых колонок в pandas.

Для многих очевидным будет использование apply(), но в статье показаны и более любопытные примеры, например, применение метода np.select()

https://medium.com/@ODSC/creating-if-elseif-else-variables-in-python-pandas-7900f512f0e4
Дмитрий Осиюк написал отличную инструкцию по отправке Server-side событий через Facebook Pixel. Например, это может быть полезно для формирования аудитории на основе совершения телефонного звонка через коллтрекинг. В инструкции рассказывается о том как активировать Server-Side API в личном кабинете, а также о передаче событий с помощью скрипта на Python.

https://iosiuk.blogspot.com/2020/04/server-side-api-facebook-pixel.html
Виталий Бахвалов написал статью о том как отправлять целевые звонки из коллтрекинга CoMagic в Facebook Pixel, используя Server-Side API

http://italylov.ru/blog/all/otpravlyaem-celevye-zvonki-iz-comagic-v-piksel-feysbuka/
Алексей Селезнёв запустил бесплатный, вводный курс по R.

В ходе курса рассмотрены основные возможности инфраструктуры tidyverse, т.е. своего рода аналог pandas на R.

На данный момент открыто уже 5 уроков, и каждую неделю по понедельникам открывается новый урок.

Кому интерсно велкам.


Программа и информация о курсе на proglib
Подписка на youtube канал
Отличная статья про агрегацию и группировку данных с помощью pandas. В ней рассказывается про кучу нюансов, которые обычно возникают в процессе работы с данными:

- какие агрегирующие функции существуют,
- как сделать собственную агрегирующую функцию (lambda в помощь),
- как сделать результат группировки не в виде series, а в виде фрейма,
- как убрать мультииндекс в колонках после группировки,
- как использовать именнованные агрегаты.

В общем, если бы я наткнулся на такую статью лет 5 назад, то это существенно сократило бы количество самостоятельно набитых шишек.

https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В статье объясняется, как эта библиотека позволяет обрабатывать данные с использованием параллельных вычислений.

https://habr.com/ru/post/498904/
Алексей Селезнёв написал заметку про небольшую библиотеку pretty-html-table, которая позволяет привести пандасовский датафрейм в нормальную HTML таблицу. Да такую, чтобы было не стыдно вставить в письмо🙃

Как создать оформленную HTML-таблицу из dataframe
Статья про визуализацию данных с помощью Altair. Как-то многие упускают из виду этот инструмент для создания визуализаций, а меж тем он эффективен и прост. В особенности, когда нужны графики для исследования данных

https://towardsdatascience.com/python-interactive-data-visualization-with-altair-b4c4664308f8