Datalytics
9.37K subscribers
187 photos
13 videos
5 files
630 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Яндекс.Маркет приглашает аналитиков на субботний митап, который пройдет в Москве 23 ноября.

В программе 6 докладов от аналитиков Маркета. Разберём и обсудим совершенно разные направления аналитической работы, которые сильно повлияли на развитие нашего бизнеса: привлечение и удержание пользователей, монетизация сервиса, сбор и систематизация неструктурированных данных, поиск и рекомендации на сервисе, логистика и фулфилмент.

Заполняйте анкету с небольшим тестом. Участие в мероприятии бесплатное, по предварительной регистрации:

https://events.yandex.ru/events/data_market/23nov
Сегодня хочу порекомендовать канал Дашбордец.

Его автор Даша подробно рассказывает как построить визуализацию так, чтобы дашборд выполнил свою задачу и помог принять решение. От методов бизнес-анализа до реализации на BI. Прикольные графики, интересные фичи и многое другое. Подписывайтесь, там интересно.
Хороший пример использования pandas для обработки данных в разных форматах: на примере финансовых данных в различных форматах автор разбирает как стандартизировать данные, чтобы облегчить их дальнейшую обработку

https://pbpython.com/currency-cleanup.html
Пример создания простого ETL-процесса, в котором берутся данные из API городского велопроката Нью-Йорка, трансформируются с помощью Pandas, а затем заливаются в BigQuery

https://www.datacourses.com/an-api-based-etl-pipeline-with-python-part-1-259/
Ноутбук с моего сегодняшнего выступления на MateMarketing, где рассказал про то как можно анализировать пользовательские данные с помощью Python.

http://bit.ly/2Of2Xf5
Данные тут: http://bit.ly/36YRwB3
Datalytics pinned a photo
Подробная статья об использовании List Comprehension в Python с кучей полезных примеров

https://webdevblog.ru/kogda-ispolzovat-list-comprehension-v-python/
Советы как снизить потребление памяти в Pandas. Уже бывшие тут советы, но повторить их никогда не вредно: загружайте только нужные колонки, преобразуйте int в целые числа с меньшей разрядностью, преобразуйте object в category (при условии невысокой кардинальности данных в колонке это даст прирост)

https://pythonspeed.com/articles/pandas-load-less-data/
Доклад Марка Сысоева (Skyeng) на конференции MateMarketing был посвящен анализу поведения пользователей с помощью цепей Маркова.

Сегодня хочу поделиться с вами решением на Python, разработанное Марком, которое позволяет преобразовать лог событий в цепи Маркова для дальнейшей визуализации и анализа.

https://github.com/BartolomeuD/markov-chain
Крутой пример использования регулярных выражений в Pandas для выделения значимой информации и дальнейшей группировки текстовых строк.

https://www.coursera.org/lecture/python-text-mining/demonstration-regex-with-pandas-and-named-groups-wh4nJ
Я редко выкладываю тут софт-статьи, чаще контент канала состоит из туториал-контента формата "скопипастил и запустил у себя"😊 Но наткнулся на очень хорошее интервью с Анатолием Карповым, автором курса по статистике на Степике. Анатолий рассказывает про онлайн-образование, про работу аналитика и про современные карьерные возможности в IT. Интересно, почитайте

https://zeh.media/praktika/intervyu/4857692-anatoly-karpov
Набор Python-скриптов для автоматизации рутинных задач SEO-специалиста.

Статья будет полезна специалистам, которые хотели бы автоматизировать свою работу. Для работы со скриптами потребуются минимальные знания программирования и установленные библиотеки. Для каждого примера в конце есть ссылка на полный код, который нужно открывать в Jupyter Notebook.

https://vc.ru/seo/91963-nabor-python-skriptov-dlya-avtomatizacii-rutinnyh-zadach-seo-specialista
Подробный туториал по работе с SQL-базами в Python с помощью SQLalchemy. Отличительная особенность этого туториала, что тут показывается как использовать ORM для простых операций получения данных

https://towardsdatascience.com/sqlalchemy-python-tutorial-79a577141a91
Павел Левчук вчера разместил ссылку на очень крутую статью в своём фейсбуке. В статье рассказывается о полезных привычках в написании кода для data scientists & data analysts.

Основные правила просты: держите код чистым (убирайте всякие отладочные команды а ля df.head()); добавляйте функции, чтобы повысить уровень абстракции; оборачивайте функции в пайплайны; меньше пишите в jupyter notebook; применяйте практики TDD (test-driven development).

https://www.thoughtworks.com/insights/blog/coding-habits-data-scientists
Краткий обзор библиотеки pdpipe, позволяющей создавать пайплайны обработки данных в датафреймах. Больше похоже на синтаксический сахар, но, на первый взгляд, повышает удобочитаемость кода. Больше примеров можно найти на гитхабе

https://towardsdatascience.com/https-medium-com-tirthajyoti-build-pipelines-with-pandas-using-pdpipe-cade6128cd31
Статья, показывающая важность анализа открытых данных в государственных сферах. Используя открытые данные с избирательных участков автор выявляет аномальные наблюдения, а также делает интересные визуализации с помощью geopandas

https://habr.com/ru/post/475258/
Даша Чиркина из Яндекса написала статью про множественные эксперименты - тестирования с более чем одной группой. В статье рассмотрены основные методы расчёта результатов тестов и математические принципы, на которых основаны методы. Отдельный плюс - наличие примеров кода на Python, так что можно смело юзать в своих проектах

https://habr.com/ru/company/yandex/blog/476826/
Статья про использование метода resample, который позволяет изменить группировку данных, содержащих дату-время. Например, если у нас есть данные с точностью до секунды, то resample позволит укрупнить данные, сгруппировав по 10 минут или по часам, в зависимости от задачи. В общем, хороший и нужный метод при работе с анализом данных во времени.

https://towardsdatascience.com/using-the-pandas-resample-function-a231144194c4