Datalytics
9.08K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Набор Python-скриптов для автоматизации рутинных задач SEO-специалиста.

Статья будет полезна специалистам, которые хотели бы автоматизировать свою работу. Для работы со скриптами потребуются минимальные знания программирования и установленные библиотеки. Для каждого примера в конце есть ссылка на полный код, который нужно открывать в Jupyter Notebook.

https://vc.ru/seo/91963-nabor-python-skriptov-dlya-avtomatizacii-rutinnyh-zadach-seo-specialista
Подробный туториал по работе с SQL-базами в Python с помощью SQLalchemy. Отличительная особенность этого туториала, что тут показывается как использовать ORM для простых операций получения данных

https://towardsdatascience.com/sqlalchemy-python-tutorial-79a577141a91
Павел Левчук вчера разместил ссылку на очень крутую статью в своём фейсбуке. В статье рассказывается о полезных привычках в написании кода для data scientists & data analysts.

Основные правила просты: держите код чистым (убирайте всякие отладочные команды а ля df.head()); добавляйте функции, чтобы повысить уровень абстракции; оборачивайте функции в пайплайны; меньше пишите в jupyter notebook; применяйте практики TDD (test-driven development).

https://www.thoughtworks.com/insights/blog/coding-habits-data-scientists
Краткий обзор библиотеки pdpipe, позволяющей создавать пайплайны обработки данных в датафреймах. Больше похоже на синтаксический сахар, но, на первый взгляд, повышает удобочитаемость кода. Больше примеров можно найти на гитхабе

https://towardsdatascience.com/https-medium-com-tirthajyoti-build-pipelines-with-pandas-using-pdpipe-cade6128cd31
1
Статья, показывающая важность анализа открытых данных в государственных сферах. Используя открытые данные с избирательных участков автор выявляет аномальные наблюдения, а также делает интересные визуализации с помощью geopandas

https://habr.com/ru/post/475258/
Даша Чиркина из Яндекса написала статью про множественные эксперименты - тестирования с более чем одной группой. В статье рассмотрены основные методы расчёта результатов тестов и математические принципы, на которых основаны методы. Отдельный плюс - наличие примеров кода на Python, так что можно смело юзать в своих проектах

https://habr.com/ru/company/yandex/blog/476826/
Статья про использование метода resample, который позволяет изменить группировку данных, содержащих дату-время. Например, если у нас есть данные с точностью до секунды, то resample позволит укрупнить данные, сгруппировав по 10 минут или по часам, в зависимости от задачи. В общем, хороший и нужный метод при работе с анализом данных во времени.

https://towardsdatascience.com/using-the-pandas-resample-function-a231144194c4
Статья с банальными, казалось бы, советами о том как выбирать колонки датафрейма в Pandas. Но автор делится парой полезных хаков, например, как выбрать все колонки, содержащие какую-то подстроку или выбрать колонки на основе их порядкового места.

https://pbpython.com/selecting-columns.html
👍1
Наткнулся на библиотеку pomegranate. Она предоставляет ряд высокоуровневых методов для работы с вероятностными моделями: цепи Маркова, байесовские классификаторы, модели распределения вероятностей, скрытые марковские модели и ещё куча всего. Отдельный плюс библиотеки - доступная документация с множеством примеров, например, вот документация по использованию цепей Маркова со ссылкой на ноутбук с примерами.

https://pomegranate.readthedocs.io/en/latest/index.html
Оказывается QuantStack (это те товарищи, что сделали Voila и приложили большие усилия в развитию экосистемы Jupyter) сделали виджеты для работы с таблицами внутри ноутбуков. Прелесть не только в том, что можно выводить таблицы, но и редактировать в них данные, а также привязывать данные в таблицах к другим виджетам (слайдерам, инпутам и т.д.)

https://towardsdatascience.com/interactive-spreadsheets-in-jupyter-32ab6ec0f4ff
Статья, посвященная не самым распространенным методам Pandas - idxmax(), idxmin(), ne(), nlargest(). В статье приводятся интересные примеры использования этих методов при решении практических задач анализа.

https://habr.com/ru/company/ruvds/blog/479276/
Годнота подъехала! Павел Максимов выложил в открытый доступ библиотеку для получения данных из API Яндекс.Метрики (как Logs API, так и из обычного).

https://github.com/pavelmaksimov/tapi-yandex-metrika
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какая красота! Визуализация странных аттракторов с помощью Plotly в 3D. Теория хаоса в действии!)

https://habr.com/ru/post/480660/
Введение в визуализацию данных с помощью Matplotlib. Достаточно подробно объяснены многие нюансы создания визуализаций, например, объектная модель графиков, построение subplots.

https://pythonlearning.org/2019/12/19/introduction-to-data-visualization-using-matplotlib/
Шпаргалка в формате ipynb по работе с различными форматами файлов (csv, xml, json и многие другие). Взята из статьи: https://habr.com/ru/post/481140/

http://axil.github.io/serialization.html
Продолжая тему анализа поведенческих цепочек пользователей. Со мной связался @shommel - автор небольшой, но классной, библиотеки для кластеризации и интерпретации цепочки пользовательских событий. На сайте размещена простая инструкция по использованию.

http://webchains.tilda.ws/
На RealPython появился большой туториал про основы описательной статистики с помощью Python. Прелесть туториала в том, что он через простые примеры и небольшие сниппеты кода разъясняет базовые концепции статистики. Для тех кто только начинает погружение в мир средних, медиан и стандартных отклонений - самое то.

https://realpython.com/python-statistics/