Набор Python-скриптов для автоматизации рутинных задач SEO-специалиста.
Статья будет полезна специалистам, которые хотели бы автоматизировать свою работу. Для работы со скриптами потребуются минимальные знания программирования и установленные библиотеки. Для каждого примера в конце есть ссылка на полный код, который нужно открывать в Jupyter Notebook.
https://vc.ru/seo/91963-nabor-python-skriptov-dlya-avtomatizacii-rutinnyh-zadach-seo-specialista
Статья будет полезна специалистам, которые хотели бы автоматизировать свою работу. Для работы со скриптами потребуются минимальные знания программирования и установленные библиотеки. Для каждого примера в конце есть ссылка на полный код, который нужно открывать в Jupyter Notebook.
https://vc.ru/seo/91963-nabor-python-skriptov-dlya-avtomatizacii-rutinnyh-zadach-seo-specialista
vc.ru
Набор Python-скриптов для автоматизации рутинных задач SEO-специалиста — SEO на vc.ru
Влад Медведев SEO 11.11.2019
Подробный туториал по работе с SQL-базами в Python с помощью SQLalchemy. Отличительная особенность этого туториала, что тут показывается как использовать ORM для простых операций получения данных
https://towardsdatascience.com/sqlalchemy-python-tutorial-79a577141a91
https://towardsdatascience.com/sqlalchemy-python-tutorial-79a577141a91
Medium
SQLAlchemy — Python Tutorial
We often encounter data as Relational Databases. To work with them we generally would need to write raw SQL queries, pass them to the…
Павел Левчук вчера разместил ссылку на очень крутую статью в своём фейсбуке. В статье рассказывается о полезных привычках в написании кода для data scientists & data analysts.
Основные правила просты: держите код чистым (убирайте всякие отладочные команды а ля
https://www.thoughtworks.com/insights/blog/coding-habits-data-scientists
Основные правила просты: держите код чистым (убирайте всякие отладочные команды а ля
df.head()); добавляйте функции, чтобы повысить уровень абстракции; оборачивайте функции в пайплайны; меньше пишите в jupyter notebook; применяйте практики TDD (test-driven development).https://www.thoughtworks.com/insights/blog/coding-habits-data-scientists
Thoughtworks
Coding habits for data scientists
If you’ve tried your hand at machine learning or data science, you know that code can get messy, quickly.
Статья о визуализации геопространственных данных с помощью библиотеки geoviews
https://towardsdatascience.com/how-to-visualize-data-on-top-of-a-map-in-python-using-the-geoviews-library-c4f444ca2929
https://towardsdatascience.com/how-to-visualize-data-on-top-of-a-map-in-python-using-the-geoviews-library-c4f444ca2929
Medium
How to visualize data on top of a map in python using the geoviews library
An Interactive map plot using python and geoviews
Краткий обзор библиотеки pdpipe, позволяющей создавать пайплайны обработки данных в датафреймах. Больше похоже на синтаксический сахар, но, на первый взгляд, повышает удобочитаемость кода. Больше примеров можно найти на гитхабе
https://towardsdatascience.com/https-medium-com-tirthajyoti-build-pipelines-with-pandas-using-pdpipe-cade6128cd31
https://towardsdatascience.com/https-medium-com-tirthajyoti-build-pipelines-with-pandas-using-pdpipe-cade6128cd31
Towards Data Science
Build pipelines with Pandas using "pdpipe" | Towards Data Science
We show how to build intuitive and useful pipelines with Pandas DataFrame using a wonderful little library called pdpipe.
❤1
Статья, показывающая важность анализа открытых данных в государственных сферах. Используя открытые данные с избирательных участков автор выявляет аномальные наблюдения, а также делает интересные визуализации с помощью geopandas
https://habr.com/ru/post/475258/
https://habr.com/ru/post/475258/
Хабр
Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов
Привет! В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной ко...
Даша Чиркина из Яндекса написала статью про множественные эксперименты - тестирования с более чем одной группой. В статье рассмотрены основные методы расчёта результатов тестов и математические принципы, на которых основаны методы. Отдельный плюс - наличие примеров кода на Python, так что можно смело юзать в своих проектах
https://habr.com/ru/company/yandex/blog/476826/
https://habr.com/ru/company/yandex/blog/476826/
Хабр
Множественные эксперименты: теория и практика
В современном мире сложно представить развитие продукта без A/B-тестирования. Чтобы успешно запустить продукт или новую функциональность — надо грамотно спроектировать A/B, рассчитать и...
Статья про использование метода resample, который позволяет изменить группировку данных, содержащих дату-время. Например, если у нас есть данные с точностью до секунды, то resample позволит укрупнить данные, сгруппировав по 10 минут или по часам, в зависимости от задачи. В общем, хороший и нужный метод при работе с анализом данных во времени.
https://towardsdatascience.com/using-the-pandas-resample-function-a231144194c4
https://towardsdatascience.com/using-the-pandas-resample-function-a231144194c4
Medium
Using the Pandas “Resample” Function
The next best thing to changing the past — aggregating it. A technical introduction to the pandas resample function.
Статья с банальными, казалось бы, советами о том как выбирать колонки датафрейма в Pandas. Но автор делится парой полезных хаков, например, как выбрать все колонки, содержащие какую-то подстроку или выбрать колонки на основе их порядкового места.
https://pbpython.com/selecting-columns.html
https://pbpython.com/selecting-columns.html
Pbpython
Tips for Selecting Columns in a DataFrame
This article will discuss several ways that the pandas iloc function can be used to select columns of data.
👍1
Статья о том как анализировать большой объем данных с помощью библиотеки vaex
https://towardsdatascience.com/how-to-analyse-100s-of-gbs-of-data-on-your-laptop-with-python-f83363dda94
https://towardsdatascience.com/how-to-analyse-100s-of-gbs-of-data-on-your-laptop-with-python-f83363dda94
Medium
How to analyse 100 GB of data on your laptop with Python
Your laptop is way more powerful than you think. Unleash its full potential with the Vaex dataframe library.
🔥1
Наткнулся на библиотеку pomegranate. Она предоставляет ряд высокоуровневых методов для работы с вероятностными моделями: цепи Маркова, байесовские классификаторы, модели распределения вероятностей, скрытые марковские модели и ещё куча всего. Отдельный плюс библиотеки - доступная документация с множеством примеров, например, вот документация по использованию цепей Маркова со ссылкой на ноутбук с примерами.
https://pomegranate.readthedocs.io/en/latest/index.html
https://pomegranate.readthedocs.io/en/latest/index.html
Интересная статья про выстраивание аналитической инфраструктуры на основе Hadoop и Apache Airflow
https://habr.com/ru/company/mailru/blog/479900/
https://habr.com/ru/company/mailru/blog/479900/
Хабр
Клиентоориентированный Data Lake в игровой компании
Источник Привет, Хабр! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье по мотивам наше...
Оказывается QuantStack (это те товарищи, что сделали Voila и приложили большие усилия в развитию экосистемы Jupyter) сделали виджеты для работы с таблицами внутри ноутбуков. Прелесть не только в том, что можно выводить таблицы, но и редактировать в них данные, а также привязывать данные в таблицах к другим виджетам (слайдерам, инпутам и т.д.)
https://towardsdatascience.com/interactive-spreadsheets-in-jupyter-32ab6ec0f4ff
https://towardsdatascience.com/interactive-spreadsheets-in-jupyter-32ab6ec0f4ff
Medium
Interactive spreadsheets in Jupyter
ipywidgets plays an essential part in the Jupyter ecosystem; it brings interactivity between user and data.
Статья, посвященная не самым распространенным методам Pandas - idxmax(), idxmin(), ne(), nlargest(). В статье приводятся интересные примеры использования этих методов при решении практических задач анализа.
https://habr.com/ru/company/ruvds/blog/479276/
https://habr.com/ru/company/ruvds/blog/479276/
Хабр
Три метода Pandas, о которых вы, возможно, не знали
Автор статьи, перевод которой мы сегодня публикуем, говорит, что когда он узнал о тех методах библиотеки Pandas, о которых хочет тут рассказать, он почувствовал...
Годнота подъехала! Павел Максимов выложил в открытый доступ библиотеку для получения данных из API Яндекс.Метрики (как Logs API, так и из обычного).
https://github.com/pavelmaksimov/tapi-yandex-metrika
https://github.com/pavelmaksimov/tapi-yandex-metrika
This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите какая красота! Визуализация странных аттракторов с помощью Plotly в 3D. Теория хаоса в действии!)
https://habr.com/ru/post/480660/
https://habr.com/ru/post/480660/
Введение в визуализацию данных с помощью Matplotlib. Достаточно подробно объяснены многие нюансы создания визуализаций, например, объектная модель графиков, построение subplots.
https://pythonlearning.org/2019/12/19/introduction-to-data-visualization-using-matplotlib/
https://pythonlearning.org/2019/12/19/introduction-to-data-visualization-using-matplotlib/
Шпаргалка в формате ipynb по работе с различными форматами файлов (csv, xml, json и многие другие). Взята из статьи: https://habr.com/ru/post/481140/
http://axil.github.io/serialization.html
http://axil.github.io/serialization.html
Уже выкладывал в канале ссылку на код инструмента для анализа цепей Маркова, но появилась хорошая обзорная статья по мотивам доклада Mark Sysoev на Матемаркетинге. Ссылка на Гитхаб внутри статьи
https://vc.ru/skyeng/92219-besplatnyy-python-skript-kotoryy-pomozhet-vam-uluchshit-analiz-voronok-cjm-i-dazhe-poisk-bagov-v-produkte
https://vc.ru/skyeng/92219-besplatnyy-python-skript-kotoryy-pomozhet-vam-uluchshit-analiz-voronok-cjm-i-dazhe-poisk-bagov-v-produkte
vc.ru
Бесплатный Python-скрипт, который поможет вам улучшить анализ воронок, CJM и даже поиск багов в продукте — Skyeng на vc.ru
Обычно вы используете кучу дорогих тяжелых приложений с закрытым кодом, чтобы анализировать путь клиента и интерпретировать данные о его поведении. Наш коллега Марк Сысоев создал свой простой инструмент для тех же задач и выложил на Github в виде небольшого…
Продолжая тему анализа поведенческих цепочек пользователей. Со мной связался @shommel - автор небольшой, но классной, библиотеки для кластеризации и интерпретации цепочки пользовательских событий. На сайте размещена простая инструкция по использованию.
http://webchains.tilda.ws/
http://webchains.tilda.ws/
На RealPython появился большой туториал про основы описательной статистики с помощью Python. Прелесть туториала в том, что он через простые примеры и небольшие сниппеты кода разъясняет базовые концепции статистики. Для тех кто только начинает погружение в мир средних, медиан и стандартных отклонений - самое то.
https://realpython.com/python-statistics/
https://realpython.com/python-statistics/
Realpython
Python Statistics Fundamentals: How to Describe Your Data – Real Python
In this step-by-step tutorial, you'll learn the fundamentals of descriptive statistics and how to calculate them in Python. You'll find out how to describe, summarize, and represent your data visually using NumPy, SciPy, pandas, Matplotlib, and the built…