Яндекс.Маркет приглашает аналитиков на субботний митап, который пройдет в Москве 23 ноября.
В программе 6 докладов от аналитиков Маркета. Разберём и обсудим совершенно разные направления аналитической работы, которые сильно повлияли на развитие нашего бизнеса: привлечение и удержание пользователей, монетизация сервиса, сбор и систематизация неструктурированных данных, поиск и рекомендации на сервисе, логистика и фулфилмент.
Заполняйте анкету с небольшим тестом. Участие в мероприятии бесплатное, по предварительной регистрации:
https://events.yandex.ru/events/data_market/23nov
В программе 6 докладов от аналитиков Маркета. Разберём и обсудим совершенно разные направления аналитической работы, которые сильно повлияли на развитие нашего бизнеса: привлечение и удержание пользователей, монетизация сервиса, сбор и систематизация неструктурированных данных, поиск и рекомендации на сервисе, логистика и фулфилмент.
Заполняйте анкету с небольшим тестом. Участие в мероприятии бесплатное, по предварительной регистрации:
https://events.yandex.ru/events/data_market/23nov
Сегодня хочу порекомендовать канал Дашбордец.
Его автор Даша подробно рассказывает как построить визуализацию так, чтобы дашборд выполнил свою задачу и помог принять решение. От методов бизнес-анализа до реализации на BI. Прикольные графики, интересные фичи и многое другое. Подписывайтесь, там интересно.
Его автор Даша подробно рассказывает как построить визуализацию так, чтобы дашборд выполнил свою задачу и помог принять решение. От методов бизнес-анализа до реализации на BI. Прикольные графики, интересные фичи и многое другое. Подписывайтесь, там интересно.
Telegram
Дашбордец
Привет, котятки) Я Даша, и это мой уютный канал про дашборды - от бизнес-анализа до реализации на BI. Темы канала: data viz, BI, dashboards, DWH.
По вопросам писать: @Dddv_2705
По вопросам писать: @Dddv_2705
Хороший пример использования pandas для обработки данных в разных форматах: на примере финансовых данных в различных форматах автор разбирает как стандартизировать данные, чтобы облегчить их дальнейшую обработку
https://pbpython.com/currency-cleanup.html
https://pbpython.com/currency-cleanup.html
Pbpython
Cleaning Up Currency Data with Pandas
This article includes tips on how to clean up messy currency data in pandas so that you may convert the data to numeric formats for further analysis.
Пример создания простого ETL-процесса, в котором берутся данные из API городского велопроката Нью-Йорка, трансформируются с помощью Pandas, а затем заливаются в BigQuery
https://www.datacourses.com/an-api-based-etl-pipeline-with-python-part-1-259/
https://www.datacourses.com/an-api-based-etl-pipeline-with-python-part-1-259/
Ноутбук с моего сегодняшнего выступления на MateMarketing, где рассказал про то как можно анализировать пользовательские данные с помощью Python.
http://bit.ly/2Of2Xf5
Данные тут: http://bit.ly/36YRwB3
http://bit.ly/2Of2Xf5
Данные тут: http://bit.ly/36YRwB3
Подробная статья об использовании List Comprehension в Python с кучей полезных примеров
https://webdevblog.ru/kogda-ispolzovat-list-comprehension-v-python/
https://webdevblog.ru/kogda-ispolzovat-list-comprehension-v-python/
Советы как снизить потребление памяти в Pandas. Уже бывшие тут советы, но повторить их никогда не вредно: загружайте только нужные колонки, преобразуйте int в целые числа с меньшей разрядностью, преобразуйте object в category (при условии невысокой кардинальности данных в колонке это даст прирост)
https://pythonspeed.com/articles/pandas-load-less-data/
https://pythonspeed.com/articles/pandas-load-less-data/
Python⇒Speed
Reducing Pandas memory usage #1: lossless compression
Load a large CSV or other data into Pandas using less memory with techniques like dropping columns, smaller numeric dtypes, categoricals, and sparse columns.
Доклад Марка Сысоева (Skyeng) на конференции MateMarketing был посвящен анализу поведения пользователей с помощью цепей Маркова.
Сегодня хочу поделиться с вами решением на Python, разработанное Марком, которое позволяет преобразовать лог событий в цепи Маркова для дальнейшей визуализации и анализа.
https://github.com/BartolomeuD/markov-chain
Сегодня хочу поделиться с вами решением на Python, разработанное Марком, которое позволяет преобразовать лог событий в цепи Маркова для дальнейшей визуализации и анализа.
https://github.com/BartolomeuD/markov-chain
GitHub
GitHub - BartolomeuD/markov-chain
Contribute to BartolomeuD/markov-chain development by creating an account on GitHub.
Крутой пример использования регулярных выражений в Pandas для выделения значимой информации и дальнейшей группировки текстовых строк.
https://www.coursera.org/lecture/python-text-mining/demonstration-regex-with-pandas-and-named-groups-wh4nJ
https://www.coursera.org/lecture/python-text-mining/demonstration-regex-with-pandas-and-named-groups-wh4nJ
Coursera
Demonstration: Regex with Pandas and Named Groups - Module 1: Working with Text in Python | Coursera
Подробный гайд по передаче звонков из CoMagic в Google BigQuery по расписанию
https://habr.com/ru/post/475804/
https://habr.com/ru/post/475804/
Хабр
Импорт отчета по звонкам из CoMagic в BigQuery по расписанию с помощью Google Cloud Functions
Для чего При сложной структуре рекламных кампаний и большого количества звонков становятся необходимы дополнительные инструменты хранения, обработки и анализа ин...
Я редко выкладываю тут софт-статьи, чаще контент канала состоит из туториал-контента формата "скопипастил и запустил у себя"😊 Но наткнулся на очень хорошее интервью с Анатолием Карповым, автором курса по статистике на Степике. Анатолий рассказывает про онлайн-образование, про работу аналитика и про современные карьерные возможности в IT. Интересно, почитайте
https://zeh.media/praktika/intervyu/4857692-anatoly-karpov
https://zeh.media/praktika/intervyu/4857692-anatoly-karpov
Цех
«Курс по машинному обучению я доделывал в хижине на Эльбрусе». Дата-сайентист Анатолий Карпов — о работе в IT и современных методах…
Интервью с победителем EdCrunch Award за самый популярный курс в Рунете
Набор Python-скриптов для автоматизации рутинных задач SEO-специалиста.
Статья будет полезна специалистам, которые хотели бы автоматизировать свою работу. Для работы со скриптами потребуются минимальные знания программирования и установленные библиотеки. Для каждого примера в конце есть ссылка на полный код, который нужно открывать в Jupyter Notebook.
https://vc.ru/seo/91963-nabor-python-skriptov-dlya-avtomatizacii-rutinnyh-zadach-seo-specialista
Статья будет полезна специалистам, которые хотели бы автоматизировать свою работу. Для работы со скриптами потребуются минимальные знания программирования и установленные библиотеки. Для каждого примера в конце есть ссылка на полный код, который нужно открывать в Jupyter Notebook.
https://vc.ru/seo/91963-nabor-python-skriptov-dlya-avtomatizacii-rutinnyh-zadach-seo-specialista
vc.ru
Набор Python-скриптов для автоматизации рутинных задач SEO-специалиста — SEO на vc.ru
Влад Медведев SEO 11.11.2019
Подробный туториал по работе с SQL-базами в Python с помощью SQLalchemy. Отличительная особенность этого туториала, что тут показывается как использовать ORM для простых операций получения данных
https://towardsdatascience.com/sqlalchemy-python-tutorial-79a577141a91
https://towardsdatascience.com/sqlalchemy-python-tutorial-79a577141a91
Medium
SQLAlchemy — Python Tutorial
We often encounter data as Relational Databases. To work with them we generally would need to write raw SQL queries, pass them to the…
Павел Левчук вчера разместил ссылку на очень крутую статью в своём фейсбуке. В статье рассказывается о полезных привычках в написании кода для data scientists & data analysts.
Основные правила просты: держите код чистым (убирайте всякие отладочные команды а ля
https://www.thoughtworks.com/insights/blog/coding-habits-data-scientists
Основные правила просты: держите код чистым (убирайте всякие отладочные команды а ля
df.head()
); добавляйте функции, чтобы повысить уровень абстракции; оборачивайте функции в пайплайны; меньше пишите в jupyter notebook; применяйте практики TDD (test-driven development).https://www.thoughtworks.com/insights/blog/coding-habits-data-scientists
Thoughtworks
Coding habits for data scientists
If you’ve tried your hand at machine learning or data science, you know that code can get messy, quickly.
Статья о визуализации геопространственных данных с помощью библиотеки geoviews
https://towardsdatascience.com/how-to-visualize-data-on-top-of-a-map-in-python-using-the-geoviews-library-c4f444ca2929
https://towardsdatascience.com/how-to-visualize-data-on-top-of-a-map-in-python-using-the-geoviews-library-c4f444ca2929
Medium
How to visualize data on top of a map in python using the geoviews library
An Interactive map plot using python and geoviews
Краткий обзор библиотеки pdpipe, позволяющей создавать пайплайны обработки данных в датафреймах. Больше похоже на синтаксический сахар, но, на первый взгляд, повышает удобочитаемость кода. Больше примеров можно найти на гитхабе
https://towardsdatascience.com/https-medium-com-tirthajyoti-build-pipelines-with-pandas-using-pdpipe-cade6128cd31
https://towardsdatascience.com/https-medium-com-tirthajyoti-build-pipelines-with-pandas-using-pdpipe-cade6128cd31
Towards Data Science
Build pipelines with Pandas using "pdpipe" | Towards Data Science
We show how to build intuitive and useful pipelines with Pandas DataFrame using a wonderful little library called pdpipe.
Статья, показывающая важность анализа открытых данных в государственных сферах. Используя открытые данные с избирательных участков автор выявляет аномальные наблюдения, а также делает интересные визуализации с помощью geopandas
https://habr.com/ru/post/475258/
https://habr.com/ru/post/475258/
Хабр
Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов
Привет! В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной ко...
Даша Чиркина из Яндекса написала статью про множественные эксперименты - тестирования с более чем одной группой. В статье рассмотрены основные методы расчёта результатов тестов и математические принципы, на которых основаны методы. Отдельный плюс - наличие примеров кода на Python, так что можно смело юзать в своих проектах
https://habr.com/ru/company/yandex/blog/476826/
https://habr.com/ru/company/yandex/blog/476826/
Хабр
Множественные эксперименты: теория и практика
В современном мире сложно представить развитие продукта без A/B-тестирования. Чтобы успешно запустить продукт или новую функциональность — надо грамотно спроектировать A/B, рассчитать и...
Статья про использование метода resample, который позволяет изменить группировку данных, содержащих дату-время. Например, если у нас есть данные с точностью до секунды, то resample позволит укрупнить данные, сгруппировав по 10 минут или по часам, в зависимости от задачи. В общем, хороший и нужный метод при работе с анализом данных во времени.
https://towardsdatascience.com/using-the-pandas-resample-function-a231144194c4
https://towardsdatascience.com/using-the-pandas-resample-function-a231144194c4
Medium
Using the Pandas “Resample” Function
The next best thing to changing the past — aggregating it. A technical introduction to the pandas resample function.