Отличная статья про агрегацию и группировку данных с помощью pandas. В ней рассказывается про кучу нюансов, которые обычно возникают в процессе работы с данными:
- какие агрегирующие функции существуют,
- как сделать собственную агрегирующую функцию (lambda в помощь),
- как сделать результат группировки не в виде series, а в виде фрейма,
- как убрать мультииндекс в колонках после группировки,
- как использовать именнованные агрегаты.
В общем, если бы я наткнулся на такую статью лет 5 назад, то это существенно сократило бы количество самостоятельно набитых шишек.
https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
- какие агрегирующие функции существуют,
- как сделать собственную агрегирующую функцию (lambda в помощь),
- как сделать результат группировки не в виде series, а в виде фрейма,
- как убрать мультииндекс в колонках после группировки,
- как использовать именнованные агрегаты.
В общем, если бы я наткнулся на такую статью лет 5 назад, то это существенно сократило бы количество самостоятельно набитых шишек.
https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
www.shanelynn.ie
Group and Aggregate your Data Better using Pandas Groupby
Aggregation and grouping of Dataframes is accomplished in Python Pandas using “groupby()” and “agg()” functions. Apply max, min, count, distinct to groups.
Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В статье объясняется, как эта библиотека позволяет обрабатывать данные с использованием параллельных вычислений.
https://habr.com/ru/post/498904/
https://habr.com/ru/post/498904/
Хабр
Добавляем параллельные вычисления в Pandas
Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В...
Алексей Селезнёв написал заметку про небольшую библиотеку pretty-html-table, которая позволяет привести пандасовский датафрейм в нормальную HTML таблицу. Да такую, чтобы было не стыдно вставить в письмо🙃
Как создать оформленную HTML-таблицу из dataframe
Как создать оформленную HTML-таблицу из dataframe
Alexey Seleznev blog
Python: Как создать оформленную HTML таблицу из pandas DataFrame
Как преобразовать pandas DataFrame в HTML таблицу для отправки электронном письме.
Статья про визуализацию данных с помощью Altair. Как-то многие упускают из виду этот инструмент для создания визуализаций, а меж тем он эффективен и прост. В особенности, когда нужны графики для исследования данных
https://towardsdatascience.com/python-interactive-data-visualization-with-altair-b4c4664308f8
https://towardsdatascience.com/python-interactive-data-visualization-with-altair-b4c4664308f8
This media is not supported in your browser
VIEW IN TELEGRAM
Как выделиться на фоне остальных кандидатов и получить работу аналитика?
13 мая в 19:00 (мск) в рамках шестимесячного онлайн-курса «Профессия: Аналитик», ребята из ProductStar проводят бесплатный вебинар «Как подготовиться и пройти собеседование на аналитика».
👨🏫 Кто выступит?
Артур Самигуллин, ex-DS & Analytics Team Lead в Modulbank
🎓 О чем пойдет речь?
— Разберём, как проходит собеседование на аналитика.
— Узнаем, как правильно подготовиться к интервью.
— Проанализируем основные ошибки кандидатов на собеседовании.
🔥 Два самых активных участника вебинара получат сертификат на бесплатное обучение в ProductStar.
Участие бесплатное, но регистрация обязательна.
Зарегистрироваться на вебинар 👉 @ProductStarAnalyticsBot
13 мая в 19:00 (мск) в рамках шестимесячного онлайн-курса «Профессия: Аналитик», ребята из ProductStar проводят бесплатный вебинар «Как подготовиться и пройти собеседование на аналитика».
👨🏫 Кто выступит?
Артур Самигуллин, ex-DS & Analytics Team Lead в Modulbank
🎓 О чем пойдет речь?
— Разберём, как проходит собеседование на аналитика.
— Узнаем, как правильно подготовиться к интервью.
— Проанализируем основные ошибки кандидатов на собеседовании.
🔥 Два самых активных участника вебинара получат сертификат на бесплатное обучение в ProductStar.
Участие бесплатное, но регистрация обязательна.
Зарегистрироваться на вебинар 👉 @ProductStarAnalyticsBot
Искал информацию про моделирование процессов и случайно наткнулся на коллекцию замечательных ноутбуков, посвященных моделированию точечных процессов. В этом есть две прелести: узнал что такое точечный процесс и в очередной раз потерял дар речи от того какие классные ноутбуки делают учёные.
https://github.com/MatthewDaws/PointProcesses
https://github.com/MatthewDaws/PointProcesses
GitHub
GitHub - MatthewDaws/PointProcesses: Basics of point processes using python for simulation
Basics of point processes using python for simulation - GitHub - MatthewDaws/PointProcesses: Basics of point processes using python for simulation
Если вы занимаетесь анализом данных на Python, то точно знакомы с Jupyter. И, конечно же, вы знаете насколько это удобная штука для Interactive Computing. Но тем кто сильно привык к обычным IDE (например, PyCharm) не хватало визуального отладчика. Команда Project Jupyter, после нескольких месяцев разработки, представила первый публичный релиз визуального отладчика для Jupyter!
Отладчик позволяет устанавливать в ячейках блокнотов и в файлах с исходным кодом точки останова. Он позволяет исследовать содержимое переменных, просматривать стек вызовов. И этим его возможности не ограничиваются.
https://habr.com/ru/company/ruvds/blog/500422/
Отладчик позволяет устанавливать в ячейках блокнотов и в файлах с исходным кодом точки останова. Он позволяет исследовать содержимое переменных, просматривать стек вызовов. И этим его возможности не ограничиваются.
https://habr.com/ru/company/ruvds/blog/500422/
Хабр
Визуальный отладчик для Jupyter
Прогресс большинства программных проектов строится на малых изменениях, которые, перед тем, как двигаться дальше, тщательно оценивают. Быстрое получение результатов выполнения кода и высокая скорость...
A/B тестирование — это неотъемлемая часть работы над продуктом. С его помощью можно проверить гипотезу о том, поменяется ли выбранная продуктовая метрика, если изменить что-то в продукте, — например, увеличится ли количество пользователей, если изменить дизайн страницы регистрации. Для этого сравниваются результаты в тестовой и контрольной группах пользователей: первой выборке показывают новое решение, а у контрольной группы продукт остаётся неизменным.
При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно связана с нововведениями в продукте, а не является случайностью. Для этого можно применять традиционный (частотный) или байесовский подход к A/B тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A/B тестирование и разобраться в его работе.
https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно связана с нововведениями в продукте, а не является случайностью. Для этого можно применять традиционный (частотный) или байесовский подход к A/B тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A/B тестирование и разобраться в его работе.
https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
Forwarded from Oh My Py
📦 Как сделать классный Python-пакет
Раньше я думал, что создание пакетов в питоне — жуткая головная боль. Никогда с этим не связывался.
Оказывается, ситуация давно изменилась, и делать библиотеки стало легко и приятно. Буквально так:
Попробуйте: https://antonz.ru/packaging/
P.S. Если у вас есть собственная библиотека, которой не стыдно поделиться — присылайте в личку. Про самые интересные напишу отдельно.
Раньше я думал, что создание пакетов в питоне — жуткая головная боль. Никогда с этим не связывался.
Оказывается, ситуация давно изменилась, и делать библиотеки стало легко и приятно. Буквально так:
flit init
...
flit publish
Попробуйте: https://antonz.ru/packaging/
P.S. Если у вас есть собственная библиотека, которой не стыдно поделиться — присылайте в личку. Про самые интересные напишу отдельно.
Отличная статья про визуализацию данных с помощью Plotly. Статья рассказывает о том как строить различные интерактивные визуализации от простых вроде line-chart до более сложных, например, отображение данных на карте
https://habr.com/ru/post/502958/
https://habr.com/ru/post/502958/
Хабр
Шпаргалка по визуализации данных в Python с помощью Plotly
Plotly — библиотека для визуализации данных, состоящая из нескольких частей: Front-End на JS Back-End на Python (за основу взята библиотека Seaborn) Back-End на R В этой простыне все...
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Леша Куличевский @kulichevskiy описал процесс создания системы сквозной аналитики без подключения сторонних сервисов.
Как подключаться к AmoCRM по API (на Python) и забирать данные о сделках.
https://github.com/kulichevskiy/end-to-end/blob/master/amocrm.ipynb
Как подключаться к AmoCRM по API (на Python) и забирать данные о сделках.
https://github.com/kulichevskiy/end-to-end/blob/master/amocrm.ipynb
GitHub
end-to-end/amocrm.ipynb at master · kulichevskiy/end-to-end
Code snippets for creation of your own end-to-end analytics system - kulichevskiy/end-to-end
О том как быстро и просто делать интерактивные визуализации с помощью Bokeh. В статье рассказывается о библиотеке Pandas-Bokeh, с помощью которой можно делать визуализации в одну строку. Это обеспечивается методом
https://towardsdatascience.com/beautiful-and-easy-plotting-in-python-pandas-bokeh-afa92d792167
plot_bokeh(), который появляется при импорте библиотекиhttps://towardsdatascience.com/beautiful-and-easy-plotting-in-python-pandas-bokeh-afa92d792167
Medium
Beautiful and Easy Plotting in Python — Pandas + Bokeh
A single line of code to create an interactive plot from Pandas dataframe to Bokeh
Простая, но полезная, библиотека, позволяющая по набору данных подсчитать количество строк по категориальной колонке (или нескольким). Помимо самого количества также выводится доля и нарастающие показатели. По сути этой такой value_counts() на стероидах.
Но основная прелесть библиотеки в том, что она использует новое API pandas, которое позволяет писать собственные ацессоры для датафреймов и series, чтобы делать методы, которые могут встраиваться непосредственно как методы датафрейма. То есть вы можете расширять функциональность pandas, создавая дополнительные библиотеки, и при этом ваши методы будут выглядеть очень нативно и правильно с точки зрения хорошего стиля (например, логично встраиваться в концепцию method chaining). В общем, советую покопаться в исходниках.
https://pbpython.com/sidetable.html
Но основная прелесть библиотеки в том, что она использует новое API pandas, которое позволяет писать собственные ацессоры для датафреймов и series, чтобы делать методы, которые могут встраиваться непосредственно как методы датафрейма. То есть вы можете расширять функциональность pandas, создавая дополнительные библиотеки, и при этом ваши методы будут выглядеть очень нативно и правильно с точки зрения хорошего стиля (например, логично встраиваться в концепцию method chaining). В общем, советую покопаться в исходниках.
https://pbpython.com/sidetable.html
Pbpython
sidetable - Create Simple Summary Tables in Pandas
Introducing sidetable, a pandas library that build summary tables of your DataFrames.
Когда-то давно я написал статью про то с чего действующим аналитикам начать изучение Python. С тех пор статья немного актуализировалась и дополнилась несколькими интересными ссылками. Если кто-то вдруг подписан на канал, но пока ещё не нашёл как подступиться к Python, то эта статья как раз для вас
http://datalytics.ru/all/s-chego-analitiku-nachat-izuchenie-python/
http://datalytics.ru/all/s-chego-analitiku-nachat-izuchenie-python/
www.datalytics.ru
С чего аналитику начать изучение Python
Многие аналитики задумываются об изучении Python, но не представляют себе первых шагов
Forwarded from A/B testing
Краткое руководство по реализации A/B тестов на Python:
https://medium.com/@robbiegeoghegan/implementing-a-b-tests-in-python-514e9eb5b3a1
Github Repository: https://github.com/RobbieGeoghegan/AB_Testing
via @ABtesting
https://medium.com/@robbiegeoghegan/implementing-a-b-tests-in-python-514e9eb5b3a1
Github Repository: https://github.com/RobbieGeoghegan/AB_Testing
via @ABtesting
Medium
Implementing A/B Tests in Python
A quick guide to experiment design and implementation
Хорошая статья про то как строить простые визуализации с помощью методов, встроенных в ацессор
https://towardsdatascience.com/the-simplest-way-to-create-complex-visualizations-in-python-isnt-with-matplotlib-a5802f2dba92
plot. Внутри этого ацессора существует ряд простых в применении методов (например, bar() или hist()), которые позволяют быстро строить простые визуализации, основанные на matplotlib. О применении этих методов и пойдёт речьhttps://towardsdatascience.com/the-simplest-way-to-create-complex-visualizations-in-python-isnt-with-matplotlib-a5802f2dba92
Medium
The Simplest Way to Create Visualizations in Python Isn’t With matplotlib.
Creating Sleek & Easy Plots Directly From Pandas
Forwarded from A/B testing
Математика A/B-тестирования с примером кода на Python:
https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f
via @ABtesting
https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f
via @ABtesting
Medium
The Math Behind A/B Testing with Example Python Code
While taking the A/B testing course by Google on Udacity, I had some questions about some of the mathematical steps that were not clearly…
#реклама #вакансии
🔎 Авито в поиске аналитиков
Зарплата: От 100К рублей и выше
Уровень: От уверенного junior и выше
Город: Москва
#Авито — самый популярный сервис объявлений в Европе. Наша месячная аудитория 34,7 миллиона человек. В реальном времени на Авито «живут» более 47 миллионов объявлений.
Мы ищем аналитиков на несколько направлений:
Product Analyst (Verticals) — https://clc.to/Product_Analyst
Data Analyst (Tech Platform) — https://clc.to/Data_Analyst_TechPlatform
Data Analyst (Market Intelligence) — https://clc.to/Data_Analyst_MI
А также Team Lead (Marketing Analytics) — https://clc.to/Team_Lead
➡️ Несколько фактов об аналитике в Авито:
• Аналитики в Авито — это полноценные партнеры в развитии бизнеса и продукта
• Мы не берёмся за задачи, не имея чёткого ответа на вопрос «зачем?» и «что мы будем делать по-другому, когда узнаем Х?»
• Мы очень любим Tableau и у нас каждый сотрудник имеет доступ в общий аналитической портал и к ключевым отчетам
• У нас очень много данных, которые мы все собираем в Vertica (и чуть-чуть в ClickHouse) — в день это 5+ млрд событий
• Кроме очень крутой команды аналитиков у нас есть крутейшая команда DWH & Analytical Infrastructure, которые очень помогают в решении насущных инфрастуктурных проблем и автоматизации типовых аналитических задач
Подробную информацию по каждой вакансии и условиях работы в Авито можно узнать при переходе по ссылкам ⬆️
🙋🏻♂️Откликнуться на вакансию: @dozmorovadv @tanastasiav
#Москва #fulltime #marketing #product #analyticsdigest
🔎 Авито в поиске аналитиков
Зарплата: От 100К рублей и выше
Уровень: От уверенного junior и выше
Город: Москва
#Авито — самый популярный сервис объявлений в Европе. Наша месячная аудитория 34,7 миллиона человек. В реальном времени на Авито «живут» более 47 миллионов объявлений.
Мы ищем аналитиков на несколько направлений:
Product Analyst (Verticals) — https://clc.to/Product_Analyst
Data Analyst (Tech Platform) — https://clc.to/Data_Analyst_TechPlatform
Data Analyst (Market Intelligence) — https://clc.to/Data_Analyst_MI
А также Team Lead (Marketing Analytics) — https://clc.to/Team_Lead
➡️ Несколько фактов об аналитике в Авито:
• Аналитики в Авито — это полноценные партнеры в развитии бизнеса и продукта
• Мы не берёмся за задачи, не имея чёткого ответа на вопрос «зачем?» и «что мы будем делать по-другому, когда узнаем Х?»
• Мы очень любим Tableau и у нас каждый сотрудник имеет доступ в общий аналитической портал и к ключевым отчетам
• У нас очень много данных, которые мы все собираем в Vertica (и чуть-чуть в ClickHouse) — в день это 5+ млрд событий
• Кроме очень крутой команды аналитиков у нас есть крутейшая команда DWH & Analytical Infrastructure, которые очень помогают в решении насущных инфрастуктурных проблем и автоматизации типовых аналитических задач
Подробную информацию по каждой вакансии и условиях работы в Авито можно узнать при переходе по ссылкам ⬆️
🙋🏻♂️Откликнуться на вакансию: @dozmorovadv @tanastasiav
#Москва #fulltime #marketing #product #analyticsdigest
hh.ru
Вакансия Product Analyst (Verticals) в Москве, работа в компании АВИТО ТЕХ (вакансия в архиве c 2 сентября 2020)
Зарплата: не указана. Москва. Требуемый опыт: 1–3 года. Полная занятость. Дата публикации: 03.08.2020.
Крутой пример семантического анализа на основе открытых данных. В статье представлен весь цикл анализа: начиная от сбора и заканчивая визуализацией данных с помощью plotly
http://leftjoin.ru/all/constitution-sentiment-analysis/
http://leftjoin.ru/all/constitution-sentiment-analysis/
Большой туториал по использованию Pandas на примере задачи оценки студентов. По сути, это такое интересное решение типичной Excel'евской задачи с помощью Python. Рекомендую новичкам, чтобы повысить свою насмотренность
https://realpython.com/pandas-project-gradebook/
https://realpython.com/pandas-project-gradebook/
Realpython
pandas Project: Make a Gradebook With Python & pandas – Real Python
With this follow-along Python project, you'll build a script to calculate grades for a class using pandas. The script will quickly and accurately calculate grades from a variety of data sources. You'll see examples of loading, merging, and saving data with…
Если вы работаете с данными и вам интересно, что происходит на западном рынке, то вам будет интересно почитать канал Инжиниринг Данных, который ведет Дмитрий. Он уже 4 года работает в Амазон в Канаде и США. Сейчас он занимается созданием ML решений для Amazon Marketplace в департаменте Customer Behaviour Analytics в роли Инженера Данных. До этого он работал в Alexa AI и помогал scientists делать Alexa умней.
Дмитрий пропагандирует современные аналитические решения и облачные вычисления (cloud computing). Он часто выступает на конференциях в Северной Америке и написал 6 книг.
Так же сейчас он создает бесплатный ресурс по обучению профессиям Data Engineer, Analytics Engineer, BI Engineer - https://www.datalearn.ru/ (записывайтесь), где хочет любому желающему помочь освоить профессию и научить работать с данными. Курс будет полезен не только инженерам, но и аналитикам, рекрутерам и менеджерам.
Если вы хотите разобраться как аналитика помогает бизнесу зарабатывать деньги и какие технологии популярны на западе, то вы можете присоединиться к студентам ресурса datalearn. Все лекции публикуются на youtube, а материалы доступны в git.
Если вы хотите узнать больше про переезд в Канаду и устройство в Амазон, то Дмитрий подробно рассказал в статье не хабр;
Дмитрий пропагандирует современные аналитические решения и облачные вычисления (cloud computing). Он часто выступает на конференциях в Северной Америке и написал 6 книг.
Так же сейчас он создает бесплатный ресурс по обучению профессиям Data Engineer, Analytics Engineer, BI Engineer - https://www.datalearn.ru/ (записывайтесь), где хочет любому желающему помочь освоить профессию и научить работать с данными. Курс будет полезен не только инженерам, но и аналитикам, рекрутерам и менеджерам.
Если вы хотите разобраться как аналитика помогает бизнесу зарабатывать деньги и какие технологии популярны на западе, то вы можете присоединиться к студентам ресурса datalearn. Все лекции публикуются на youtube, а материалы доступны в git.
Если вы хотите узнать больше про переезд в Канаду и устройство в Амазон, то Дмитрий подробно рассказал в статье не хабр;
Telegram
Инжиниринг Данных
Делюсь новостями из мира аналитики и карьерными советами.
15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG
🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com
№5017813306
Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG
🛠️ dataengineer.ru | 🏄♂️ Surfalytics.com
№5017813306
Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce