Datalytics

Отличная статья про агрегацию и группировку данных с помощью pandas. В ней рассказывается про кучу нюансов, которые обычно возникают в процессе работы с данными:

- какие агрегирующие функции существуют,
- как сделать собственную агрегирующую функцию (lambda в помощь),
- как сделать результат группировки не в виде series, а в виде фрейма,
- как убрать мультииндекс в колонках после группировки,
- как использовать именнованные агрегаты.

В общем, если бы я наткнулся на такую статью лет 5 назад, то это существенно сократило бы количество самостоятельно набитых шишек.

https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/

www.shanelynn.ie

Group and Aggregate your Data Better using Pandas Groupby

Aggregation and grouping of Dataframes is accomplished in Python Pandas using “groupby()” and “agg()” functions. Apply max, min, count, distinct to groups.

3.41K views08:56

Datalytics

Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В статье объясняется, как эта библиотека позволяет обрабатывать данные с использованием параллельных вычислений.

https://habr.com/ru/post/498904/

Хабр

Добавляем параллельные вычисления в Pandas

3.13K views09:05

Datalytics

Алексей Селезнёв написал заметку про небольшую библиотеку pretty-html-table, которая позволяет привести пандасовский датафрейм в нормальную HTML таблицу. Да такую, чтобы было не стыдно вставить в письмо🙃

Как создать оформленную HTML-таблицу из dataframe

Alexey Seleznev blog

Python: Как создать оформленную HTML таблицу из pandas DataFrame

Как преобразовать pandas DataFrame в HTML таблицу для отправки электронном письме.

2.86K views12:56

Datalytics

Статья про визуализацию данных с помощью Altair. Как-то многие упускают из виду этот инструмент для создания визуализаций, а меж тем он эффективен и прост. В особенности, когда нужны графики для исследования данных

https://towardsdatascience.com/python-interactive-data-visualization-with-altair-b4c4664308f8

2.76K views12:40

Datalytics

This media is not supported in your browser

VIEW IN TELEGRAM

Как выделиться на фоне остальных кандидатов и получить работу аналитика?

13 мая в 19:00 (мск) в рамках шестимесячного онлайн-курса «Профессия: Аналитик», ребята из ProductStar проводят бесплатный вебинар «Как подготовиться и пройти собеседование на аналитика».

👨‍🏫 Кто выступит?

Артур Самигуллин, ex-DS & Analytics Team Lead в Modulbank

🎓 О чем пойдет речь?

— Разберём, как проходит собеседование на аналитика.
— Узнаем, как правильно подготовиться к интервью.
— Проанализируем основные ошибки кандидатов на собеседовании.

🔥 Два самых активных участника вебинара получат сертификат на бесплатное обучение в ProductStar.

Участие бесплатное, но регистрация обязательна.

Зарегистрироваться на вебинар 👉 @ProductStarAnalyticsBot

2.67K views10:00

Datalytics

Искал информацию про моделирование процессов и случайно наткнулся на коллекцию замечательных ноутбуков, посвященных моделированию точечных процессов. В этом есть две прелести: узнал что такое точечный процесс и в очередной раз потерял дар речи от того какие классные ноутбуки делают учёные.

https://github.com/MatthewDaws/PointProcesses

GitHub

GitHub - MatthewDaws/PointProcesses: Basics of point processes using python for simulation

Basics of point processes using python for simulation - GitHub - MatthewDaws/PointProcesses: Basics of point processes using python for simulation

2.47K views19:35

Datalytics

Если вы занимаетесь анализом данных на Python, то точно знакомы с Jupyter. И, конечно же, вы знаете насколько это удобная штука для Interactive Computing. Но тем кто сильно привык к обычным IDE (например, PyCharm) не хватало визуального отладчика. Команда Project Jupyter, после нескольких месяцев разработки, представила первый публичный релиз визуального отладчика для Jupyter!

Отладчик позволяет устанавливать в ячейках блокнотов и в файлах с исходным кодом точки останова. Он позволяет исследовать содержимое переменных, просматривать стек вызовов. И этим его возможности не ограничиваются.

https://habr.com/ru/company/ruvds/blog/500422/

Хабр

Визуальный отладчик для Jupyter

Прогресс большинства программных проектов строится на малых изменениях, которые, перед тем, как двигаться дальше, тщательно оценивают. Быстрое получение результатов выполнения кода и высокая скорость...

2.94K views09:02

Datalytics

A/B тестирование — это неотъемлемая часть работы над продуктом. С его помощью можно проверить гипотезу о том, поменяется ли выбранная продуктовая метрика, если изменить что-то в продукте, — например, увеличится ли количество пользователей, если изменить дизайн страницы регистрации. Для этого сравниваются результаты в тестовой и контрольной группах пользователей: первой выборке показывают новое решение, а у контрольной группы продукт остаётся неизменным.

При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно связана с нововведениями в продукте, а не является случайностью. Для этого можно применять традиционный (частотный) или байесовский подход к A/B тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A/B тестирование и разобраться в его работе.

https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python

3.07K views13:57

Datalytics

Forwarded from Oh My Py

📦 Как сделать классный Python-пакет

Раньше я думал, что создание пакетов в питоне — жуткая головная боль. Никогда с этим не связывался.

Оказывается, ситуация давно изменилась, и делать библиотеки стало легко и приятно. Буквально так:

flit init
...
flit publish

Попробуйте: https://antonz.ru/packaging/

P.S. Если у вас есть собственная библиотека, которой не стыдно поделиться — присылайте в личку. Про самые интересные напишу отдельно.

491 views12:03

Datalytics

Отличная статья про визуализацию данных с помощью Plotly. Статья рассказывает о том как строить различные интерактивные визуализации от простых вроде line-chart до более сложных, например, отображение данных на карте

https://habr.com/ru/post/502958/

Хабр

Шпаргалка по визуализации данных в Python с помощью Plotly

Plotly — библиотека для визуализации данных, состоящая из нескольких частей: Front-End на JS Back-End на Python (за основу взята библиотека Seaborn) Back-End на R В этой простыне все...

3.36K views08:02

Datalytics

Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)

Леша Куличевский @kulichevskiy описал процесс создания системы сквозной аналитики без подключения сторонних сервисов.

Как подключаться к AmoCRM по API (на Python) и забирать данные о сделках.

https://github.com/kulichevskiy/end-to-end/blob/master/amocrm.ipynb

GitHub

end-to-end/amocrm.ipynb at master · kulichevskiy/end-to-end

Code snippets for creation of your own end-to-end analytics system - kulichevskiy/end-to-end

555 views14:35

Datalytics

О том как быстро и просто делать интерактивные визуализации с помощью Bokeh. В статье рассказывается о библиотеке Pandas-Bokeh, с помощью которой можно делать визуализации в одну строку. Это обеспечивается методом plot_bokeh(), который появляется при импорте библиотеки

https://towardsdatascience.com/beautiful-and-easy-plotting-in-python-pandas-bokeh-afa92d792167

Medium

Beautiful and Easy Plotting in Python — Pandas + Bokeh

A single line of code to create an interactive plot from Pandas dataframe to Bokeh

2.61K views08:01

Datalytics

Простая, но полезная, библиотека, позволяющая по набору данных подсчитать количество строк по категориальной колонке (или нескольким). Помимо самого количества также выводится доля и нарастающие показатели. По сути этой такой value_counts() на стероидах.

Но основная прелесть библиотеки в том, что она использует новое API pandas, которое позволяет писать собственные ацессоры для датафреймов и series, чтобы делать методы, которые могут встраиваться непосредственно как методы датафрейма. То есть вы можете расширять функциональность pandas, создавая дополнительные библиотеки, и при этом ваши методы будут выглядеть очень нативно и правильно с точки зрения хорошего стиля (например, логично встраиваться в концепцию method chaining). В общем, советую покопаться в исходниках.

https://pbpython.com/sidetable.html

Pbpython

sidetable - Create Simple Summary Tables in Pandas

Introducing sidetable, a pandas library that build summary tables of your DataFrames.

2.97K views11:38

Datalytics

Когда-то давно я написал статью про то с чего действующим аналитикам начать изучение Python. С тех пор статья немного актуализировалась и дополнилась несколькими интересными ссылками. Если кто-то вдруг подписан на канал, но пока ещё не нашёл как подступиться к Python, то эта статья как раз для вас

http://datalytics.ru/all/s-chego-analitiku-nachat-izuchenie-python/

www.datalytics.ru

С чего аналитику начать изучение Python

Многие аналитики задумываются об изучении Python, но не представляют себе первых шагов

2.94K views15:47

Datalytics

Forwarded from A/B testing

Краткое руководство по реализации A/B тестов на Python:

https://medium.com/@robbiegeoghegan/implementing-a-b-tests-in-python-514e9eb5b3a1

Github Repository: https://github.com/RobbieGeoghegan/AB_Testing

via @ABtesting

Medium

Implementing A/B Tests in Python

A quick guide to experiment design and implementation

836 views08:08

Datalytics

Хорошая статья про то как строить простые визуализации с помощью методов, встроенных в ацессор plot. Внутри этого ацессора существует ряд простых в применении методов (например, bar() или hist()), которые позволяют быстро строить простые визуализации, основанные на matplotlib. О применении этих методов и пойдёт речь

https://towardsdatascience.com/the-simplest-way-to-create-complex-visualizations-in-python-isnt-with-matplotlib-a5802f2dba92

Medium

The Simplest Way to Create Visualizations in Python Isn’t With matplotlib.

Creating Sleek & Easy Plots Directly From Pandas

2.68K views10:59

Datalytics

Forwarded from A/B testing

Математика A/B-тестирования с примером кода на Python:

https://towardsdatascience.com/the-math-behind-a-b-testing-with-example-code-part-1-of-2-7be752e1d06f

via @ABtesting

Medium

The Math Behind A/B Testing with Example Python Code

While taking the A/B testing course by Google on Udacity, I had some questions about some of the mathematical steps that were not clearly…

959 views13:59

Datalytics

#реклама #вакансии

🔎 Авито в поиске аналитиков

Зарплата: От 100К рублей и выше
Уровень: От уверенного junior и выше
Город: Москва

#Авито — самый популярный сервис объявлений в Европе. Наша месячная аудитория 34,7 миллиона человек. В реальном времени на Авито «живут» более 47 миллионов объявлений.

Мы ищем аналитиков на несколько направлений:

Product Analyst (Verticals) — https://clc.to/Product_Analyst
Data Analyst (Tech Platform) — https://clc.to/Data_Analyst_TechPlatform
Data Analyst (Market Intelligence) — https://clc.to/Data_Analyst_MI

А также Team Lead (Marketing Analytics) — https://clc.to/Team_Lead

➡️ Несколько фактов об аналитике в Авито:

• Аналитики в Авито — это полноценные партнеры в развитии бизнеса и продукта
• Мы не берёмся за задачи, не имея чёткого ответа на вопрос «зачем?» и «что мы будем делать по-другому, когда узнаем Х?»
• Мы очень любим Tableau и у нас каждый сотрудник имеет доступ в общий аналитической портал и к ключевым отчетам
• У нас очень много данных, которые мы все собираем в Vertica (и чуть-чуть в ClickHouse) — в день это 5+ млрд событий
• Кроме очень крутой команды аналитиков у нас есть крутейшая команда DWH & Analytical Infrastructure, которые очень помогают в решении насущных инфрастуктурных проблем и автоматизации типовых аналитических задач

Подробную информацию по каждой вакансии и условиях работы в Авито можно узнать при переходе по ссылкам ⬆️

🙋🏻‍♂️Откликнуться на вакансию: @dozmorovadv @tanastasiav

#Москва #fulltime #marketing #product #analyticsdigest

hh.ru

Вакансия Product Analyst (Verticals) в Москве, работа в компании АВИТО ТЕХ (вакансия в архиве c 2 сентября 2020)

Зарплата: не указана. Москва. Требуемый опыт: 1–3 года. Полная занятость. Дата публикации: 03.08.2020.

3.13K viewsedited 09:00

Datalytics

Крутой пример семантического анализа на основе открытых данных. В статье представлен весь цикл анализа: начиная от сбора и заканчивая визуализацией данных с помощью plotly

http://leftjoin.ru/all/constitution-sentiment-analysis/

2.98K views15:13

Datalytics

Большой туториал по использованию Pandas на примере задачи оценки студентов. По сути, это такое интересное решение типичной Excel'евской задачи с помощью Python. Рекомендую новичкам, чтобы повысить свою насмотренность

https://realpython.com/pandas-project-gradebook/

Realpython

pandas Project: Make a Gradebook With Python & pandas – Real Python

With this follow-along Python project, you'll build a script to calculate grades for a class using pandas. The script will quickly and accurately calculate grades from a variety of data sources. You'll see examples of loading, merging, and saving data with…

3.46K views08:41

Datalytics

Если вы работаете с данными и вам интересно, что происходит на западном рынке, то вам будет интересно почитать канал Инжиниринг Данных, который ведет Дмитрий. Он уже 4 года работает в Амазон в Канаде и США. Сейчас он занимается созданием ML решений для Amazon Marketplace в департаменте Customer Behaviour Analytics в роли Инженера Данных. До этого он работал в Alexa AI и помогал scientists делать Alexa умней.

Дмитрий пропагандирует современные аналитические решения и облачные вычисления (cloud computing). Он часто выступает на конференциях в Северной Америке и написал 6 книг.

Так же сейчас он создает бесплатный ресурс по обучению профессиям Data Engineer, Analytics Engineer, BI Engineer - https://www.datalearn.ru/ (записывайтесь), где хочет любому желающему помочь освоить профессию и научить работать с данными. Курс будет полезен не только инженерам, но и аналитикам, рекрутерам и менеджерам.

Если вы хотите разобраться как аналитика помогает бизнесу зарабатывать деньги и какие технологии популярны на западе, то вы можете присоединиться к студентам ресурса datalearn. Все лекции публикуются на youtube, а материалы доступны в git.

Если вы хотите узнать больше про переезд в Канаду и устройство в Амазон, то Дмитрий подробно рассказал в статье не хабр;

Инжиниринг Данных

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

3.27K views07:17

About

Blog

Apps

Platform