Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Отличная статья про агрегацию и группировку данных с помощью pandas. В ней рассказывается про кучу нюансов, которые обычно возникают в процессе работы с данными:

- какие агрегирующие функции существуют,
- как сделать собственную агрегирующую функцию (lambda в помощь),
- как сделать результат группировки не в виде series, а в виде фрейма,
- как убрать мультииндекс в колонках после группировки,
- как использовать именнованные агрегаты.

В общем, если бы я наткнулся на такую статью лет 5 назад, то это существенно сократило бы количество самостоятельно набитых шишек.

https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
Возможно вы сталкивались с задачей параллельных вычислений над pandas датафреймами. Решить эту проблему можно как силами нативного Python, так и с помощью замечательной библиотеки — pandarallel. В статье объясняется, как эта библиотека позволяет обрабатывать данные с использованием параллельных вычислений.

https://habr.com/ru/post/498904/
Алексей Селезнёв написал заметку про небольшую библиотеку pretty-html-table, которая позволяет привести пандасовский датафрейм в нормальную HTML таблицу. Да такую, чтобы было не стыдно вставить в письмо🙃

Как создать оформленную HTML-таблицу из dataframe
Статья про визуализацию данных с помощью Altair. Как-то многие упускают из виду этот инструмент для создания визуализаций, а меж тем он эффективен и прост. В особенности, когда нужны графики для исследования данных

https://towardsdatascience.com/python-interactive-data-visualization-with-altair-b4c4664308f8
This media is not supported in your browser
VIEW IN TELEGRAM
Как выделиться на фоне остальных кандидатов и получить работу аналитика?

13 мая в 19:00 (мск) в рамках шестимесячного онлайн-курса «Профессия: Аналитик», ребята из ProductStar проводят бесплатный вебинар «Как подготовиться и пройти собеседование на аналитика».

👨‍🏫 Кто выступит?

Артур Самигуллин, ex-DS & Analytics Team Lead в Modulbank

🎓 О чем пойдет речь?

— Разберём, как проходит собеседование на аналитика.
— Узнаем, как правильно подготовиться к интервью.
— Проанализируем основные ошибки кандидатов на собеседовании.

🔥 Два самых активных участника вебинара получат сертификат на бесплатное обучение в ProductStar.

Участие бесплатное, но регистрация обязательна.

Зарегистрироваться на вебинар 👉 @ProductStarAnalyticsBot
Искал информацию про моделирование процессов и случайно наткнулся на коллекцию замечательных ноутбуков, посвященных моделированию точечных процессов. В этом есть две прелести: узнал что такое точечный процесс и в очередной раз потерял дар речи от того какие классные ноутбуки делают учёные.

https://github.com/MatthewDaws/PointProcesses
Если вы занимаетесь анализом данных на Python, то точно знакомы с Jupyter. И, конечно же, вы знаете насколько это удобная штука для Interactive Computing. Но тем кто сильно привык к обычным IDE (например, PyCharm) не хватало визуального отладчика. Команда Project Jupyter, после нескольких месяцев разработки, представила первый публичный релиз визуального отладчика для Jupyter!

Отладчик позволяет устанавливать в ячейках блокнотов и в файлах с исходным кодом точки останова. Он позволяет исследовать содержимое переменных, просматривать стек вызовов. И этим его возможности не ограничиваются.

https://habr.com/ru/company/ruvds/blog/500422/
A/B тестирование — это неотъемлемая часть работы над продуктом. С его помощью можно проверить гипотезу о том, поменяется ли выбранная продуктовая метрика, если изменить что-то в продукте, — например, увеличится ли количество пользователей, если изменить дизайн страницы регистрации. Для этого сравниваются результаты в тестовой и контрольной группах пользователей: первой выборке показывают новое решение, а у контрольной группы продукт остаётся неизменным.

При этом важно проверить, будет ли изменение статистически значимым: подтвердить, что наблюдаемая разница у тестовой и контрольных групп действительно связана с нововведениями в продукте, а не является случайностью. Для этого можно применять традиционный (частотный) или байесовский подход к A/B тестированию. У обоих методов есть свои сторонники и противники, но байесовский подход позволяет проще визуализировать данные и интерпретировать результат эксперимента. Академия Яндекса перевела статью из блога Towards Data Science о том, как провести байесовское A/B тестирование и разобраться в его работе.

https://academy.yandex.ru/posts/prostoy-gid-po-bayesovskomu-a-b-testirovaniyu-na-python
Forwarded from Oh My Py
📦 Как сделать классный Python-пакет

Раньше я думал, что создание пакетов в питоне — жуткая головная боль. Никогда с этим не связывался.

Оказывается, ситуация давно изменилась, и делать библиотеки стало легко и приятно. Буквально так:

flit init
...
flit publish


Попробуйте: https://antonz.ru/packaging/

P.S. Если у вас есть собственная библиотека, которой не стыдно поделиться — присылайте в личку. Про самые интересные напишу отдельно.
Отличная статья про визуализацию данных с помощью Plotly. Статья рассказывает о том как строить различные интерактивные визуализации от простых вроде line-chart до более сложных, например, отображение данных на карте

https://habr.com/ru/post/502958/
Forwarded from Интернет-аналитика // Алексей Никушин (Алексей Никушин)
Леша Куличевский @kulichevskiy описал процесс создания системы сквозной аналитики без подключения сторонних сервисов.

Как подключаться к AmoCRM по API (на Python) и забирать данные о сделках.

https://github.com/kulichevskiy/end-to-end/blob/master/amocrm.ipynb
О том как быстро и просто делать интерактивные визуализации с помощью Bokeh. В статье рассказывается о библиотеке Pandas-Bokeh, с помощью которой можно делать визуализации в одну строку. Это обеспечивается методом plot_bokeh(), который появляется при импорте библиотеки

https://towardsdatascience.com/beautiful-and-easy-plotting-in-python-pandas-bokeh-afa92d792167
Простая, но полезная, библиотека, позволяющая по набору данных подсчитать количество строк по категориальной колонке (или нескольким). Помимо самого количества также выводится доля и нарастающие показатели. По сути этой такой value_counts() на стероидах.

Но основная прелесть библиотеки в том, что она использует новое API pandas, которое позволяет писать собственные ацессоры для датафреймов и series, чтобы делать методы, которые могут встраиваться непосредственно как методы датафрейма. То есть вы можете расширять функциональность pandas, создавая дополнительные библиотеки, и при этом ваши методы будут выглядеть очень нативно и правильно с точки зрения хорошего стиля (например, логично встраиваться в концепцию method chaining). В общем, советую покопаться в исходниках.

https://pbpython.com/sidetable.html
Когда-то давно я написал статью про то с чего действующим аналитикам начать изучение Python. С тех пор статья немного актуализировалась и дополнилась несколькими интересными ссылками. Если кто-то вдруг подписан на канал, но пока ещё не нашёл как подступиться к Python, то эта статья как раз для вас

http://datalytics.ru/all/s-chego-analitiku-nachat-izuchenie-python/
Хорошая статья про то как строить простые визуализации с помощью методов, встроенных в ацессор plot. Внутри этого ацессора существует ряд простых в применении методов (например, bar() или hist()), которые позволяют быстро строить простые визуализации, основанные на matplotlib. О применении этих методов и пойдёт речь

https://towardsdatascience.com/the-simplest-way-to-create-complex-visualizations-in-python-isnt-with-matplotlib-a5802f2dba92
#реклама #вакансии

🔎 Авито в поиске аналитиков

Зарплата: От 100К рублей и выше
Уровень: От уверенного junior и выше
Город: Москва

#Авито — самый популярный сервис объявлений в Европе. Наша месячная аудитория 34,7 миллиона человек. В реальном времени на Авито «живут» более 47 миллионов объявлений.

Мы ищем аналитиков на несколько направлений:

Product Analyst (Verticals) — https://clc.to/Product_Analyst
Data Analyst (Tech Platform) — https://clc.to/Data_Analyst_TechPlatform
Data Analyst (Market Intelligence) — https://clc.to/Data_Analyst_MI

А также Team Lead (Marketing Analytics) — https://clc.to/Team_Lead

➡️ Несколько фактов об аналитике в Авито:

• Аналитики в Авито — это полноценные партнеры в развитии бизнеса и продукта
• Мы не берёмся за задачи, не имея чёткого ответа на вопрос «зачем?» и «что мы будем делать по-другому, когда узнаем Х?»
• Мы очень любим Tableau и у нас каждый сотрудник имеет доступ в общий аналитической портал и к ключевым отчетам
• У нас очень много данных, которые мы все собираем в Vertica (и чуть-чуть в ClickHouse) — в день это 5+ млрд событий
• Кроме очень крутой команды аналитиков у нас есть крутейшая команда DWH & Analytical Infrastructure, которые очень помогают в решении насущных инфрастуктурных проблем и автоматизации типовых аналитических задач

Подробную информацию по каждой вакансии и условиях работы в Авито можно узнать при переходе по ссылкам ⬆️

🙋🏻‍♂️Откликнуться на вакансию: @dozmorovadv @tanastasiav

#Москва #fulltime #marketing #product #analyticsdigest
Крутой пример семантического анализа на основе открытых данных. В статье представлен весь цикл анализа: начиная от сбора и заканчивая визуализацией данных с помощью plotly

http://leftjoin.ru/all/constitution-sentiment-analysis/
Большой туториал по использованию Pandas на примере задачи оценки студентов. По сути, это такое интересное решение типичной Excel'евской задачи с помощью Python. Рекомендую новичкам, чтобы повысить свою насмотренность

https://realpython.com/pandas-project-gradebook/
Если вы работаете с данными и вам интересно, что происходит на западном рынке, то вам будет интересно почитать канал Инжиниринг Данных, который ведет Дмитрий. Он уже 4 года работает в Амазон в Канаде и США. Сейчас он занимается созданием ML решений для Amazon Marketplace в департаменте Customer Behaviour Analytics в роли Инженера Данных. До этого он работал в Alexa AI и помогал scientists делать Alexa умней.

Дмитрий пропагандирует современные аналитические решения и облачные вычисления (cloud computing). Он часто выступает на конференциях в Северной Америке и написал 6 книг.

Так же сейчас он создает бесплатный ресурс по обучению профессиям Data Engineer, Analytics Engineer, BI Engineer - https://www.datalearn.ru/ (записывайтесь), где хочет любому желающему помочь освоить профессию и научить работать с данными. Курс будет полезен не только инженерам, но и аналитикам, рекрутерам и менеджерам.

Если вы хотите разобраться как аналитика помогает бизнесу зарабатывать деньги и какие технологии популярны на западе, то вы можете присоединиться к студентам ресурса datalearn. Все лекции публикуются на youtube, а материалы доступны в git.

Если вы хотите узнать больше про переезд в Канаду и устройство в Амазон, то Дмитрий подробно рассказал в статье не хабр;