Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Хорошее русскоязычное руководство по Matplotlib. Отдельно стоит отметить, что это не просто сборник готовых рецептов по построению стандартных диаграмм, а качественный образовательный материал, объясняющий простым языком принципы построения самых разнообразных диаграмм (в том числе комбинированных, например, scatterplot + line plot). Большое внимание уделяется компонентам фигуры (см. Anatomy of a figure), что позволяет гибко настраивать внешний вид визуализации под свои нужды

Когда я только знакомился с анализом данных на Python, то matplotlib я не любил из-за постоянно возникающего ощущения, что для создания хорошей визуализации нужно много танцев с бубном, но по-тихоньку моё отношение к нему менялось. На мой взгляд, обманчивая сложность освоения в первую очередь связана с тем, что самый распространенный способ создания визуализаций в matplotlib — это pyplot API, которое базируется на состояниях (state-based API), а после объектно-ориентированного подхода это немного дезориентирует. Вот хороший ответ на stackoverflow, объясняющий принцип состояний в matplotlib

Итого: секрет успешного освоения matplotlib — понимание компонентов фигуры + принципа state-based API. Зная компоненты становится яснее какие компоненты нужно изменять, а умея работать с состояниями — изменять эти компоненты

https://pyprog.pro/mpl/mpl_short_guide.html
Forwarded from oleg_log (Oleg Kovalov)
# lang: python
def is_unique(l):
return len(set(l)) == len(l)
Google создали рейтинг критически важных open-source проектов. В расчёте метрики критичности участвует много разных показателей, свидетельствующих о влиянии и значимости проекта, например, количество контрибьютров и частота коммитов на Github. Отдельного внимания заслуживает документ, рассказывающий о методологии расчёта. На мой взгляд, это интересный пример расчёта аналитической метрики, позволяющей ранжировать данные, опираясь на независимые показатели

На основе данных, представленных Google, оказывается, что наиболее критичный open-source проект среди всех — это Node.js. А среди проектов, написанных на Python — Ansible. Ну и замечу, что всеми нами любимый Pandas находится на 4 строчке среди Python-проектов и на 19 месте среди всех проектов

На картинке топ-10 Python-проектов. А ещё можете сами поковырять файлик, в который сведены данные по ссылке выше: 6 списков по 6 языкам (C, C++, Java, JS, Python, Rust)
Forwarded from addmeto (Grigory Bakunov)
Пятничное: ребята из ClickHouse загрузили в базу кучу статистики про GitHub и сделали кучу готовых запросов, очень много рассказывающих про культуру и опенсорс вцелом. Если вас интересует эта тема - обязательно посмотрите, много неожиданных открытий. Например теперь понятно, какая компания делает самый популярный опенсорс. Или какой контент на гитхабе самый популярный вообще https://gh.clickhouse.tech/explorer/
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
Статья, в которой приводится несколько простых советов о том как организовывать эффективные и надежные пайплайны обработки данных. Если вкратце, то вот они:
- Разделяйте пайплайн на изолированные и тестируемые маленькие шаги;
- Старайтесь делать шаги атомарными (обработка данных как атомарные транзакции)
- Запущенный этап ETL должен при повторном запуске выдавать тот же результат на идентичных входных данных (правило идемпотентности)
- Избыточность (храните raw-data так долго как это представляется возможным)

https://habr.com/en/company/badoo/blog/531912/
Forwarded from Этюды для программистов на Python (Дима Федоров)
У меня две новости и обе хорошие 🥳

1) Добавил несколько кейсов и упражнений по Pandas и NumPy (можно прокачать скиллы по анализу товаров): https://dfedorov.spb.ru/pandas/

2) Завершил перевод статьи "Типичные задачи Excel, продемонстрированные в pandas": https://dfedorov.spb.ru/pandas/%D0%A2%D0%B8%D0%BF%D0%B8%D1%87%D0%BD%D1%8B%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8%20Excel,%20%D0%BF%D1%80%D0%BE%D0%B4%D0%B5%D0%BC%D0%BE%D0%BD%D1%81%D1%82%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%20%D0%B2%20pandas.html
Forwarded from LEFT JOIN
В рекламном кабинете ВКонтакте при публикации объявления есть функция автоматического подбора целевой аудитории, но можно пойти и другим путём –– загрузить файл с идентификаторами конкретных людей, которым нужно показать рекламу. В новом материале рассказываем, как написать парсер участников сообществ конкурентов для VK API и загрузить полученную аудиторию в рекламный кабинет.

Мы попробовали запускать объявления обоими способами: бонусом в конце материала сравниваем результаты и отвечаем на вопрос, какой метод подбора аудитории оказался выгоднее.
Forwarded from Я у мамы аналитик (Stas Valuev)
Пропусти я такую новость - плакал бы потом горькими слезами.

Ребятки запилили Jupiter Notebook в Excel'ке. Действительно, зачем выбирать между Python и аналитикой в уютных таблицах (не будем никому рассказывать, что есть еще BI), давайте "замочим" VBA и совместим все в один инструмент (а что, а вдруг).

Если серьёзно, это, конечно, на грани добра и зла, но может стать подспорьем для тех, кто только начинает переходить на сторону питона. Можно даже придумать пару боевых кейсов, когда может потребоваться экспорт графиков из ноутбука на лист Excel - для редких визуализаций или прогнозирования, к примеру (если вкусы весьма специфичны).

🔗 Ссылка
Зарелизился JupyterLab 3.0. Из нового: встроенный визуальный дебаггер, виджет для навигации по блокноту (table of contents), улучшенная адаптивная верстка, установка расширений в Jupyter без ребилда. Полный changelog тут

https://blog.jupyter.org/jupyterlab-3-0-is-out-4f58385e25bb
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил перевод двух интересных статей для любителей покопаться в pandas 🐼

👉 Объяснение кросс-таблицы (crosstab) в Pandas

👉 Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
Ребята из EXPF подготовили отличный перевод статьи про методику проведения экспериментов Switchback. Эта техника тестирования полезна в условиях сильного влияния наблюдений (например, таксистов, курьеров или потребителей) друг на друга — эту проблему еще называют как “социальный эффект” или Network Effect.

В Ситимобил уже успешно внедряется свитчбэк-тестирование. В конце статьи вы можете прочитать комментарий об их опыте и впечатления от использования свитчбэка из первых уст.

Switchback-тестирование. Как бороться с социальными эффектами в A/B-тестах

16 марта у EXPF стартует интенсив «Математическая статистика и A/B-тесты», где будут на практике рассмотрены основные методологические и математические проблемы A/B тестирования. Этот интенсив будет полезен всем, кто хочет начать разбираться в теме и начать проводить A/B тесты так, чтобы их результатам можно было доверять.
Forwarded from Этюды для программистов на Python (Дима Федоров)
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍

👉 Эффективное использование Matplotlib

👉 Руководство по кодированию категориальных значений в Python

Приятного чтения! 🐼

PS. остальные переводы и кейсы по ссылке ⚡️
Forwarded from Этюды для программистов на Python (Дима Федоров)
После matplotlib и seaborn для меня Altair стал открытием 🤯
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰

Рекомендую оценить примеры и упражнения из переведенных уроков:

👉 Введение в визуализацию данных с помощью Altair (часть 1)

👉 Визуализация данных с помощью Altair (часть 2)

👉 Визуализация данных с помощью Altair (часть 3)

Приятного чтения! 🐼
Forwarded from Этюды для программистов на Python (Дима Федоров)
При использовании pandas существует несколько методов очистки текстовых полей для подготовки к дальнейшему анализу.
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼

👉 Читать Эффективная очистка текста с помощью Pandas

👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇

Приятного чтения! 🐍
Интересный пример анализа текста на естественном языке (NLP) для решения задачи HR-аналитики. Автор использует алгоритм создания саммари с помощью Gensim и метрику cosine_similarity, чтобы сравнить степень сходства резюме с описанием вакансии. Практического толка от этого, на мой взгляд, не очень много, но это хороший пет-проджект для знакомства с методами NLP, который вы можете реализовать сами. Благо, что методы поиска вакансий в API HH открыты, а значит вы можете спарсить все интересующие вас вакансии

https://habr.com/ru/company/skillfactory/blog/544420/
Forwarded from Этюды для программистов на Python (Дима Федоров)
Подготовил обзор двух полезных модулей 🐍

Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼

👉 Использование модуля Pandas Profiling для профилирования или в CoLab

Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺

👉 Используем модуль folium для рисования карт или в CoLab

📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Николай Валиотти (автор канала LEFT JOIN) проанализировал мрачность текстов нового альбома Земфиры «Бордерлайн», проведя EDA по текстам песен, а затем оценив семантическую близость песен с помощью Word2Vec. Николай проделал отличную работу, оформив всё в крутую статью!

https://leftjoin.ru/all/borderline-text-analysis/
Мы обнаружили, что пользователи, которые присоединились к нам в последние месяцы, не проводят так много времени в приложении. Как бы вы исследовали эту ситуацию? Этот вопрос – один из первых, который задают на собеседовании в Amplitude.

После ответа на него, соискатель получает еще несколько вопросов. Например, таких: мы обнаружили, что наши retention метрики поползли вниз на прошлой неделе. Как бы вы выясняли в чем причина? Завтра будет ваш первый день в нашей компании, и мы дадим вам доступ к нашим базам данных. С чего вы начнете свой первый день?

Проверяется, разумеется, "работа мысли" кандидата. Как он аргументирует свою точку зрения и чем объясняет подходы к задаче. Очень часто после этого представитель Amplitude хвалит за ответ и рассказывает свое решение – стройное, убедительное, ёмкое и спрашивает кандидата, согласен ли он с этим решением. В этом скрывается подвох: транслируемое решение логически неверное, и цель этого вопроса – проверить готовность соискателя спорить и отстаивать свою точку зрения.

Продуктовые менеджеры и аналитики управляют тысячами различных взаимодействий, которые пользователи совершают в продукте. Для ответов на вопросы «Почему это произошло?» или «Что бы мы могли попробовать», им необходимо поработать с друг с другом, инженерами, службой поддержки и другими сотрудниками компании, чтобы убедиться, что они исследуют нужные области.

- Отличное понимание продукта и пользователей.
- Генерирование сильных гипотез.
- Глубокое понимание инженерии сбора событий.
- Дизайн экспериментов

Всё это – не только ключевые области знаний продуктового аналитика, которые проверяют на собеседовании в Amplitude (и многие другие компании), но и ключевые темы конференции по продуктовой аналитике Aha!, которая состоится 8-9 апреля в онлайн формате. В программе 32 лекции от ведущих специалистов в области продуктовой аналитики и десяток мастер-классов с отличным продакшеном.

Событие глубоко техническое, так как ничто не освобождает вас от знания матчасти. Главные ошибки происходят из-за слабого или неверного понимания низкоуровневых вещей. В критической ситуации вы упадете до уровня своих компетенций, а не подниметесь до уровня своих ожиданий...

➡️ Программа: таблица, документ
Зарегистрироваться по ссылке
Промокод от канала на 10% скидку – datalytx

Я тоже участвую – увидимся в чатах