Этюды для программистов на Python
2.54K subscribers
44 photos
3 videos
7 files
149 links
👋 Привет, я Дима, руководитель образовательных проектов в @Positive_Technologies и Python-евангелист.
Пишу про обработку данных на языке Python 🐼, управление проектами и преподавание.
Связаться со мной → @dm_fedorov
Download Telegram
🔥 Завершил перевод "Подробного руководства по группировке и агрегированию с помощью pandas" от Криса Моффитта (по ссылке Блокнот и Colab)

Все переводы доступны на странице
Перевел две интересные статьи! 🥳

👉 Обзор типов данных pandas (по ссылке Блокнот и Colab)
👉 Очистка данных о валюте с помощью pandas (по ссылке Блокнот и Colab)

Все переводы доступны на странице 🐍
Перевод статьи об использовании типа данных категории в pandas 🐼

Все переводы по pandas и уроки по Python доступны на странице 🐍
🐼 Перевод советов по выбору столбцов в DataFrame с помощью iloc и filter (внутри Colab)

🐍Остальные переводы уроков по pandas по ссылке
У меня две новости и обе хорошие 🥳

1) Добавил несколько кейсов и упражнений по Pandas и NumPy (можно прокачать скиллы по анализу товаров) по ссылке

2) Завершил перевод статьи "Типичные задачи Excel, продемонстрированные в pandas".
Продолжаем традицию еженедельных переводов и сегодня две статьи про особенности использования groupby в (🐼)

1) Объяснение функций Grouper и Agg в Pandas

2
) Понимание функции transform в Pandas

Кейсы по анализу данных и переводы доступны по ссылке 🐍
Подготовил перевод двух интересных статей для любителей покопаться в pandas 🐼

👉 Объяснение кросс-таблицы (crosstab) в Pandas

👉 Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
По многочисленным просьбам подготовил переводы про визуализацию и обработку данных для ML 🐍

👉 Эффективное использование Matplotlib

👉 Руководство по кодированию категориальных значений в Python

Приятного чтения! 🐼

PS. остальные переводы и кейсы по ссылке ⚡️
Сегодня разбираемся, как работать с Altair, библиотекой декларативной статистической визуализации для Python 🐼

Завершил перевод вводной части, внутри Colab и упражнения! ✍️

Приятного чтения! 🐍
После matplotlib и seaborn для меня Altair стал открытием 🤯
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰

Рекомендую оценить примеры и упражнения из переведенных уроков:

👉 Введение в визуализацию данных с помощью Altair (часть 1)

👉 Визуализация данных с помощью Altair (часть 2)

👉 Визуализация данных с помощью Altair (часть 3)

Приятного чтения! 🐼
При использовании pandas существует несколько методов очистки текстовых полей для подготовки к дальнейшему анализу.
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼

👉 Читать Эффективная очистка текста с помощью Pandas

👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇

Приятного чтения! 🐍
В 2014 году вышла знаменитая статья Хэдли Уикхэма о Tidy Data (аккуратных данных).
Разбираемся по ссылке, что такое аккуратные данные с точки зрения Python и pandas 🐼

Еще в качестве эксперимента собрал блокнот с примером равновесия Нэша из теории игр, запустить его можно в CoLab по ссылке.
По многочисленным просьбам подготовил перевод статьи про визуализацию в Plotly Express 🥳

👉 Взгляд на Plotly Express.

Приятного чтения! 🐼
Подготовил обзор двух полезных модулей 🐍

Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼

👉 Использование модуля Pandas Profiling для профилирования или в CoLab

Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺

👉 Используем модуль folium для рисования карт или в CoLab

📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Подготовил обзор модуля pandera 🐍

Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼

👉 Проверка статистических данных с помощью модуля pandera или в CoLab

Приятного чтения! 📚
Сегодня две новости 🕺

1️⃣ Запускаю серию статей про визуализацию. Начинаем с pyvis 🐍

Библиотека pyvis предназначена для быстрой визуализации сетевых графиков с минимальным количеством кода на Python. pyvis разработана как обертка для популярной JavaScript библиотеки visJS. Например, результат визуализации сети персонажей Игры престолов 🧝‍♀️

Подробнее см. Делаем сетевые графы интерактивными с помощью Python и Pyvis.

2️⃣ Решил взяться за написание открытого учебника по анализу данных на языке Python 😎 Главы буду публиковать по мере их написания тут 🐼
1️⃣ Собрал небольшой мануал про регулярные выражения в pandas 🐼 Запустить можно в CoLab.

2️⃣ Работаю над главой учебника про pandas и упражнениями. Процесс идет. В мае опубликую 🥳 Принимаются предложения по составу учебника 📚
Подготовил новый перевод кейса с упражнениями! 🐍

Разбираем проект по анализу данных: исследуем средний вес новорожденных (запустить в CoLab):

Этот пример демонстрирует важные шаги практически в любом проекте по анализу данных:

0⃣ Определение данных, которые помогут ответить на вопрос.
1⃣ Получение данных и их загрузка в Python.
2⃣ Проверка данных и устранение ошибок.
3⃣ Выбор соответствующих подмножеств из данных.
4⃣ Использование гистограмм для визуализации распределения значений.
5⃣ Использование сводной статистики для описания данных таким образом, чтобы наилучшим образом ответить на вопрос.
6⃣ Рассмотрение возможных источников ошибок и ограничений в наших выводах.

Остальные переводы доступны по ссылке 🐼