Разбираемся в прогнозировании поощрительных выплат с продаж с помощью моделирования Монте-Карло 🐼
Приятного чтения! 🐍
Приятного чтения! 🐍
Сегодня разбираемся, как работать с Altair, библиотекой декларативной статистической визуализации для Python 🐼
Завершил перевод вводной части, внутри Colab и упражнения! ✍️
Приятного чтения! 🐍
Завершил перевод вводной части, внутри Colab и упражнения! ✍️
Приятного чтения! 🐍
После matplotlib и seaborn для меня Altair стал открытием 🤯
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰
Рекомендую оценить примеры и упражнения из переведенных уроков:
👉 Введение в визуализацию данных с помощью Altair (часть 1)
👉 Визуализация данных с помощью Altair (часть 2)
👉 Визуализация данных с помощью Altair (часть 3)
Приятного чтения! 🐼
У него другая логика работы и невероятная интерактивность на основе JavaScript 🥰
Рекомендую оценить примеры и упражнения из переведенных уроков:
👉 Введение в визуализацию данных с помощью Altair (часть 1)
👉 Визуализация данных с помощью Altair (часть 2)
👉 Визуализация данных с помощью Altair (часть 3)
Приятного чтения! 🐼
При использовании pandas существует несколько методов очистки текстовых полей для подготовки к дальнейшему анализу.
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼
👉 Читать Эффективная очистка текста с помощью Pandas
👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇
Приятного чтения! 🐍
В новой статье показаны примеры очистки текстовых полей в большом файле и даны советы по эффективной очистке неструктурированных текстовых полей с помощью Python и pandas 🐼
👉 Читать Эффективная очистка текста с помощью Pandas
👉 Запустить примеры в Colab, немного оптимизировал код для этой среды 😇
Приятного чтения! 🐍
По многочисленным просьбам подготовил перевод статьи про визуализацию в Plotly Express 🥳
👉 Взгляд на Plotly Express.
Приятного чтения! 🐼
👉 Взгляд на Plotly Express.
Приятного чтения! 🐼
Подготовил обзор двух полезных модулей 🐍
Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼
👉 Использование модуля Pandas Profiling для профилирования или в CoLab
Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺
👉 Используем модуль folium для рисования карт или в CoLab
📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Pandas Profiling - это библиотека для генерации интерактивных отчетов (по ссылке пример отчета) на основе пользовательских данных: можем увидеть распределение данных, типы, возможные проблемы. Библиотека очень проста в использовании: можем создать отчет и отправить его кому угодно! 🐼
👉 Использование модуля Pandas Profiling для профилирования или в CoLab
Folium - это библиотека, которая позволяет рисовать карты, маркеры, а также отмечать собственные данные (по умолчанию в OpenStreetMap) 🗺
👉 Используем модуль folium для рисования карт или в CoLab
📚 Остальные переводы, обзоры и кейсы по анализу данных доступны по ссылке.
Подготовил обзор модуля pandera 🐍
Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼
👉 Проверка статистических данных с помощью модуля pandera или в CoLab
Приятного чтения! 📚
Pandera - инструмент для проверки фреймов данных pandas, который предоставляет интуитивно понятный, гибкий и выразительный API 🐼
👉 Проверка статистических данных с помощью модуля pandera или в CoLab
Приятного чтения! 📚
Сегодня две новости 🕺
1️⃣ Запускаю серию статей про визуализацию. Начинаем с pyvis 🐍
Библиотека pyvis предназначена для быстрой визуализации сетевых графиков с минимальным количеством кода на Python. pyvis разработана как обертка для популярной JavaScript библиотеки visJS. Например, результат визуализации сети персонажей Игры престолов 🧝♀️
Подробнее см. Делаем сетевые графы интерактивными с помощью Python и Pyvis.
2️⃣ Решил взяться за написание открытого учебника по анализу данных на языке Python 😎 Главы буду публиковать по мере их написания тут 🐼
1️⃣ Запускаю серию статей про визуализацию. Начинаем с pyvis 🐍
Библиотека pyvis предназначена для быстрой визуализации сетевых графиков с минимальным количеством кода на Python. pyvis разработана как обертка для популярной JavaScript библиотеки visJS. Например, результат визуализации сети персонажей Игры престолов 🧝♀️
Подробнее см. Делаем сетевые графы интерактивными с помощью Python и Pyvis.
2️⃣ Решил взяться за написание открытого учебника по анализу данных на языке Python 😎 Главы буду публиковать по мере их написания тут 🐼
dfedorov.spb.ru
Введение в Pandas, NumPy, Matplotlib, Plotly, Altair для анализа данных
Python, Pandas, NumPy, Matplotlib, Plotly, Altair, Seaborn для анализа данных
1️⃣ Собрал небольшой мануал про регулярные выражения в pandas 🐼 Запустить можно в CoLab.
2️⃣ Работаю над главой учебника про pandas и упражнениями. Процесс идет. В мае опубликую 🥳 Принимаются предложения по составу учебника 📚
2️⃣ Работаю над главой учебника про pandas и упражнениями. Процесс идет. В мае опубликую 🥳 Принимаются предложения по составу учебника 📚
⚡Подготовил новый перевод кейса с упражнениями! 🐍
Разбираем проект по анализу данных: исследуем средний вес новорожденных (запустить в CoLab):
Этот пример демонстрирует важные шаги практически в любом проекте по анализу данных:
0⃣ Определение данных, которые помогут ответить на вопрос.
1⃣ Получение данных и их загрузка в Python.
2⃣ Проверка данных и устранение ошибок.
3⃣ Выбор соответствующих подмножеств из данных.
4⃣ Использование гистограмм для визуализации распределения значений.
5⃣ Использование сводной статистики для описания данных таким образом, чтобы наилучшим образом ответить на вопрос.
6⃣ Рассмотрение возможных источников ошибок и ограничений в наших выводах.
Остальные переводы доступны по ссылке 🐼
Разбираем проект по анализу данных: исследуем средний вес новорожденных (запустить в CoLab):
Этот пример демонстрирует важные шаги практически в любом проекте по анализу данных:
0⃣ Определение данных, которые помогут ответить на вопрос.
1⃣ Получение данных и их загрузка в Python.
2⃣ Проверка данных и устранение ошибок.
3⃣ Выбор соответствующих подмножеств из данных.
4⃣ Использование гистограмм для визуализации распределения значений.
5⃣ Использование сводной статистики для описания данных таким образом, чтобы наилучшим образом ответить на вопрос.
6⃣ Рассмотрение возможных источников ошибок и ограничений в наших выводах.
Остальные переводы доступны по ссылке 🐼
Google
Исследуем средний вес новорожденных.ipynb
Run, share, and edit Python notebooks
☀Несколько летних новостей 🐍
1⃣ записал небольшое видео про этапы анализа данных на языке Python, видео доступно по ссылке.
2⃣ также на днях вышло 3-е издание моего пособия по основам языка Python, бумажная версия представлена на сайте издательства.
📚 Остальные переводы, обзоры и кейсы по анализу данных по ссылке 🐼
1⃣ записал небольшое видео про этапы анализа данных на языке Python, видео доступно по ссылке.
2⃣ также на днях вышло 3-е издание моего пособия по основам языка Python, бумажная версия представлена на сайте издательства.
📚 Остальные переводы, обзоры и кейсы по анализу данных по ссылке 🐼
YouTube
Этапы анализа данных на языке Python
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
Подводим итоги. Самые популярные переводы по количеству просмотров за прошедший год 🐍
1⃣ Сводная таблица в pandas
2⃣ Обзор типов данных Pandas
3⃣ Подробное руководство по группировке и агрегированию с помощью pandas
4⃣ Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
⚡ Записал видео о причинах популярности языка Python 🐼
1⃣ Сводная таблица в pandas
2⃣ Обзор типов данных Pandas
3⃣ Подробное руководство по группировке и агрегированию с помощью pandas
4⃣ Разделение (биннинг, дискретизация, балансировка) данных с помощью qcut и cut в Pandas
⚡ Записал видео о причинах популярности языка Python 🐼
🔥 Подготовил новый перевод с кейсами: Исследуем отношение между переменными 🐼
1⃣ Мы будем визуализировать отношения с помощью диаграмм рассеяния (scatter plots), диаграмм размаха (box plots) и скрипичных диаграмм (violin plots).
2⃣ И количественно определять отношения, используя корреляцию (correlation) и простую регрессию (simple regression).
Самый важный урок этого блокнота заключается в том, что вы всегда должны визуализировать взаимосвязь между переменными, прежде чем пытаться ее количественно оценить; в противном случае вас могут ввести в заблуждение.
👉 Ссылка на html-версию
👉 Ссылка на Colab
🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
1⃣ Мы будем визуализировать отношения с помощью диаграмм рассеяния (scatter plots), диаграмм размаха (box plots) и скрипичных диаграмм (violin plots).
2⃣ И количественно определять отношения, используя корреляцию (correlation) и простую регрессию (simple regression).
Самый важный урок этого блокнота заключается в том, что вы всегда должны визуализировать взаимосвязь между переменными, прежде чем пытаться ее количественно оценить; в противном случае вас могут ввести в заблуждение.
👉 Ссылка на html-версию
👉 Ссылка на Colab
🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
👍3
🔥Подготовил новый перевод с кейсами 🕺
В этом блокноте используется вычислительный подход к пониманию вероятности. Мы будем использовать данные Общего социального опроса, чтобы вычислить вероятность таких предположений, как:
❓Если я выберу случайного респондента в опросе, какова вероятность, что это будут женщины?
❓Если я выберу случайного респондента, какова вероятность того, что он будет работать в банковской сфере?
Оттуда мы исследуем две взаимосвязанные концепции:
❗️Конъюнкция, которая представляет собой вероятность того, что оба утверждения верны; например, какова вероятность выбора женщины-банкира?
❗️Условная вероятность, которая представляет собой вероятность того, что одно утверждение верно, при условии, что верно другое; например, учитывая, что респондент - женщина, какова вероятность того, что она банкир? 🐼
👉Ссылка на html-версию
👉Ссылка на Colab
🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
В этом блокноте используется вычислительный подход к пониманию вероятности. Мы будем использовать данные Общего социального опроса, чтобы вычислить вероятность таких предположений, как:
❓Если я выберу случайного респондента в опросе, какова вероятность, что это будут женщины?
❓Если я выберу случайного респондента, какова вероятность того, что он будет работать в банковской сфере?
Оттуда мы исследуем две взаимосвязанные концепции:
❗️Конъюнкция, которая представляет собой вероятность того, что оба утверждения верны; например, какова вероятность выбора женщины-банкира?
❗️Условная вероятность, которая представляет собой вероятность того, что одно утверждение верно, при условии, что верно другое; например, учитывая, что респондент - женщина, какова вероятность того, что она банкир? 🐼
👉Ссылка на html-версию
👉Ссылка на Colab
🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
Google
Перевод
Run, share, and edit Python notebooks
👍1
🔥Подготовил новый перевод про возможности библиотеки HoloViz с кейсами 🕺
API-интерфейс Pandas .plot() стал де-факто стандартом для высокоуровневого построения графиков в Python и теперь поддерживается множеством различных библиотек, которые используют набор базовых механизмов построения графиков для обеспечения дополнительных возможностей.
В этом блокноте мы исследуем возможности стандартного API .plot и продемонстрируем дополнительные возможности, предоставляемые .hvplot, которые включают бесшовную интерактивность в развернутых информационных панелях и рендеринг на стороне сервера больших наборов данных.
Чтобы показать эти особенности, мы будем использовать набор данных в виде таблиц о землетрясениях.
👉Ссылка на html-версию
🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
API-интерфейс Pandas .plot() стал де-факто стандартом для высокоуровневого построения графиков в Python и теперь поддерживается множеством различных библиотек, которые используют набор базовых механизмов построения графиков для обеспечения дополнительных возможностей.
В этом блокноте мы исследуем возможности стандартного API .plot и продемонстрируем дополнительные возможности, предоставляемые .hvplot, которые включают бесшовную интерактивность в развернутых информационных панелях и рендеринг на стороне сервера больших наборов данных.
Чтобы показать эти особенности, мы будем использовать набор данных в виде таблиц о землетрясениях.
👉Ссылка на html-версию
🐍 Остальные переводы по ссылке: https://dfedorov.spb.ru/pandas/
dfedorov.spb.ru
Введение в Pandas, NumPy, Matplotlib, Plotly, Altair для анализа данных
Python, Pandas, NumPy, Matplotlib, Plotly, Altair, Seaborn для анализа данных
🔥7👍1
🐍 После длительного перерыва вернулся с хорошими новостями.
Разместил свой полный курс видео по Python и анализу данных: https://dfedorov.spb.ru/python3/
Разместил свой полный курс видео по Python и анализу данных: https://dfedorov.spb.ru/python3/
dfedorov.spb.ru
Программирование на языке высокого уровня Python
Программирование на Python. Уроки для начинающих на языке программирования Python
🔥84👍14👎1
Почти год прошел с момента прошлой публикации.
Пакет pandas по-прежнему продолжает набирать популярность: создается множество модулей, использующих тип DataFrame в качестве обмена данными.
Визуализация в Python становится ближе к пользователю, а на моем сайте появилось несколько новых разделов! 😇
👉Учебники по анализу данных на Python (в оригинале) - обновляемая подборка открытых учебников на языке Python. Здесь собраны топовые учебные курсы и книги. Разместил ссылки в порядке убывания их значимости.
👉Справочники и учебники по визуализации (в оригинале) - подборка открытых учебных курсов и статей о визуализации: Streamlit, Vega-Lite, Altair и пр.
👉Python и кибербезопасность - здесь добавил обзор модуля MSTICPy (пакет от Microsoft для анализа инцидентов ИБ), способ обработки хеш-значений и PE/ELF-файлов на языке Python, пример нечеткого хеширования, простую обработку YARA-правил.
👉Дополнительные темы по языку Python - здесь немного про устройство виртуальной машины Python, пример 1 и пример 2 создания простого модуля на языке Си.
❗️Добавил новые справочные презентации по основам pandas: тип Series, тип DataFrame, сводные таблицы, агрегирование и группировка, слияние и соединение, объединение наборов данных, приведение данных в порядок и пр.
Пакет pandas по-прежнему продолжает набирать популярность: создается множество модулей, использующих тип DataFrame в качестве обмена данными.
Визуализация в Python становится ближе к пользователю, а на моем сайте появилось несколько новых разделов! 😇
👉Учебники по анализу данных на Python (в оригинале) - обновляемая подборка открытых учебников на языке Python. Здесь собраны топовые учебные курсы и книги. Разместил ссылки в порядке убывания их значимости.
👉Справочники и учебники по визуализации (в оригинале) - подборка открытых учебных курсов и статей о визуализации: Streamlit, Vega-Lite, Altair и пр.
👉Python и кибербезопасность - здесь добавил обзор модуля MSTICPy (пакет от Microsoft для анализа инцидентов ИБ), способ обработки хеш-значений и PE/ELF-файлов на языке Python, пример нечеткого хеширования, простую обработку YARA-правил.
👉Дополнительные темы по языку Python - здесь немного про устройство виртуальной машины Python, пример 1 и пример 2 создания простого модуля на языке Си.
❗️Добавил новые справочные презентации по основам pandas: тип Series, тип DataFrame, сводные таблицы, агрегирование и группировка, слияние и соединение, объединение наборов данных, приведение данных в порядок и пр.
👏95👎1
Позитивная команда 🟥 в поисках аналитика данных (удаленка + офис в Москве).
👉 Требуемые знания, навыки и опыт:
- высшее образование математическое/техническое;
- опыт работы на позиции системного аналитика/бизнес аналитика от 2х лет;
- опыт работы с BI инструментами;
- опыт работы с ETL-инструментами;
- опыт работы с DWH (Clickhouse/Arenadata/Apache Hadoop);
- опыт участия в процессах Управления Данными, Управления Качеством данных;
- опыт проведения бизнес/системного анализа, формализации требований;
- знание SQL на базовом уровне (select, join, update, insert, case).
👉 Задачи:
- разработка технический требований для построения дашбордов/витрин/отчетности
- разработка макетов дашбордов/витрин/отчетности;
- участие в улучшении качества данных посредством изменения бизнес-процессов добавление необходимых метрик и т.д.;
- анализ систем-источников в компании, подготовка бизнес требований и функциональных требований для сбора данных под расчет метрик;
- анализ альтернативных источников данных в компании для обогащения отчетности и оптимизации их сбора;
- написание технических заданий на доработку систем-источников, хранилища данных;
- подготовка дата-сетов (набора данных) и использование их в BI инструменте;
- проведение обучения бизнес пользователей по построению дашбордов в BI на подготовленных ранее наборах данных;
- участие в демо и тестировании дашбордов/витрин/отчетности.
#вакансии
- высшее образование математическое/техническое;
- опыт работы на позиции системного аналитика/бизнес аналитика от 2х лет;
- опыт работы с BI инструментами;
- опыт работы с ETL-инструментами;
- опыт работы с DWH (Clickhouse/Arenadata/Apache Hadoop);
- опыт участия в процессах Управления Данными, Управления Качеством данных;
- опыт проведения бизнес/системного анализа, формализации требований;
- знание SQL на базовом уровне (select, join, update, insert, case).
- разработка технический требований для построения дашбордов/витрин/отчетности
- разработка макетов дашбордов/витрин/отчетности;
- участие в улучшении качества данных посредством изменения бизнес-процессов добавление необходимых метрик и т.д.;
- анализ систем-источников в компании, подготовка бизнес требований и функциональных требований для сбора данных под расчет метрик;
- анализ альтернативных источников данных в компании для обогащения отчетности и оптимизации их сбора;
- написание технических заданий на доработку систем-источников, хранилища данных;
- подготовка дата-сетов (набора данных) и использование их в BI инструменте;
- проведение обучения бизнес пользователей по построению дашбордов в BI на подготовленных ранее наборах данных;
- участие в демо и тестировании дашбордов/витрин/отчетности.
#вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👎1
Коллеги, поделитесь, какие технологии / языки, помимо Python, вы активно используете для обработки данных?
Anonymous Poll
10%
Bash
3%
PowerShell
1%
Rust
56%
Excel
76%
SQL
12%
R
5%
JavaScript
1%
C#
1%
Julia
2%
Java