Группировка и агрегация данных с помощью pandas 📊
Продолжаем знакомиться с функционалом pandas! В этот раз поговорим об еще одном важном инструменте — объединении данных в группы для раздельного анализа. Библиотека pandas предоставляет простой набор команд, который позволяет вычислить статистику для отдельных групп внутри датасета и создать сводные таблицы для отчетности и визуализации.
▫️ Как это делать?
Метод
Агрегация в pandas предоставляет различные функции, которые выполняют математические или логические операции над набором данных.
Самые частые из них:
●
●
●
●
●
●
●
●
▫️ Примеры использования
Для иллюстрации возможностей группировки в pandas рассмотрим вымышленный датасет с данными о пациентах:
Мы можем сгруппировать данные по одному из параметров, например, диагнозу, и подсчитать количество пациентов с каждым диагнозом:
Чтобы сгруппировать данные по нескольким параметрам, нужно передать их функции в виде списка - в квадратных скобках.
К числовым значениям можно применять математические функции, такие как суммирование, вычисление среднего и другие:
Таким образом, сочетание разных подходов к группировке и множества агрегирующих функций обеспечивает возможность глубокого и гибкого анализа.
▫️ Где еще это пригодится?
Группировка и агрегация данных необходима для построения некоторых графиков.
Рассмотрим один пример: посчитаем сумму затрат на лечение для каждого диагноза (как мы уже сделали в примере выше) и построим пайчарт.
🧑🏼💻 Попробуйте сами! Не стесняйтесь копировать код из постов и пробовать работать с ним — это точно поможет лучше разобраться в новых методах.
И неспроста мы коснулись темы графиков — в следующих постах нас ждет обсуждение библиотек для визуализации данных в Python!
#openbio_pandas #openbio_visualization
Продолжаем знакомиться с функционалом pandas! В этот раз поговорим об еще одном важном инструменте — объединении данных в группы для раздельного анализа. Библиотека pandas предоставляет простой набор команд, который позволяет вычислить статистику для отдельных групп внутри датасета и создать сводные таблицы для отчетности и визуализации.
▫️ Как это делать?
Метод
groupby() при применении к датафрейму pandas разделяет его на группы на основании определенного критерия. В простейшем случае данные можно группировать по значениям в отдельных столбцах таблицы — тогда критерием будет название нужного столбца.Агрегация в pandas предоставляет различные функции, которые выполняют математические или логические операции над набором данных.
Самые частые из них:
●
sum() Сумма значений в столбце●
min() Минимальное значение●
max() Максимальное значение●
mean() Среднее значение●
count() Количество значений в столбце●
std() Стандартное отклонение ●
var() Дисперсия значений●
sem() Стандартная ошибка среднего▫️ Примеры использования
Для иллюстрации возможностей группировки в pandas рассмотрим вымышленный датасет с данными о пациентах:
import pandas as pd
data = {
'Пациент': ['А', 'Б', 'В', 'Г', 'Д', 'Е', 'Ж', 'З'],
'Возраст': [25, 30, 22, 35, 28, 40, 22, 30],
'Страховка': ['Есть', 'Нет', 'Нет', 'Есть', 'Нет', 'Есть', 'Есть', 'Нет'],
'Диагноз': ['Грипп', 'Грипп', 'ОРВИ', 'Грипп', 'ОРВИ', 'ОРВИ', 'Грипп', 'ОРВИ'],
'Стоимость лечения': [1000, 1200, 800, 1500, 900, 1100, 1300, 950]
}
df = pd.DataFrame(data)
df
Мы можем сгруппировать данные по одному из параметров, например, диагнозу, и подсчитать количество пациентов с каждым диагнозом:
grouped = df.groupby('Диагноз')['Пациент'].count()
print(grouped)● В круглых скобках (в аргументе функции) записывается название столбца, на основании которого мы будем выделять группы.
● В квадратных скобках мы обозначили, с какими данными мы хотим работать после группировки. К ним будут применяться функции для агрегации.
Чтобы сгруппировать данные по нескольким параметрам, нужно передать их функции в виде списка - в квадратных скобках.
grouped = df.groupby(['Диагноз', 'Страховка'])['Пациент'].count()
print(grouped)
К числовым значениям можно применять математические функции, такие как суммирование, вычисление среднего и другие:
# Суммарные затраты на лечение для каждого диагноза
sum_grouped = df.groupby('Диагноз')['Стоимость лечения'].sum()
print(sum_grouped)
# Средний возраст пациентов с каждым диагнозом
age_grouped = df.groupby('Диагноз')['Возраст'].mean()
print(mean_age_grouped)
Таким образом, сочетание разных подходов к группировке и множества агрегирующих функций обеспечивает возможность глубокого и гибкого анализа.
▫️ Где еще это пригодится?
Группировка и агрегация данных необходима для построения некоторых графиков.
Рассмотрим один пример: посчитаем сумму затрат на лечение для каждого диагноза (как мы уже сделали в примере выше) и построим пайчарт.
import matplotlib.pyplot as plt
# 1. Группировка данных по диагнозу и подсчет суммы затрат на лечение
diagnosis_costs = df.groupby('Диагноз')['Стоимость лечения'].sum()
# 2. Построение пайчарта
plt.figure(figsize=(8, 6)) # Создаем рисунок размером 8х6
plt.pie(diagnosis_costs, # Создаем пайчарт
labels=diagnosis_costs.index, # Подписываем каждый сектор названием диагноза
autopct='%1.1f%%') # Добавляем на диаграмму процентные значения
plt.show()
🧑🏼💻 Попробуйте сами! Не стесняйтесь копировать код из постов и пробовать работать с ним — это точно поможет лучше разобраться в новых методах.
И неспроста мы коснулись темы графиков — в следующих постах нас ждет обсуждение библиотек для визуализации данных в Python!
Уверены, что это поможет вам укрепить техническую базу и подготовиться к курсу «Машинное обучение в биологии и биомедицине» от OpenBio 🎓👾
#openbio_pandas #openbio_visualization
👍2🔥2
Опубликован материал, созданный совместно с редакцией N+1 методистом нашего курса «Машинное обучение в биологии и биомедицине» Анной Новокрещеновой!
Приходите на курс, чтобы узнать больше о тонкостях работы в этой сфере и научиться создавать эффективные и полезные модели машинного обучения для ваших задач.
Приятного чтения!
#сми_о_нас
Приходите на курс, чтобы узнать больше о тонкостях работы в этой сфере и научиться создавать эффективные и полезные модели машинного обучения для ваших задач.
Приятного чтения!
#сми_о_нас
edu.openbio.ru
Машинное обучение в биологии и биомедицине
Курсы по машинному обучению в биологии и биомедицине
👍3🔥3😍2
Forwarded from N + 1
Модели на основе ИИ и машинного обучения еще не достигли идеальной точности, но уже могут соперничать с опытными врачами в диагностике по изображениям. Рассказываем, почему нельзя просто взять и научить ИИ находить опухоль со стопроцентной вероятностью
#ПартнерскийМатериал | #Медицина | #IT | *4.7
#ПартнерскийМатериал | #Медицина | #IT | *4.7
👍3🔥2
Однажды, после черной-черной пятницы, когда осенние скидки уже закончились, а новогодние распродажи еще и не думали начинаться, преподаватель курса «Машинное обучение в биологии и биомедицине» получил на проверку вот такое домашнее задание, и был очень... удивлен.
А вы сможете догадаться, что именно так удивило нашего преподавателя?
Спойлер: самые внимательные смогутзаписаться на весенний поток курса «Машинное обучение в биологии и биомедицине» со скидкой 20% , но только до 9 декабря 🙃
#в_openbio_тоже_шутят
А вы сможете догадаться, что именно так удивило нашего преподавателя?
Спойлер: самые внимательные смогут
#в_openbio_тоже_шутят
😁6🔥2🤓2
Media is too big
VIEW IN TELEGRAM
📈 Построение успешной карьеры (и особенно выход на руководящие должности) требует постоянного развития навыков, причем важно уделять внимание не только hard skills, но и soft skills. И сфера биоинформатики — не исключение.
Сегодня мы поделимся с вами фрагментом интервью одного из спикеров курса «Машинное обучение в биологии и биоинформатике» Александра Сарачакова, в котором Александр рассказывает о своем походе к сложным, многоуровневым задачам.
Кстати, у вас еще есть возможность узнать больше про опыт и карьерный трек Александра на новом онлайн-вебинаре из серии «Личный путь в сеньора биоинформатика»!
📌 Встреча состоится уже завтра, 10 декабря, в 19:00 по Мск.
Регистрируйтесь, чтобы получить ссылку-приглашение на вебинар, а вопросы для Александра оставляйте в комментариях к этому посту.
До встречи в прямом эфире!
#openbio_webinar
#openbio_interview
#openbio_expert
Сегодня мы поделимся с вами фрагментом интервью одного из спикеров курса «Машинное обучение в биологии и биоинформатике» Александра Сарачакова, в котором Александр рассказывает о своем походе к сложным, многоуровневым задачам.
Кстати, у вас еще есть возможность узнать больше про опыт и карьерный трек Александра на новом онлайн-вебинаре из серии «Личный путь в сеньора биоинформатика»!
📌 Встреча состоится уже завтра, 10 декабря, в 19:00 по Мск.
Регистрируйтесь, чтобы получить ссылку-приглашение на вебинар, а вопросы для Александра оставляйте в комментариях к этому посту.
До встречи в прямом эфире!
#openbio_webinar
#openbio_interview
#openbio_expert
👍6🔥4⚡3
На нашем канале уже появилось несколько относительно продвинутых материалов по Python и pandas, но что делать, если вы еще вообще не брались за изучение питона или забыли некоторые основные темы?
В этом посте мы собрали несколько бесплатных полезных источников, которые помогут вам подтянуть самые базовые принципы программирования на Python, от теории до практики. С этими знаниями вы легко сориентируетесь в дальнейших темах, которые мы рассмотрим на курсе «Машинное обучение в биологии и биомедицине»!
📚 Python for Data Analysis, Wes McKinney
Учебник по питону от популярного издательства O’Reilly, доступный онлайн в html формате, подробно объясняет принципы работы как Python в целом, так и отдельных библиотек, включая pandas, matplotlib и другие.
Из личного опыта методиста OpenBio: примеры кода и сопровождающие их объяснения в этой книге помоглиоткрыть третий глаз глубоко разобраться в сути отдельных команд и лучше усвоить несколько тем, раньше казавшихся сложными.
📚 Видеоуроки Python на YouTube
Если вам удобнее воспринимать информацию в видео формате, то на помощь придет YouTube. Вот лишь пара примеров каналов, на русском и английском языках, которые содержат подробные разборы методов и библиотек Python и не только.
📚 Документация
Максимально простой в плане доступности, но, возможно, не в плане восприятия, способ ознакомиться с Python и его библиотеками – прочитать официальную документацию, которая хранится в открытом доступе. Хотя в документации можно найти подробнейшее описание любой функции и примеров ее использования, информация может быть представлена в довольно сухом техническом виде, сложном для восприятия.
Плюсом является то, что документация часто содержит так называемые quick start guides для начинающих, которые предлагают вводные уроки и простые примеры. Такие есть, например, для библиотек pandas и matplotlib.
📚 Онлайн сборники упражнений по питону
А если вы уже чувствуете уверенность в своих навыках программирования и рветесь пустить их в ход, обратите внимание на сайты вроде Hackinscience, Practice Python и введение в pandas от LeetCode, которые предлагают упражнения и задачи по питону с разными уровнями сложности. Практика рождает совершенство, поэтому не бойтесь пробовать себя в решениях!
#openbio_python #openbio_pandas #openbio_practice
В этом посте мы собрали несколько бесплатных полезных источников, которые помогут вам подтянуть самые базовые принципы программирования на Python, от теории до практики. С этими знаниями вы легко сориентируетесь в дальнейших темах, которые мы рассмотрим на курсе «Машинное обучение в биологии и биомедицине»!
📚 Python for Data Analysis, Wes McKinney
Учебник по питону от популярного издательства O’Reilly, доступный онлайн в html формате, подробно объясняет принципы работы как Python в целом, так и отдельных библиотек, включая pandas, matplotlib и другие.
Из личного опыта методиста OpenBio: примеры кода и сопровождающие их объяснения в этой книге помогли
📚 Видеоуроки Python на YouTube
Если вам удобнее воспринимать информацию в видео формате, то на помощь придет YouTube. Вот лишь пара примеров каналов, на русском и английском языках, которые содержат подробные разборы методов и библиотек Python и не только.
📚 Документация
Максимально простой в плане доступности, но, возможно, не в плане восприятия, способ ознакомиться с Python и его библиотеками – прочитать официальную документацию, которая хранится в открытом доступе. Хотя в документации можно найти подробнейшее описание любой функции и примеров ее использования, информация может быть представлена в довольно сухом техническом виде, сложном для восприятия.
Плюсом является то, что документация часто содержит так называемые quick start guides для начинающих, которые предлагают вводные уроки и простые примеры. Такие есть, например, для библиотек pandas и matplotlib.
📚 Онлайн сборники упражнений по питону
А если вы уже чувствуете уверенность в своих навыках программирования и рветесь пустить их в ход, обратите внимание на сайты вроде Hackinscience, Practice Python и введение в pandas от LeetCode, которые предлагают упражнения и задачи по питону с разными уровнями сложности. Практика рождает совершенство, поэтому не бойтесь пробовать себя в решениях!
А если обилие источников вызывает у вас вопросы из серии «с чего же мне начать?» или «что теперь со всем этим делать?», то:
приглашаем вас сегодня, 10 декабря в 19:00 по Мск на вебинар с Александром Сарачаковым (Team Leader команды Imaging & Deep learning в BostonGene, преподаватель курса «Машинное обучение в
биологии и биомедицине»).
Александр расскажет про свой опыт построения карьеры в сфере биоинформатики, а также ответит на ваши вопросы!
✍️ Пишите ваши вопросы в комментариях к этому посту, чтобы они точно были озвучены в эфире.
❗️Регистрируйтесь на сайте, и после обязательно подключите нашего чат-бота, чтобы получить ссылку на эфир.
#openbio_python #openbio_pandas #openbio_practice
👍7🔥3🤓2
Статистический анализ в Python📊
В прошлых постах мы познакомились с основами работы с данными в pandas: фильтрацией значений, предварительной обработкой датасетов, группировкой и агрегацией данных.
Мы уже можем замечать интересные распределения или неожиданные закономерности в наших данных, но как подтвердить наши догадки? 🤔 На помощь придет статистический анализ!
Чувствуете в себе силы и желание погрузиться в эту область глубже? Тогда ждем вас на курсе «Машинное обучение в биологии и биомедицине»!
#openbio_python
В прошлых постах мы познакомились с основами работы с данными в pandas: фильтрацией значений, предварительной обработкой датасетов, группировкой и агрегацией данных.
Мы уже можем замечать интересные распределения или неожиданные закономерности в наших данных, но как подтвердить наши догадки? 🤔 На помощь придет статистический анализ!
Чувствуете в себе силы и желание погрузиться в эту область глубже? Тогда ждем вас на курсе «Машинное обучение в биологии и биомедицине»!
#openbio_python
👍5😍2⚡1🤓1
Друзья! Мы разобрали несколько тем по Python и отдельным библиотекам, чтобы вооружиться необходимыми перед стартом курса «Машинное обучение в биологии и биомедицине» от OpenBio знаниями.
Для того, чтобы сделать будущие посты еще более эффективными, нам важна ваша обратная связь.🤝
Поэтому мы предлагаем поделиться вашими впечатлениями о последних материалах по Python с помощью опросов, которые будут ниже👇. А если вам тесно в рамках опроса, ждем ваши вопросы, замечания и наблюдения в комментариях к этому посту!
В благодарность за уделенное время, каждому, кто поделится мнением в опросе или в комментариях, мы пришлем гайд со списком литературы и ресурсов по изучению ML.📕
Всем удачных исследований и хорошей пятницы 😉
#openbio_опрос
Для того, чтобы сделать будущие посты еще более эффективными, нам важна ваша обратная связь.
Поэтому мы предлагаем поделиться вашими впечатлениями о последних материалах по Python с помощью опросов, которые будут ниже👇. А если вам тесно в рамках опроса, ждем ваши вопросы, замечания и наблюдения в комментариях к этому посту!
В благодарность за уделенное время, каждому, кто поделится мнением в опросе или в комментариях, мы пришлем гайд со списком литературы и ресурсов по изучению ML.
Всем удачных исследований и хорошей пятницы 😉
#openbio_опрос
Please open Telegram to view this post
VIEW IN TELEGRAM
edu.openbio.ru
Машинное обучение в биологии и биомедицине
Курсы по машинному обучению в биологии и биомедицине
👍4⚡1🔥1