Машинное обучение в биологии и биомедицине | OpenBio.Edu
2.76K subscribers
272 photos
25 videos
1 file
200 links
Актуальные новости, вакансии и образовательные материалы о машинном обучении в биологии и биомедицине.

❗️3 ноября — старт нового потока единственной программы с кейсами по Computer Vision в биомедицине и ML от OpenBio.
Подробнее: https://clck.ru/3Cjbu5
Download Telegram
Группировка и агрегация данных с помощью pandas 📊

Продолжаем знакомиться с функционалом pandas! В этот раз поговорим об еще одном важном инструменте — объединении данных в группы для раздельного анализа. Библиотека pandas предоставляет простой набор команд, который позволяет вычислить статистику для отдельных групп внутри датасета и создать сводные таблицы для отчетности и визуализации.

▫️ Как это делать?

Метод groupby() при применении к датафрейму pandas разделяет его на группы на основании определенного критерия. В простейшем случае данные можно группировать по значениям в отдельных столбцах таблицы — тогда критерием будет название нужного столбца.

Агрегация в pandas предоставляет различные функции, которые выполняют математические или логические операции над набором данных.
Самые частые из них:

sum() Сумма значений в столбце
min() Минимальное значение
max() Максимальное значение
mean() Среднее значение
count() Количество значений в столбце
std() Стандартное отклонение
var() Дисперсия значений
sem() Стандартная ошибка среднего

▫️ Примеры использования

Для иллюстрации возможностей группировки в pandas рассмотрим вымышленный датасет с данными о пациентах:

import pandas as pd

data = {
'Пациент': ['А', 'Б', 'В', 'Г', 'Д', 'Е', 'Ж', 'З'],
'Возраст': [25, 30, 22, 35, 28, 40, 22, 30],
'Страховка': ['Есть', 'Нет', 'Нет', 'Есть', 'Нет', 'Есть', 'Есть', 'Нет'],
'Диагноз': ['Грипп', 'Грипп', 'ОРВИ', 'Грипп', 'ОРВИ', 'ОРВИ', 'Грипп', 'ОРВИ'],
'Стоимость лечения': [1000, 1200, 800, 1500, 900, 1100, 1300, 950]
}

df = pd.DataFrame(data)
df


Мы можем сгруппировать данные по одному из параметров, например, диагнозу, и подсчитать количество пациентов с каждым диагнозом:

grouped = df.groupby('Диагноз')['Пациент'].count()
print(grouped)


● В круглых скобках (в аргументе функции) записывается название столбца, на основании которого мы будем выделять группы.
● В квадратных скобках мы обозначили, с какими данными мы хотим работать после группировки. К ним будут применяться функции для агрегации.


Чтобы сгруппировать данные по нескольким параметрам, нужно передать их функции в виде списка - в квадратных скобках.

grouped = df.groupby(['Диагноз', 'Страховка'])['Пациент'].count()
print(grouped)


К числовым значениям можно применять математические функции, такие как суммирование, вычисление среднего и другие:

# Суммарные затраты на лечение для каждого диагноза
sum_grouped = df.groupby('Диагноз')['Стоимость лечения'].sum()
print(sum_grouped)

# Средний возраст пациентов с каждым диагнозом
age_grouped = df.groupby('Диагноз')['Возраст'].mean()
print(mean_age_grouped)


Таким образом, сочетание разных подходов к группировке и множества агрегирующих функций обеспечивает возможность глубокого и гибкого анализа.

▫️ Где еще это пригодится?

Группировка и агрегация данных необходима для построения некоторых графиков.
Рассмотрим один пример: посчитаем сумму затрат на лечение для каждого диагноза (как мы уже сделали в примере выше) и построим пайчарт.

import matplotlib.pyplot as plt

# 1. Группировка данных по диагнозу и подсчет суммы затрат на лечение
diagnosis_costs = df.groupby('Диагноз')['Стоимость лечения'].sum()

# 2. Построение пайчарта
plt.figure(figsize=(8, 6)) # Создаем рисунок размером 8х6
plt.pie(diagnosis_costs, # Создаем пайчарт
labels=diagnosis_costs.index, # Подписываем каждый сектор названием диагноза
autopct='%1.1f%%') # Добавляем на диаграмму процентные значения
plt.show()


🧑🏼‍💻 Попробуйте сами! Не стесняйтесь копировать код из постов и пробовать работать с ним — это точно поможет лучше разобраться в новых методах.

И неспроста мы коснулись темы графиков — в следующих постах нас ждет обсуждение библиотек для визуализации данных в Python!

Уверены, что это поможет вам укрепить техническую базу и подготовиться к курсу «Машинное обучение в биологии и биомедицине» от OpenBio 🎓👾


#openbio_pandas #openbio_visualization
👍2🔥2
Опубликован материал, созданный совместно с редакцией N+1 методистом нашего курса «Машинное обучение в биологии и биомедицине» Анной Новокрещеновой!

Приходите на курс, чтобы узнать больше о тонкостях работы в этой сфере и научиться создавать эффективные и полезные модели машинного обучения для ваших задач.

Приятного чтения!

#сми_о_нас
👍3🔥3😍2
Forwarded from N + 1
Модели на основе ИИ и машинного обучения еще не достигли идеальной точности, но уже могут соперничать с опытными врачами в диагностике по изображениям. Рассказываем, почему нельзя просто взять и научить ИИ находить опухоль со стопроцентной вероятностью

#ПартнерскийМатериал | #Медицина | #IT | *4.7
👍3🔥2
Однажды, после черной-черной пятницы, когда осенние скидки уже закончились, а новогодние распродажи еще и не думали начинаться, преподаватель курса «Машинное обучение в биологии и биомедицине» получил на проверку вот такое домашнее задание, и был очень... удивлен.

А вы сможете догадаться, что именно так удивило нашего преподавателя?

Спойлер: самые внимательные смогут записаться на весенний поток курса «Машинное обучение в биологии и биомедицине» со скидкой 20%, но только до 9 декабря 🙃

#в_openbio_тоже_шутят
😁6🔥2🤓2
Media is too big
VIEW IN TELEGRAM
📈 Построение успешной карьеры (и особенно выход на руководящие должности) требует постоянного развития навыков, причем важно уделять внимание не только hard skills, но и soft skills. И сфера биоинформатики — не исключение.

Сегодня мы поделимся с вами фрагментом интервью одного из спикеров курса «Машинное обучение в биологии и биоинформатике» Александра Сарачакова, в котором Александр рассказывает о своем походе к сложным, многоуровневым задачам.

Кстати, у вас еще есть возможность узнать больше про опыт и карьерный трек Александра на новом онлайн-вебинаре из серии «Личный путь в сеньора биоинформатика»!

📌 Встреча состоится уже завтра, 10 декабря, в 19:00 по Мск.

Регистрируйтесь, чтобы получить ссылку-приглашение на вебинар, а вопросы для Александра оставляйте в комментариях к этому посту.

До встречи в прямом эфире!

#openbio_webinar
#openbio_interview
#openbio_expert
👍6🔥43
На нашем канале уже появилось несколько относительно продвинутых материалов по Python и pandas, но что делать, если вы еще вообще не брались за изучение питона или забыли некоторые основные темы?

В этом посте мы собрали несколько бесплатных полезных источников, которые помогут вам подтянуть самые базовые принципы программирования на Python, от теории до практики. С этими знаниями вы легко сориентируетесь в дальнейших темах, которые мы рассмотрим на курсе «Машинное обучение в биологии и биомедицине»!

📚 Python for Data Analysis, Wes McKinney
Учебник по питону от популярного издательства O’Reilly, доступный онлайн в html формате, подробно объясняет принципы работы как Python в целом, так и отдельных библиотек, включая pandas, matplotlib и другие.

Из личного опыта методиста OpenBio: примеры кода и сопровождающие их объяснения в этой книге помогли открыть третий глаз глубоко разобраться в сути отдельных команд и лучше усвоить несколько тем, раньше казавшихся сложными.

📚 Видеоуроки Python на YouTube
Если вам удобнее воспринимать информацию в видео формате, то на помощь придет YouTube. Вот лишь пара примеров каналов, на русском и английском языках, которые содержат подробные разборы методов и библиотек Python и не только.

📚 Документация
Максимально простой в плане доступности, но, возможно, не в плане восприятия, способ ознакомиться с Python и его библиотеками – прочитать официальную документацию, которая хранится в открытом доступе. Хотя в документации можно найти подробнейшее описание любой функции и примеров ее использования, информация может быть представлена в довольно сухом техническом виде, сложном для восприятия.

Плюсом является то, что документация часто содержит так называемые quick start guides для начинающих, которые предлагают вводные уроки и простые примеры. Такие есть, например, для библиотек pandas и matplotlib.

📚 Онлайн сборники упражнений по питону
А если вы уже чувствуете уверенность в своих навыках программирования и рветесь пустить их в ход, обратите внимание на сайты вроде Hackinscience, Practice Python и введение в pandas от LeetCode, которые предлагают упражнения и задачи по питону с разными уровнями сложности. Практика рождает совершенство, поэтому не бойтесь пробовать себя в решениях!

А если обилие источников вызывает у вас вопросы из серии «с чего же мне начать?» или «что теперь со всем этим делать?», то:

приглашаем вас сегодня, 10 декабря в 19:00 по Мск на вебинар с Александром Сарачаковым (Team Leader команды Imaging & Deep learning в BostonGene, преподаватель курса «Машинное обучение в
биологии и биомедицине»).

Александр расскажет про свой опыт построения карьеры в сфере биоинформатики, а также ответит на ваши вопросы!

✍️ Пишите ваши вопросы в комментариях к этому посту, чтобы они точно были озвучены в эфире.

❗️Регистрируйтесь на сайте, и после обязательно подключите нашего чат-бота, чтобы получить ссылку на эфир.


#openbio_python #openbio_pandas #openbio_practice
👍7🔥3🤓2
Статистический анализ в Python📊

В прошлых постах мы познакомились с основами работы с данными в pandas: фильтрацией значений, предварительной обработкой датасетов, группировкой и агрегацией данных.

Мы уже можем замечать интересные распределения или неожиданные закономерности в наших данных, но как подтвердить наши догадки? 🤔 На помощь придет статистический анализ!

Чувствуете в себе силы и желание погрузиться в эту область глубже? Тогда ждем вас на курсе «Машинное обучение в биологии и биомедицине»!

#openbio_python
👍5😍21🤓1
Друзья! Мы разобрали несколько тем по Python и отдельным библиотекам, чтобы вооружиться необходимыми перед стартом курса «Машинное обучение в биологии и биомедицине» от OpenBio знаниями.

Для того, чтобы сделать будущие посты еще более эффективными, нам важна ваша обратная связь. 🤝

Поэтому мы предлагаем поделиться вашими впечатлениями о последних материалах по Python с помощью опросов, которые будут ниже👇. А если вам тесно в рамках опроса, ждем ваши вопросы, замечания и наблюдения в комментариях к этому посту!

В благодарность за уделенное время, каждому, кто поделится мнением в опросе или в комментариях, мы пришлем гайд со списком литературы и ресурсов по изучению ML. 📕

Всем удачных исследований и хорошей пятницы 😉

#openbio_опрос
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1