Машинное обучение в биологии и биомедицине | OpenBio.Edu
2.76K subscribers
272 photos
25 videos
1 file
200 links
Актуальные новости, вакансии и образовательные материалы о машинном обучении в биологии и биомедицине.

❗️3 ноября — старт нового потока единственной программы с кейсами по Computer Vision в биомедицине и ML от OpenBio.
Подробнее: https://clck.ru/3Cjbu5
Download Telegram
Forwarded from N + 1
Что объединяет студента-биолога, врача-диагноста, team-лида научной группы и Python-разработчика? Им всем актуальны знания о машинном обучении.

Если вы хотите войти в самую перспективную, быстро развивающуюся сферу Data Science и получить опыт, который сделает вас в 2 раза востребованнее, в том числе и на международном рынке — приходите на курс «ML в биологии и биомедицине» от OpenBio.

Дарим скидку 15% по промокоду PLUS, а всем студентам по умолчанию 30%.

Регистрируйтесь: https://clck.ru/3DUY59
👍4
🗓 1 октября стартовал курс повышения квалификации «Машинное обучение в биологии и медицине».

Участники начали с первого модуля с основных задач ML в виде логической и линейной регрессии, cкоро знакомимся с библиотеками Numpy, Pandas, Sklearn, Seaborn, и изучим каталог методов классического ML!

Впереди 10 недель обучения, общения с единомышленниками и несколько встреч по карьерному развитию в биотехе.

Желаем всем участникам плавного и комфортного погружения в мир машинного обучения, и надеемся, что с нами изучение новой сферы будет увлекательным и по-настоящему качественным.

🔗 Присоединиться еще не поздно! Сделать это можно по ссылке (спойлер: есть возможность получить скидку)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Двусторонняя поддержка: взаимодействие индустрии и сферы образования для развития ИТ-сектора 👩🏻‍🎓📈

Требования к профессиональным навыкам в сфере информационных технологий (ИТ) постоянно меняются. В то время как высшее образование в России часто акцентируется на теории, приводя к недостатку практических навыков у выпускников, для успешного перехода в индустрию образование в ИТ должно ориентироваться на практику.

Крупные компании и университеты объединяют усилия в подготовке кадров и сокращают разрыв между теорией и практикой. Приведем примеры инициатив в области вычислительной биологии и биомедицины в России.

🔸 В рамках программы «Анализ данных в биологии и медицине», с сентября 2024 года эксперты компании Genotek ведут курсы по молекулярной биологии, биоинформатике и персонализированной медицине на Факультете Компьютерных Наук НИУ ВШЭ. Также магистерскую программу в ВШЭ для решения задач фармакологии открыл BIOCAD. Программы предлагают студентам и теоретические знания и практические навыки, а также открывают возможность трудоустройства в ведущих биомедицинских компаниях.

🔸 Научно-учебная лаборатория Яндекса на базе ФКН НИУ ВШЭ фокусируется на компьютерном зрении, NLP и машинном обучении, предоставляя студентам возможность стажировок и взаимодействия с исследователями Yandex Research. С 2015 по 2023 год факультет уже выпустил 3385 специалистов.

🔸 Программа «Машинное обучение в биологии» от ФББ МГУ совместно с фондом “Интеллект” обучает студентов методам ИИ, включая нейронные сети. Междисциплинарный подход позволяет решать задачи медицины и биотехнологии через командные проекты.

🔸 Международная магистратура "Большие данные и машинное обучение" в университете ИТМО предлагает углубленное образование в области машинного обучения и анализа больших данных на английском языке. Программа ориентирована на студентов ИТ-специальностей и профессионалов, готовящихся к карьере в таких ролях, как ML Engineer или AI Architect.

🔸 В рамках программы «Цифровая экономика РФ» на базе 106 университетов страны открываются "Цифровые кафедры" для подготовки специалистов с практическими навыками. Курсы длятся около 10 месяцев и включают проектную работу, а обучение ведется совместно с ведущими компаниями, такими как Росатом и Сбер.

🔹 Дополнительное образование в сфере анализа данных также возможно благодаря таким платформам, как OpenBio, что позволяет осваивать новейшие достижения в ИТ для медицины.

С учетом растущего спроса на ИТ-специалистов, образовательные программы нового формата становятся актуальными для рынка труда в РФ, где средняя зарплата middle ML-разработчиков составляет 190 тысяч рублей. Сотрудничество между учебными заведениями и бизнесом становится ключевым фактором для подготовки квалифицированных кадров, способных работать в изменчивом мире технологий, и помогает выпускникам уверенно выходить на рынок труда.

#openbio_career
👍3🤓1
Digital pathology: что это и с чем его едят? Рассказывает эксперт 👾

Александр Сарачаков – эксперт OpenBio и руководитель команды Digital Pathology в BostonGene. Его команда обрабатывает изображения тканей, окрашенных гематоксилином и эозином, а также занимается мультиплексной иммунофлюоресценцией. Они работают с большими данными, что невозможно без глубокого машинного обучения.
Мы попросили Александра рассказать подробнее об этой области.

▫️ Как обычно выглядит ваша задача?

Наша команда получает образцы тканей пациентов с онкологическими заболеваниями для подтверждения диагноза. При биопсии ткань окрашивается, и на компьютере получается гигантское изображение размером 40000 на 60000 пикселей. В случае мультиплексного изображения число цветовых каналов зависит от числа маркеров — отдельных белков, которые мы визуализируем, и их может быть до 60. Это позволяет анализировать пространственные отношения между клетками опухоли и иммунной системы.

Например, мы хотим узнать, может ли иммунная система пациента атаковать опухоль: если мы наблюдаем плотный комок опухоли в центре, а вокруг – иммунные клетки, которые не могут попасть внутрь, то можно предположить, что иммунотерапия будет неэффективна и нужно рассмотреть другие подходы.

▫️ С какими проблемами вы сталкиваетесь в работе?

Обычно для обучения модели необходимо разметить данные с помощью врача-патолога – он должен найти и указать все типы тканей на слайде. Эта задача требует много средств и усилий, а также патологи могут делать разметку по-разному, что приводит к неточностям при обучении.

С появлением метода self-supervised learning в 2019 году ситуация изменилась. Самообучение требует огромного количества данных, но не разметки – она может пригодиться, только чтобы проверить качество работы алгоритма. Сеть разбивает изображения ткани на небольшие области и сама учится генерировать репрезентации. Это значительно снизило необходимость в разметке: теперь достаточно разметить лишь 10 слайдов для проверки алгоритма, вместо 1000 слайдов для обучения. И хотя такие модели требуют больших вычислительных ресурсов, их качество сопоставимо с обучением с учителем.

▫️ Какие методы обработки изображений сейчас актуальны?

Технологии движутся фармацевтической отраслью: успехи препарата KEYTRUDA – моноклонального антитела, связывающего белок PD1 и способствующего активизации иммунных клеток – не дают покоя многим. Любая фармкомпания хочет открыть биомаркеры, которые будут предсказывать ответ на терапию.
Мультиплексная иммунофлюоресценция, или пространственная протеомика, помогает визуализировать клетки и белки в опухоли, которые могут быть связаны с терапией. В частности, это помогает принимать решения о назначении иммунотерапии и активно используется клинических испытаниях.

👨🏼‍💻 Еще больше о методах машинного обучения в цифровой патологии Александр расскажет в своем модуле на курсах OpenBio.

#openbio_webinar
#openbio_interview #openbio_expert
1👍2🤓1
От А до Я в разработке классификатора изображений

Часто у начинающих в области машинного обучения есть страх: получится ли вообще все это понять? Например, “бинарная классификация” – что это такое? Насколько это сложно?

Мы попросили Артема Васильева, специалиста в компьютерном зрении и спикера OpenBio, кратко объяснить ход мыслей разработчика при решении задачи классификации изображения.

Допустим, у нас есть задача: понять по гистологическому образцу, содержится ли в нем злокачественная опухоль или он весь состоит из нормальной ткани. Что нужно, чтобы ее решить?

Работу над решением можно представить в виде следующих общих шагов:

1️⃣ Оценка необходимости машинного обучения
Прежде всего, определите, можно ли решить задачу без использования машинного обучения. Изучите литературу и существующие методы в рамках похожих задач. Часто оказывается, что задача не требует дорогого и сложного решения с ML.

2️⃣ Формулирование задачи
Четко сформулируйте задачу классификации: определите, какие классы вам нужны на выходе.

3️⃣ Сбор и разметка данных для обучения
Необходимо понять, требуется ли в задаче собственная разметка обучающих данных или будет достаточно общедоступной информации. Исследуйте собственные данные и открытые публичные датасеты с лицензией, которые можно использовать для решения.

Обучающие данные должны включать все сценарии, которые могут вас заинтересовать – убедитесь, что у вас достаточно разметки для всех возможных классов (например, нормальная ткань, доброкачественная опухоль, злокачественная опухоль и их сочетания). Убедитесь, что данные разнообразны и репрезентативны для вашей задачи.

4️⃣ Обучение модели
Начните с простых моделей – выбирайте известные инструменты для решения похожих задач. Например, используйте библиотеку Torch Image Models для работы с 2D-изображениями, выберите небольшую модель и доучите ее на собранных данных.

5️⃣ Тестирование качества модели
Проведите тестирование модели на различных данных и оцените ее качество по метрикам (например, точность, полнота). Покажите результаты эксперту в области – на основе обратной связи станет понятно, нужно ли улучшить процесс разметки или попробовать другие модели и методы обработки данных.

6️⃣ Разработка и внедрение
После успешного обучения модели подумайте о том, как ее интегрировать в рабочий процесс. Определите ограничения по времени и ресурсам. Если необходимость в сложной интеграции отсутствует, модель можно запускать как питоновский скрипт.

7️⃣ Мониторинг и обновление
Регулярно проверяйте качество работы модели, особенно при изменении источника данных или условий работы (например, при смене микроскопа в лаборатории). Если во время эксплуатации сервиса не проверять, что данные не изменились, можно получить на выходе произвольное качество.

А чтобы узнать, как реализовывать эти шаги на практике и применять их к своим задачам, приходите на курсы OpenBio.

#openbio_webinar
#openbio_interview #openbio_expert
👍2😍1
Сегодня делимся фрагментом интервью с Артемом Васильевым – спикером курса OpenBio и специалистом по компьютерному зрению. Выделим здесь несколько пунктов о ключевых шагах на пути к освоению ML.

▫️ Ваш бэкграунд в физике помог вам при погружении в машинное обучение?
Я не думал, что эта технология станет основной в моей карьере, поэтому не имел четкого плана по ее изучению. Моя математическая подготовка была хорошей, но, возможно, избыточной для начала. Если бы мне нужно было начать с нуля, я бы сосредоточился на базовой теории вероятностей и простых математических концепциях — этого было бы достаточно для чтения статей и понимания алгоритмов.

▫️ Где биологам чаще всего придется использовать методы машинного обучения?
Все, что связано с обработкой последовательностей, включает в себя машинное обучение – например, анализ последовательностей ДНК, РНК или белковых молекул. В этой области накоплено большое количество данных, и исследователям приходится находить более эффективные инструменты для работы с ними.

▫️ Было ли сложно знакомым вам биологам разработать свой первый алгоритм?
Студенты биологического факультета имеют базу математической подготовки, поэтому старт не совсем холодный. Для первых контактов с машинным обучением многим достаточно подтянуть программирование на Python. Порог входа невысок, даже для тех, кто знакомится с базовыми библиотеками. На курсе мы также изучим основной инструментарий, который пригодится при первом контакте с задачами в компьютерном зрении.

▫️ Сколько времени новичок обычно тратит на разработку алгоритма?
Если новичок решает прикладную проблему, то часто кто-то решал ее и раньше. Поэтому важно потратить время на анализ существующих решений – почитать BioRxiv, посмотреть открытый код на GitHub. Это может занять от дней до неопределенного количества времени. Затем идет написание кода для обучения модели, а код широко переиспользуется: например, после прохождения нашего курса у вас останется код, в который можно подставить ваши данные.

▫️ Что спрашивают на собеседованиях на позицию Junior специалиста в машинном обучении?
Необходимо знать метрики качества и их значение. Это отсекает тех, кто не разобрался, что же там на самом деле считается, хотя это самое важное. Могут быть вопросы о структуре моделей: зачем нужны определенные слои в нейросетях, чем различаются архитектуры UNet и ResNet, и так далее. При найме в исследовательскую команду обязательно спросят про новые статьи и конференции – важна способность понимать новые идеи и делать из них выводы.

Маст-хэв – знание теории вероятности и статистики. Полезно будет знать библиотеку PyTorch, особенно если вы хотите работать в компьютерном зрении; пригодится практический опыт с Torch Image Models и Segmentation Models PyTorch. По умолчанию, необходимо умение программировать на Python.

✍🏻 Читайте полную версию интервью по ссылке.
👍4
Который час, друзья? 🤔 С точностью до минуты не подскажем, но уверены — сейчас самое время готовиться ко второму потоку курса «Машинное обучение в биологии и биомедицине» от OpenBio! 🎉👩🏻‍🎓

Весенний набор стартует 25 февраля, а подача заявок на него уже открыта. Присоединяйтесь к единственной программе переквалификации с кейсами по Computer Vision в биомедицине и ML в NGS в одном курсе.

Итак, начинаем подготовку! 🤓

#openbio_pandas
👍2