Forwarded from N + 1
Что объединяет студента-биолога, врача-диагноста, team-лида научной группы и Python-разработчика? Им всем актуальны знания о машинном обучении.
Если вы хотите войти в самую перспективную, быстро развивающуюся сферу Data Science и получить опыт, который сделает вас в 2 раза востребованнее, в том числе и на международном рынке — приходите на курс «ML в биологии и биомедицине» от OpenBio.
Дарим скидку 15% по промокоду PLUS, а всем студентам по умолчанию 30%.
Регистрируйтесь: https://clck.ru/3DUY59
Если вы хотите войти в самую перспективную, быстро развивающуюся сферу Data Science и получить опыт, который сделает вас в 2 раза востребованнее, в том числе и на международном рынке — приходите на курс «ML в биологии и биомедицине» от OpenBio.
Дарим скидку 15% по промокоду PLUS, а всем студентам по умолчанию 30%.
Регистрируйтесь: https://clck.ru/3DUY59
👍4
🗓 1 октября стартовал курс повышения квалификации «Машинное обучение в биологии и медицине».
Участники начали с первого модуля с основных задач ML в виде логической и линейной регрессии, cкоро знакомимся с библиотеками Numpy, Pandas, Sklearn, Seaborn, и изучим каталог методов классического ML!
Впереди 10 недель обучения, общения с единомышленниками и несколько встреч по карьерному развитию в биотехе.
Желаем всем участникам плавного и комфортного погружения в мир машинного обучения, и надеемся, что с нами изучение новой сферы будет увлекательным и по-настоящему качественным.
🔗 Присоединиться еще не поздно! Сделать это можно по ссылке (спойлер: есть возможность получить скидку)
Участники начали с первого модуля с основных задач ML в виде логической и линейной регрессии, cкоро знакомимся с библиотеками Numpy, Pandas, Sklearn, Seaborn, и изучим каталог методов классического ML!
Впереди 10 недель обучения, общения с единомышленниками и несколько встреч по карьерному развитию в биотехе.
Желаем всем участникам плавного и комфортного погружения в мир машинного обучения, и надеемся, что с нами изучение новой сферы будет увлекательным и по-настоящему качественным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Двусторонняя поддержка: взаимодействие индустрии и сферы образования для развития ИТ-сектора 👩🏻🎓📈
Требования к профессиональным навыкам в сфере информационных технологий (ИТ) постоянно меняются. В то время как высшее образование в России часто акцентируется на теории, приводя к недостатку практических навыков у выпускников, для успешного перехода в индустрию образование в ИТ должно ориентироваться на практику.
Крупные компании и университеты объединяют усилия в подготовке кадров и сокращают разрыв между теорией и практикой. Приведем примеры инициатив в области вычислительной биологии и биомедицины в России.
🔸 В рамках программы «Анализ данных в биологии и медицине», с сентября 2024 года эксперты компании Genotek ведут курсы по молекулярной биологии, биоинформатике и персонализированной медицине на Факультете Компьютерных Наук НИУ ВШЭ. Также магистерскую программу в ВШЭ для решения задач фармакологии открыл BIOCAD. Программы предлагают студентам и теоретические знания и практические навыки, а также открывают возможность трудоустройства в ведущих биомедицинских компаниях.
🔸 Научно-учебная лаборатория Яндекса на базе ФКН НИУ ВШЭ фокусируется на компьютерном зрении, NLP и машинном обучении, предоставляя студентам возможность стажировок и взаимодействия с исследователями Yandex Research. С 2015 по 2023 год факультет уже выпустил 3385 специалистов.
🔸 Программа «Машинное обучение в биологии» от ФББ МГУ совместно с фондом “Интеллект” обучает студентов методам ИИ, включая нейронные сети. Междисциплинарный подход позволяет решать задачи медицины и биотехнологии через командные проекты.
🔸 Международная магистратура "Большие данные и машинное обучение" в университете ИТМО предлагает углубленное образование в области машинного обучения и анализа больших данных на английском языке. Программа ориентирована на студентов ИТ-специальностей и профессионалов, готовящихся к карьере в таких ролях, как ML Engineer или AI Architect.
🔸 В рамках программы «Цифровая экономика РФ» на базе 106 университетов страны открываются "Цифровые кафедры" для подготовки специалистов с практическими навыками. Курсы длятся около 10 месяцев и включают проектную работу, а обучение ведется совместно с ведущими компаниями, такими как Росатом и Сбер.
🔹 Дополнительное образование в сфере анализа данных также возможно благодаря таким платформам, как OpenBio, что позволяет осваивать новейшие достижения в ИТ для медицины.
С учетом растущего спроса на ИТ-специалистов, образовательные программы нового формата становятся актуальными для рынка труда в РФ, где средняя зарплата middle ML-разработчиков составляет 190 тысяч рублей. Сотрудничество между учебными заведениями и бизнесом становится ключевым фактором для подготовки квалифицированных кадров, способных работать в изменчивом мире технологий, и помогает выпускникам уверенно выходить на рынок труда.
#openbio_career
Требования к профессиональным навыкам в сфере информационных технологий (ИТ) постоянно меняются. В то время как высшее образование в России часто акцентируется на теории, приводя к недостатку практических навыков у выпускников, для успешного перехода в индустрию образование в ИТ должно ориентироваться на практику.
Крупные компании и университеты объединяют усилия в подготовке кадров и сокращают разрыв между теорией и практикой. Приведем примеры инициатив в области вычислительной биологии и биомедицины в России.
🔸 В рамках программы «Анализ данных в биологии и медицине», с сентября 2024 года эксперты компании Genotek ведут курсы по молекулярной биологии, биоинформатике и персонализированной медицине на Факультете Компьютерных Наук НИУ ВШЭ. Также магистерскую программу в ВШЭ для решения задач фармакологии открыл BIOCAD. Программы предлагают студентам и теоретические знания и практические навыки, а также открывают возможность трудоустройства в ведущих биомедицинских компаниях.
🔸 Научно-учебная лаборатория Яндекса на базе ФКН НИУ ВШЭ фокусируется на компьютерном зрении, NLP и машинном обучении, предоставляя студентам возможность стажировок и взаимодействия с исследователями Yandex Research. С 2015 по 2023 год факультет уже выпустил 3385 специалистов.
🔸 Программа «Машинное обучение в биологии» от ФББ МГУ совместно с фондом “Интеллект” обучает студентов методам ИИ, включая нейронные сети. Междисциплинарный подход позволяет решать задачи медицины и биотехнологии через командные проекты.
🔸 Международная магистратура "Большие данные и машинное обучение" в университете ИТМО предлагает углубленное образование в области машинного обучения и анализа больших данных на английском языке. Программа ориентирована на студентов ИТ-специальностей и профессионалов, готовящихся к карьере в таких ролях, как ML Engineer или AI Architect.
🔸 В рамках программы «Цифровая экономика РФ» на базе 106 университетов страны открываются "Цифровые кафедры" для подготовки специалистов с практическими навыками. Курсы длятся около 10 месяцев и включают проектную работу, а обучение ведется совместно с ведущими компаниями, такими как Росатом и Сбер.
🔹 Дополнительное образование в сфере анализа данных также возможно благодаря таким платформам, как OpenBio, что позволяет осваивать новейшие достижения в ИТ для медицины.
С учетом растущего спроса на ИТ-специалистов, образовательные программы нового формата становятся актуальными для рынка труда в РФ, где средняя зарплата middle ML-разработчиков составляет 190 тысяч рублей. Сотрудничество между учебными заведениями и бизнесом становится ключевым фактором для подготовки квалифицированных кадров, способных работать в изменчивом мире технологий, и помогает выпускникам уверенно выходить на рынок труда.
#openbio_career
👍3🤓1
Digital pathology: что это и с чем его едят? Рассказывает эксперт 👾
Александр Сарачаков – эксперт OpenBio и руководитель команды Digital Pathology в BostonGene. Его команда обрабатывает изображения тканей, окрашенных гематоксилином и эозином, а также занимается мультиплексной иммунофлюоресценцией. Они работают с большими данными, что невозможно без глубокого машинного обучения.
Мы попросили Александра рассказать подробнее об этой области.
▫️ Как обычно выглядит ваша задача?
Наша команда получает образцы тканей пациентов с онкологическими заболеваниями для подтверждения диагноза. При биопсии ткань окрашивается, и на компьютере получается гигантское изображение размером 40000 на 60000 пикселей. В случае мультиплексного изображения число цветовых каналов зависит от числа маркеров — отдельных белков, которые мы визуализируем, и их может быть до 60. Это позволяет анализировать пространственные отношения между клетками опухоли и иммунной системы.
Например, мы хотим узнать, может ли иммунная система пациента атаковать опухоль: если мы наблюдаем плотный комок опухоли в центре, а вокруг – иммунные клетки, которые не могут попасть внутрь, то можно предположить, что иммунотерапия будет неэффективна и нужно рассмотреть другие подходы.
▫️ С какими проблемами вы сталкиваетесь в работе?
Обычно для обучения модели необходимо разметить данные с помощью врача-патолога – он должен найти и указать все типы тканей на слайде. Эта задача требует много средств и усилий, а также патологи могут делать разметку по-разному, что приводит к неточностям при обучении.
С появлением метода self-supervised learning в 2019 году ситуация изменилась. Самообучение требует огромного количества данных, но не разметки – она может пригодиться, только чтобы проверить качество работы алгоритма. Сеть разбивает изображения ткани на небольшие области и сама учится генерировать репрезентации. Это значительно снизило необходимость в разметке: теперь достаточно разметить лишь 10 слайдов для проверки алгоритма, вместо 1000 слайдов для обучения. И хотя такие модели требуют больших вычислительных ресурсов, их качество сопоставимо с обучением с учителем.
▫️ Какие методы обработки изображений сейчас актуальны?
Технологии движутся фармацевтической отраслью: успехи препарата KEYTRUDA – моноклонального антитела, связывающего белок PD1 и способствующего активизации иммунных клеток – не дают покоя многим. Любая фармкомпания хочет открыть биомаркеры, которые будут предсказывать ответ на терапию.
Мультиплексная иммунофлюоресценция, или пространственная протеомика, помогает визуализировать клетки и белки в опухоли, которые могут быть связаны с терапией. В частности, это помогает принимать решения о назначении иммунотерапии и активно используется клинических испытаниях.
👨🏼💻 Еще больше о методах машинного обучения в цифровой патологии Александр расскажет в своем модуле на курсах OpenBio.
#openbio_webinar
#openbio_interview #openbio_expert
Александр Сарачаков – эксперт OpenBio и руководитель команды Digital Pathology в BostonGene. Его команда обрабатывает изображения тканей, окрашенных гематоксилином и эозином, а также занимается мультиплексной иммунофлюоресценцией. Они работают с большими данными, что невозможно без глубокого машинного обучения.
Мы попросили Александра рассказать подробнее об этой области.
▫️ Как обычно выглядит ваша задача?
Наша команда получает образцы тканей пациентов с онкологическими заболеваниями для подтверждения диагноза. При биопсии ткань окрашивается, и на компьютере получается гигантское изображение размером 40000 на 60000 пикселей. В случае мультиплексного изображения число цветовых каналов зависит от числа маркеров — отдельных белков, которые мы визуализируем, и их может быть до 60. Это позволяет анализировать пространственные отношения между клетками опухоли и иммунной системы.
Например, мы хотим узнать, может ли иммунная система пациента атаковать опухоль: если мы наблюдаем плотный комок опухоли в центре, а вокруг – иммунные клетки, которые не могут попасть внутрь, то можно предположить, что иммунотерапия будет неэффективна и нужно рассмотреть другие подходы.
▫️ С какими проблемами вы сталкиваетесь в работе?
Обычно для обучения модели необходимо разметить данные с помощью врача-патолога – он должен найти и указать все типы тканей на слайде. Эта задача требует много средств и усилий, а также патологи могут делать разметку по-разному, что приводит к неточностям при обучении.
С появлением метода self-supervised learning в 2019 году ситуация изменилась. Самообучение требует огромного количества данных, но не разметки – она может пригодиться, только чтобы проверить качество работы алгоритма. Сеть разбивает изображения ткани на небольшие области и сама учится генерировать репрезентации. Это значительно снизило необходимость в разметке: теперь достаточно разметить лишь 10 слайдов для проверки алгоритма, вместо 1000 слайдов для обучения. И хотя такие модели требуют больших вычислительных ресурсов, их качество сопоставимо с обучением с учителем.
▫️ Какие методы обработки изображений сейчас актуальны?
Технологии движутся фармацевтической отраслью: успехи препарата KEYTRUDA – моноклонального антитела, связывающего белок PD1 и способствующего активизации иммунных клеток – не дают покоя многим. Любая фармкомпания хочет открыть биомаркеры, которые будут предсказывать ответ на терапию.
Мультиплексная иммунофлюоресценция, или пространственная протеомика, помогает визуализировать клетки и белки в опухоли, которые могут быть связаны с терапией. В частности, это помогает принимать решения о назначении иммунотерапии и активно используется клинических испытаниях.
👨🏼💻 Еще больше о методах машинного обучения в цифровой патологии Александр расскажет в своем модуле на курсах OpenBio.
#openbio_webinar
#openbio_interview #openbio_expert
1👍2🤓1
От А до Я в разработке классификатора изображений
Часто у начинающих в области машинного обучения есть страх: получится ли вообще все это понять? Например, “бинарная классификация” – что это такое? Насколько это сложно?
Мы попросили Артема Васильева, специалиста в компьютерном зрении и спикера OpenBio, кратко объяснить ход мыслей разработчика при решении задачи классификации изображения.
Допустим, у нас есть задача: понять по гистологическому образцу, содержится ли в нем злокачественная опухоль или он весь состоит из нормальной ткани. Что нужно, чтобы ее решить?
Работу над решением можно представить в виде следующих общих шагов:
1️⃣ Оценка необходимости машинного обучения
Прежде всего, определите, можно ли решить задачу без использования машинного обучения. Изучите литературу и существующие методы в рамках похожих задач. Часто оказывается, что задача не требует дорогого и сложного решения с ML.
2️⃣ Формулирование задачи
Четко сформулируйте задачу классификации: определите, какие классы вам нужны на выходе.
3️⃣ Сбор и разметка данных для обучения
Необходимо понять, требуется ли в задаче собственная разметка обучающих данных или будет достаточно общедоступной информации. Исследуйте собственные данные и открытые публичные датасеты с лицензией, которые можно использовать для решения.
Обучающие данные должны включать все сценарии, которые могут вас заинтересовать – убедитесь, что у вас достаточно разметки для всех возможных классов (например, нормальная ткань, доброкачественная опухоль, злокачественная опухоль и их сочетания). Убедитесь, что данные разнообразны и репрезентативны для вашей задачи.
4️⃣ Обучение модели
Начните с простых моделей – выбирайте известные инструменты для решения похожих задач. Например, используйте библиотеку Torch Image Models для работы с 2D-изображениями, выберите небольшую модель и доучите ее на собранных данных.
5️⃣ Тестирование качества модели
Проведите тестирование модели на различных данных и оцените ее качество по метрикам (например, точность, полнота). Покажите результаты эксперту в области – на основе обратной связи станет понятно, нужно ли улучшить процесс разметки или попробовать другие модели и методы обработки данных.
6️⃣ Разработка и внедрение
После успешного обучения модели подумайте о том, как ее интегрировать в рабочий процесс. Определите ограничения по времени и ресурсам. Если необходимость в сложной интеграции отсутствует, модель можно запускать как питоновский скрипт.
7️⃣ Мониторинг и обновление
Регулярно проверяйте качество работы модели, особенно при изменении источника данных или условий работы (например, при смене микроскопа в лаборатории). Если во время эксплуатации сервиса не проверять, что данные не изменились, можно получить на выходе произвольное качество.
А чтобы узнать, как реализовывать эти шаги на практике и применять их к своим задачам, приходите на курсы OpenBio.
#openbio_webinar
#openbio_interview #openbio_expert
Часто у начинающих в области машинного обучения есть страх: получится ли вообще все это понять? Например, “бинарная классификация” – что это такое? Насколько это сложно?
Мы попросили Артема Васильева, специалиста в компьютерном зрении и спикера OpenBio, кратко объяснить ход мыслей разработчика при решении задачи классификации изображения.
Допустим, у нас есть задача: понять по гистологическому образцу, содержится ли в нем злокачественная опухоль или он весь состоит из нормальной ткани. Что нужно, чтобы ее решить?
Работу над решением можно представить в виде следующих общих шагов:
1️⃣ Оценка необходимости машинного обучения
Прежде всего, определите, можно ли решить задачу без использования машинного обучения. Изучите литературу и существующие методы в рамках похожих задач. Часто оказывается, что задача не требует дорогого и сложного решения с ML.
2️⃣ Формулирование задачи
Четко сформулируйте задачу классификации: определите, какие классы вам нужны на выходе.
3️⃣ Сбор и разметка данных для обучения
Необходимо понять, требуется ли в задаче собственная разметка обучающих данных или будет достаточно общедоступной информации. Исследуйте собственные данные и открытые публичные датасеты с лицензией, которые можно использовать для решения.
Обучающие данные должны включать все сценарии, которые могут вас заинтересовать – убедитесь, что у вас достаточно разметки для всех возможных классов (например, нормальная ткань, доброкачественная опухоль, злокачественная опухоль и их сочетания). Убедитесь, что данные разнообразны и репрезентативны для вашей задачи.
4️⃣ Обучение модели
Начните с простых моделей – выбирайте известные инструменты для решения похожих задач. Например, используйте библиотеку Torch Image Models для работы с 2D-изображениями, выберите небольшую модель и доучите ее на собранных данных.
5️⃣ Тестирование качества модели
Проведите тестирование модели на различных данных и оцените ее качество по метрикам (например, точность, полнота). Покажите результаты эксперту в области – на основе обратной связи станет понятно, нужно ли улучшить процесс разметки или попробовать другие модели и методы обработки данных.
6️⃣ Разработка и внедрение
После успешного обучения модели подумайте о том, как ее интегрировать в рабочий процесс. Определите ограничения по времени и ресурсам. Если необходимость в сложной интеграции отсутствует, модель можно запускать как питоновский скрипт.
7️⃣ Мониторинг и обновление
Регулярно проверяйте качество работы модели, особенно при изменении источника данных или условий работы (например, при смене микроскопа в лаборатории). Если во время эксплуатации сервиса не проверять, что данные не изменились, можно получить на выходе произвольное качество.
А чтобы узнать, как реализовывать эти шаги на практике и применять их к своим задачам, приходите на курсы OpenBio.
#openbio_webinar
#openbio_interview #openbio_expert
👍2😍1
Сегодня делимся фрагментом интервью с Артемом Васильевым – спикером курса OpenBio и специалистом по компьютерному зрению. Выделим здесь несколько пунктов о ключевых шагах на пути к освоению ML.
▫️ Ваш бэкграунд в физике помог вам при погружении в машинное обучение?
Я не думал, что эта технология станет основной в моей карьере, поэтому не имел четкого плана по ее изучению. Моя математическая подготовка была хорошей, но, возможно, избыточной для начала. Если бы мне нужно было начать с нуля, я бы сосредоточился на базовой теории вероятностей и простых математических концепциях — этого было бы достаточно для чтения статей и понимания алгоритмов.
▫️ Где биологам чаще всего придется использовать методы машинного обучения?
Все, что связано с обработкой последовательностей, включает в себя машинное обучение – например, анализ последовательностей ДНК, РНК или белковых молекул. В этой области накоплено большое количество данных, и исследователям приходится находить более эффективные инструменты для работы с ними.
▫️ Было ли сложно знакомым вам биологам разработать свой первый алгоритм?
Студенты биологического факультета имеют базу математической подготовки, поэтому старт не совсем холодный. Для первых контактов с машинным обучением многим достаточно подтянуть программирование на Python. Порог входа невысок, даже для тех, кто знакомится с базовыми библиотеками. На курсе мы также изучим основной инструментарий, который пригодится при первом контакте с задачами в компьютерном зрении.
▫️ Сколько времени новичок обычно тратит на разработку алгоритма?
Если новичок решает прикладную проблему, то часто кто-то решал ее и раньше. Поэтому важно потратить время на анализ существующих решений – почитать BioRxiv, посмотреть открытый код на GitHub. Это может занять от дней до неопределенного количества времени. Затем идет написание кода для обучения модели, а код широко переиспользуется: например, после прохождения нашего курса у вас останется код, в который можно подставить ваши данные.
▫️ Что спрашивают на собеседованиях на позицию Junior специалиста в машинном обучении?
Необходимо знать метрики качества и их значение. Это отсекает тех, кто не разобрался, что же там на самом деле считается, хотя это самое важное. Могут быть вопросы о структуре моделей: зачем нужны определенные слои в нейросетях, чем различаются архитектуры UNet и ResNet, и так далее. При найме в исследовательскую команду обязательно спросят про новые статьи и конференции – важна способность понимать новые идеи и делать из них выводы.
Маст-хэв – знание теории вероятности и статистики. Полезно будет знать библиотеку PyTorch, особенно если вы хотите работать в компьютерном зрении; пригодится практический опыт с Torch Image Models и Segmentation Models PyTorch. По умолчанию, необходимо умение программировать на Python.
✍🏻 Читайте полную версию интервью по ссылке.
▫️ Ваш бэкграунд в физике помог вам при погружении в машинное обучение?
Я не думал, что эта технология станет основной в моей карьере, поэтому не имел четкого плана по ее изучению. Моя математическая подготовка была хорошей, но, возможно, избыточной для начала. Если бы мне нужно было начать с нуля, я бы сосредоточился на базовой теории вероятностей и простых математических концепциях — этого было бы достаточно для чтения статей и понимания алгоритмов.
▫️ Где биологам чаще всего придется использовать методы машинного обучения?
Все, что связано с обработкой последовательностей, включает в себя машинное обучение – например, анализ последовательностей ДНК, РНК или белковых молекул. В этой области накоплено большое количество данных, и исследователям приходится находить более эффективные инструменты для работы с ними.
▫️ Было ли сложно знакомым вам биологам разработать свой первый алгоритм?
Студенты биологического факультета имеют базу математической подготовки, поэтому старт не совсем холодный. Для первых контактов с машинным обучением многим достаточно подтянуть программирование на Python. Порог входа невысок, даже для тех, кто знакомится с базовыми библиотеками. На курсе мы также изучим основной инструментарий, который пригодится при первом контакте с задачами в компьютерном зрении.
▫️ Сколько времени новичок обычно тратит на разработку алгоритма?
Если новичок решает прикладную проблему, то часто кто-то решал ее и раньше. Поэтому важно потратить время на анализ существующих решений – почитать BioRxiv, посмотреть открытый код на GitHub. Это может занять от дней до неопределенного количества времени. Затем идет написание кода для обучения модели, а код широко переиспользуется: например, после прохождения нашего курса у вас останется код, в который можно подставить ваши данные.
▫️ Что спрашивают на собеседованиях на позицию Junior специалиста в машинном обучении?
Необходимо знать метрики качества и их значение. Это отсекает тех, кто не разобрался, что же там на самом деле считается, хотя это самое важное. Могут быть вопросы о структуре моделей: зачем нужны определенные слои в нейросетях, чем различаются архитектуры UNet и ResNet, и так далее. При найме в исследовательскую команду обязательно спросят про новые статьи и конференции – важна способность понимать новые идеи и делать из них выводы.
Маст-хэв – знание теории вероятности и статистики. Полезно будет знать библиотеку PyTorch, особенно если вы хотите работать в компьютерном зрении; пригодится практический опыт с Torch Image Models и Segmentation Models PyTorch. По умолчанию, необходимо умение программировать на Python.
✍🏻 Читайте полную версию интервью по ссылке.
👍4
Который час, друзья? 🤔 С точностью до минуты не подскажем, но уверены — сейчас самое время готовиться ко второму потоку курса «Машинное обучение в биологии и биомедицине» от OpenBio! 🎉👩🏻🎓
Весенний набор стартует 25 февраля, а подача заявок на него уже открыта. Присоединяйтесь к единственной программе переквалификации с кейсами по Computer Vision в биомедицине и ML в NGS в одном курсе.
Итак, начинаем подготовку! 🤓
#openbio_pandas
Весенний набор стартует 25 февраля, а подача заявок на него уже открыта. Присоединяйтесь к единственной программе переквалификации с кейсами по Computer Vision в биомедицине и ML в NGS в одном курсе.
Итак, начинаем подготовку! 🤓
#openbio_pandas
👍2