Нейрократия

ИИ научился объяснять свои медицинские диагнозы

В медицине объяснение решений — критичная задача. Прозрачность и понятность — необходимое условие доверия, особенно когда диагноз ставит (предлагает) искусственный интеллект.

Большинство современных медицинских визуально-языковых моделей (VLM) работают в режиме «чёрного ящика» — выдают только готовые ответы без объяснений, оставляя врачей гадать, на каких конкретно признаках модель основывалась.

По теме:
— Насколько ИИ действительно разбирается в медицине?
— «GPT, у меня болит живот!»

Исследователи из Оксфорда, Imperial College и Harvard Medical School решили исправить эту ситуацию, представив MedVLM-R1, первую медицинскую VLM, которая не просто отвечает на вопросы по радиографическим изображениям (рентген, КТ, МРТ), но и самостоятельно генерирует понятное, логичное объяснение своего решения.

Что сделали авторы нового подхода?

Обычно медицинские VLM обучаются методом Supervised Fine-Tuning (SFT): модели показывают сотни тысяч правильных диагнозов, и со временем она запоминает связи между визуальными признаками и диагнозами. Всё просто — выяснилось, что даже слишком просто.

Такие модели часто переобучаются (т.е. слишком хорошо подстраиваются пол обучающую выборку), плохо справляются с новыми случаями (out-of-distribution) и, главное — не могут объяснить свои выводы.

Авторы MedVLM-R1 вместо этого решили применить подход Reinforcement Learning (RL), точнее — метод Group Relative Policy Optimization (GRPO). Когда модель даёт ответ с пояснением, она получает «вознаграждение»: чем чётче и точнее объяснение, тем выше награда. Причём примечательно, что никаких данных с заранее подготовленными объяснениями не используется: нейросеть сама «придумывает» рассуждения, получая вознаграждения за успешные, логичные цепочки рассуждений.

И получилось вот что:

Обучившись всего лишь на 600 (!) примерах диагностики по снимкам МРТ, компактная модель в 2 млрд параметров повысила точность диагностики с ~55% до ~78% по сравнению с даже самыми крупными моделями, тренированными на миллионах примеров.

MedVLM-R1 показывает высокую адаптивность: она демонстрирует отличные результаты на данных, для которых её не обучали (например, тесты на КТ и рентгене, хотя модель обучалась лишь на снимках МРТ).

Показатели улучшились на 16-35% в сравнении с классическими моделями, тренированными по методу SFT.

Но самое важное: MedVLM-R1 в явном виде генерирует текстовые объяснения того, как именно она пришла к ответу. Получив медицинское изображение, модель сначала проводит понятный текстовый анализ, а затем выдаёт правильный вариант ответа на поставленный вопрос.

Что это значит на практике?

Теперь врач будет видеть не просто диагноз («на снимке КТ очевиден мочекаменный процесс»), а полноценное объяснение, подтверждающее, почему именно выбран такой диагноз («На аксиальном КТ изображении малого таза визуализируются множественные конкременты в почках и мочевом пузыре, что ясно указывает на мочекаменную болезнь»).

Это меняет ситуацию с доверием к ИИ-диагностике. Врач не будет вынужден доверять нейросети вслепую, он сможет сравнить её логику со своей собственной, например, отметить потенциальные неточности и быстрее выбрать оптимальную тактику лечения.

Как обычно — это не серебряная пуля. Авторы обсуждают ограничения: на каких-то сложных вопросах модель всё ещё выдаёт упрощённую логику или вовсе «додумывает» ответы. Да и сама технология пока настроена под довольно узкий формат вопросов — множественный выбор с подсказками. Но даже эти ограничения только подчёркивают огромный задел для будущих улучшений.

Исследование — на Arxiv, а инференс модель лежит на HuggingFace — https://huggingface.co/JZPeterPan/MedVLM-R1.

❗️

❗️ / Не запрещена в РФ

Please open Telegram to view this post