Заметки LLM-энтузиаста

OpenAI представила HealthBench: новый стандарт для оценки медицинских AI-систем 🩺🤖

OpenAI выпустила HealthBench — новый бенчмарк, созданный совместно с 262 врачами для оценки эффективности AI-систем в медицинских беседах. Похоже, теперь у нас есть "официальный термометр" для измерения температуры искусственного интеллекта в медицине.

Что нужно знать 📋

• Бенчмарк тестирует модели по различным темам (скорая медицинская помощь, глобальное здравоохранение и т.д.) и поведенческим характеристикам (точность, качество коммуникации).

• Новые модели показывают значительно лучшие результаты — o3 от OpenAI набрала 60%, в то время как GPT-3.5 Turbo всего 16%. Прогресс налицо, хотя до идеала еще далеко.

• Интересно, что даже маленькие модели стали гораздо способнее — GPT-4.1 Nano превосходит старые варианты, при этом обходясь в 25 раз дешевле. Вот такой интересный прогресс в экономии на здоровье :)

• OpenAI сделала открытым исходный код как самих оценок, так и тестового набора данных, включающего 5000 реалистичных многоэтапных медицинских диалогов между моделями и пользователями.

Почему это важно 🤔

Существует множество примеров того, как ИИ может серьезно улучшить работу в медицинской сфере. Наличие проверенных врачами бенчмарков — важный шаг для измерения производительности каждой модели в медицинском контексте.

Конечно, одно дело — хорошо отвечать на тесты, и совсем другое — не навредить реальным пациентам. Но, по крайней мере, теперь у нас есть "линейка", которой можно измерить, насколько наш цифровой доктор готов к приему.

#ИИвМедицине #OpenAI #HealthBench #ИскусственныйИнтеллект #ЦифровоеЗдравоохранение

❤3👍1

238 views15:11

About

Blog

Apps

Platform