OpenAI представила HealthBench: новый стандарт для оценки медицинских AI-систем 🩺🤖
OpenAI выпустила HealthBench — новый бенчмарк, созданный совместно с 262 врачами для оценки эффективности AI-систем в медицинских беседах. Похоже, теперь у нас есть "официальный термометр" для измерения температуры искусственного интеллекта в медицине.
Что нужно знать 📋
• Бенчмарк тестирует модели по различным темам (скорая медицинская помощь, глобальное здравоохранение и т.д.) и поведенческим характеристикам (точность, качество коммуникации).
• Новые модели показывают значительно лучшие результаты — o3 от OpenAI набрала 60%, в то время как GPT-3.5 Turbo всего 16%. Прогресс налицо, хотя до идеала еще далеко.
• Интересно, что даже маленькие модели стали гораздо способнее — GPT-4.1 Nano превосходит старые варианты, при этом обходясь в 25 раз дешевле. Вот такой интересный прогресс в экономии на здоровье :)
• OpenAI сделала открытым исходный код как самих оценок, так и тестового набора данных, включающего 5000 реалистичных многоэтапных медицинских диалогов между моделями и пользователями.
Почему это важно 🤔
Существует множество примеров того, как ИИ может серьезно улучшить работу в медицинской сфере. Наличие проверенных врачами бенчмарков — важный шаг для измерения производительности каждой модели в медицинском контексте.
Конечно, одно дело — хорошо отвечать на тесты, и совсем другое — не навредить реальным пациентам. Но, по крайней мере, теперь у нас есть "линейка", которой можно измерить, насколько наш цифровой доктор готов к приему.
#ИИвМедицине #OpenAI #HealthBench #ИскусственныйИнтеллект #ЦифровоеЗдравоохранение
OpenAI выпустила HealthBench — новый бенчмарк, созданный совместно с 262 врачами для оценки эффективности AI-систем в медицинских беседах. Похоже, теперь у нас есть "официальный термометр" для измерения температуры искусственного интеллекта в медицине.
Что нужно знать 📋
• Бенчмарк тестирует модели по различным темам (скорая медицинская помощь, глобальное здравоохранение и т.д.) и поведенческим характеристикам (точность, качество коммуникации).
• Новые модели показывают значительно лучшие результаты — o3 от OpenAI набрала 60%, в то время как GPT-3.5 Turbo всего 16%. Прогресс налицо, хотя до идеала еще далеко.
• Интересно, что даже маленькие модели стали гораздо способнее — GPT-4.1 Nano превосходит старые варианты, при этом обходясь в 25 раз дешевле. Вот такой интересный прогресс в экономии на здоровье :)
• OpenAI сделала открытым исходный код как самих оценок, так и тестового набора данных, включающего 5000 реалистичных многоэтапных медицинских диалогов между моделями и пользователями.
Почему это важно 🤔
Существует множество примеров того, как ИИ может серьезно улучшить работу в медицинской сфере. Наличие проверенных врачами бенчмарков — важный шаг для измерения производительности каждой модели в медицинском контексте.
Конечно, одно дело — хорошо отвечать на тесты, и совсем другое — не навредить реальным пациентам. Но, по крайней мере, теперь у нас есть "линейка", которой можно измерить, насколько наш цифровой доктор готов к приему.
#ИИвМедицине #OpenAI #HealthBench #ИскусственныйИнтеллект #ЦифровоеЗдравоохранение
❤3👍1