Заметки LLM-энтузиаста
517 subscribers
144 photos
17 videos
1 file
175 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
OpenAI представила HealthBench: новый стандарт для оценки медицинских AI-систем 🩺🤖

OpenAI выпустила HealthBench — новый бенчмарк, созданный совместно с 262 врачами для оценки эффективности AI-систем в медицинских беседах. Похоже, теперь у нас есть "официальный термометр" для измерения температуры искусственного интеллекта в медицине.

Что нужно знать 📋

• Бенчмарк тестирует модели по различным темам (скорая медицинская помощь, глобальное здравоохранение и т.д.) и поведенческим характеристикам (точность, качество коммуникации).

• Новые модели показывают значительно лучшие результаты — o3 от OpenAI набрала 60%, в то время как GPT-3.5 Turbo всего 16%. Прогресс налицо, хотя до идеала еще далеко.

• Интересно, что даже маленькие модели стали гораздо способнее — GPT-4.1 Nano превосходит старые варианты, при этом обходясь в 25 раз дешевле. Вот такой интересный прогресс в экономии на здоровье :)

• OpenAI сделала открытым исходный код как самих оценок, так и тестового набора данных, включающего 5000 реалистичных многоэтапных медицинских диалогов между моделями и пользователями.

Почему это важно 🤔

Существует множество примеров того, как ИИ может серьезно улучшить работу в медицинской сфере. Наличие проверенных врачами бенчмарков — важный шаг для измерения производительности каждой модели в медицинском контексте.

Конечно, одно дело — хорошо отвечать на тесты, и совсем другое — не навредить реальным пациентам. Но, по крайней мере, теперь у нас есть "линейка", которой можно измерить, насколько наш цифровой доктор готов к приему.

#ИИвМедицине #OpenAI #HealthBench #ИскусственныйИнтеллект #ЦифровоеЗдравоохранение
3👍1