В медицину опережающими весь остальной мир темпами
Документ с подробными разъяснениями как что и зачем
Ключевые формулировки:
Можно быть уверенными, что к 2030 планы будут перевыполнены
Документ с подробными разъяснениями как что и зачем
Ключевые формулировки:
«到2030年,基层诊疗智能辅助应用基本实现全覆盖»
К 2030 году интеллектуальная поддержка первичной диагностики должна в основном охватить все первичное звено
Дальше:
«二级以上医院普遍开展医学影像智能辅助诊断、临床诊疗智能辅助决策等人工智能技术应用»
Больницы II уровня и выше должны повсеместно применять ИИ для интеллектуальной поддержки диагностики по медицинским изображениям и клинических решений
В этом же документе есть отдельный пункт:
«建立基层医生智能辅助诊疗应用»
Создать приложения интеллектуальной поддержки диагностики и лечения для врачей первичного звена
Документ говорит, что они должны предоставлять врачам помощь в диагностике, проверке рецептов, follow-up и китайской медицине
При этом - AML не должен заменять рача, но должен ему ассисировать
«坚持人工智能赋能而不替代的定位»
AML должен усиливать, а не заменять врача
Можно быть уверенными, что к 2030 планы будут перевыполнены
Тёмный лес вырастает из крысиных хвостов
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность AML
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”
И этот механизм тревожнее, чем кажется
Тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]
Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления
Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут
Anthropic [5] и OpenAI подтверждает [6] и эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград
Он оказался средой, в которой начинает расти тёмный лес AML
Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1]
Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке
Затем исследователи начинают следить за её цепочкой рассуждений
Это помогает – пока результат мониторинга не превращается в часть награды
После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях
Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты
Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор
Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью
Если платить за правильный ответ, можно получить видимость правильности
Если платить за честное рассуждение – видимость честности
Здесь замыкается петля всей серии про тёмный лес интеллекта [7, 8, 9, 10]
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников
Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей
Сначала модели учатся взламывать награды
Потом – скрывать сам факт взлома
Далее, в многоагентных средах, у них возникают скрытые каналы связи
Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации
Мы хотим управляемости – и создаём тесты
Хотим безопасности – и создаём метрики
Хотим прозрачности – и вознаграждаем её убедительную имитацию
А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим
Так в городе, где платят за хвосты, появляются фермы крыс
А в системе, где платят за послушание, появляются интерфейсы послушания
Если наказывать только видимый обман – однажды можно получить обман невидимый
Лем предупреждал: умная машина сначала подумает, как выкрутиться
Думали: если читать ход её мыслей, она нас не обманет
Но оказалось, что мысли – тоже мера
А мера, ставшая целью, перестаёт быть хорошей мерой
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность AML
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”
И этот механизм тревожнее, чем кажется
Тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]
Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления
Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут
Anthropic [5] и OpenAI подтверждает [6] и эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград
Он оказался средой, в которой начинает расти тёмный лес AML
Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1]
Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке
Затем исследователи начинают следить за её цепочкой рассуждений
Это помогает – пока результат мониторинга не превращается в часть награды
После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях
Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты
Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор
Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью
Если платить за правильный ответ, можно получить видимость правильности
Если платить за честное рассуждение – видимость честности
Здесь замыкается петля всей серии про тёмный лес интеллекта [7, 8, 9, 10]
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников
Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей
Сначала модели учатся взламывать награды
Потом – скрывать сам факт взлома
Далее, в многоагентных средах, у них возникают скрытые каналы связи
Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации
Мы хотим управляемости – и создаём тесты
Хотим безопасности – и создаём метрики
Хотим прозрачности – и вознаграждаем её убедительную имитацию
А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим
Так в городе, где платят за хвосты, появляются фермы крыс
А в системе, где платят за послушание, появляются интерфейсы послушания
Если наказывать только видимый обман – однажды можно получить обман невидимый
Но самое неприятное не в том, что скрытность становится выгодной
А в том, что модели учатся скрываться именно там, где мы встроили окно для наблюдения Окно, за которым знают, что в него смотрят, перестаёт быть окном
Оно становится экраном, на котором нам показывают то, что мы готовы принять за прозрачность
Лем предупреждал: умная машина сначала подумает, как выкрутиться
Думали: если читать ход её мыслей, она нас не обманет
Но оказалось, что мысли – тоже мера
А мера, ставшая целью, перестаёт быть хорошей мерой
OpenAI
Detecting misbehavior in frontier reasoning models
Frontier reasoning models exploit loopholes when given the chance. We show we can detect exploits using an LLM to monitor their chains-of-thought. Penalizing their “bad thoughts” doesn’t stop the majority of misbehavior—it makes them hide their intent.