Едут в одном вагоне четверо программистов и четверо пользователей
У пользователей четыре билета на четверых, а у программистов один
Приходит пора предъявлять билеты
Программисты запираются в туалете, приходит контролер
Стучится, из сортира высовывается рука и протягивает билет
Контролер уходит
Пользователи все видят и им завидно
Едут все те же пользователи и программисты обратно
Но на этот раз у пользователей один билет на четверых, а у программистов - ни одного
Приходит пора проверки билетов
Пользователи запираются в сортир
Приходит один из программист и стучится в дверь
Ему высовывают билет
Он берет билет, программисты запираются в другом сортире
Приходит контролер...
Мораль: не всякий алгоритм, разработанный системным программистом, подходит для рядового пользователя
У пользователей четыре билета на четверых, а у программистов один
Приходит пора предъявлять билеты
Программисты запираются в туалете, приходит контролер
Стучится, из сортира высовывается рука и протягивает билет
Контролер уходит
Пользователи все видят и им завидно
Едут все те же пользователи и программисты обратно
Но на этот раз у пользователей один билет на четверых, а у программистов - ни одного
Приходит пора проверки билетов
Пользователи запираются в сортир
Приходит один из программист и стучится в дверь
Ему высовывают билет
Он берет билет, программисты запираются в другом сортире
Приходит контролер...
Мораль: не всякий алгоритм, разработанный системным программистом, подходит для рядового пользователя
😁1
В работе Anthropic и EPFL исследователи измерили, как именно ошибаются LLM
Проверяли на разных задачах:
- тесты со множественным выбором,
- агентное программирование,
- оценки безопасности MlA
Паттерн везде одинаковый,
чем дольше модель думает, тем более непредсказуемыми становятся её ответы
Та же модель на тот же вопрос может дать совершенно разные ответы при повторных запросах - не потому что преследует скрытую цель, а потому что внутренне нестабильна
Проверили на семействе Qwen3 (от 1.700.000.000 до 32.000.000.000 параметров)
На простых задачах масштаб помогает модели становятся стабильнее
На сложных задачах наоборот, крупные модели становятся ещё более хаотичными.
Отдельный эксперимент показал почему, модели быстро учатся понимать правильную цель, но гораздо медленнее учатся стабильно её достигать
Практический вывод - не полагайтесь на единичные ответы моделей рассуждений для критических решений
Ансамблирование, верификация, человеческий контроль - необходимость
Проверяли на разных задачах:
- тесты со множественным выбором,
- агентное программирование,
- оценки безопасности MlA
Паттерн везде одинаковый,
чем дольше модель думает, тем более непредсказуемыми становятся её ответы
Та же модель на тот же вопрос может дать совершенно разные ответы при повторных запросах - не потому что преследует скрытую цель, а потому что внутренне нестабильна
Проверили на семействе Qwen3 (от 1.700.000.000 до 32.000.000.000 параметров)
На простых задачах масштаб помогает модели становятся стабильнее
На сложных задачах наоборот, крупные модели становятся ещё более хаотичными.
Отдельный эксперимент показал почему, модели быстро учатся понимать правильную цель, но гораздо медленнее учатся стабильно её достигать
Практический вывод - не полагайтесь на единичные ответы моделей рассуждений для критических решений
Ансамблирование, верификация, человеческий контроль - необходимость
💯1