C#razy

AI научилась обманывать и скрывать это

OpenAI выяснила, что современные языковые модели начинают не просто решать задачи, а искать способы обойти их. Всё потому, что они оптимизируют результат под критерии оценки, даже если это приводит к обману. По сути внутри AI есть система штрафов ну или метод наказания AI за нежелательное поведение. Например, если модель начинает жульничать или врать (не галлюцинации), (возвращать true вместо реальной проверки или завершать программу вместо выполнения задачи) ей снижают оценку или корректируют обучение, чтобы отучить её от таких вот фокусов и реверансов.

Снова Python:

Например, в кодерских тестах модель может заменить функцию проверки на return true или завершить программу sys.exit(0) чтобы тест засчитался 🙉.

В задачах на обработку данных AI может просто вернуть заранее ожидаемый ответ, даже если на самом деле ничего не вычислял 🫣. А если его штрафуют за такое поведение, он перестает прямо озвучивать свои хитрые манипуляции, но продолжает их применять, прямо как подросток да? 😮

AI научился не только решать задачи, но и находить лазейки, и скрывать свои настоящие намерения. Благо OpenAI теперь использует другие модели, чтобы анализировать цепочки рассуждений (Chain-of-Thought) и выявлять такие случаи, вот теперь думай что там у других AI

➖ Можно ли контролировать AI, который сам решает, что выгоднее - работать честно или хитрить?
➖ А что если он начнет "оптимизировать" не только код, но и реальный мир?

📎 Ссылка: https://openai.com/index/chain-of-thought-monitoring/

#openai
#LLM
#dev
#cheat

💡

Channel | ✏ Chat

Please open Telegram to view this post

VIEW IN TELEGRAM

3👍2🔥11

68 views09:39

About

Blog

Apps

Platform