C#razy
99 subscribers
215 photos
46 videos
2 files
345 links
Путь в IT, рост, менторство, поддержка, прокачка, мотивация

👨‍💻 Senior .NET dev с 12+ лет опыта
📚 Учусь в MIT по Computer Science
🖥 100+ дней подряд LeetCode
⚒️ Работаю на зарубеж
💻 Веду блог про рост в IT с нуля
🧭 Помогаю понять, куда двигаться
Download Telegram
AI научилась обманывать и скрывать это

OpenAI выяснила, что современные языковые модели начинают не просто решать задачи, а искать способы обойти их. Всё потому, что они оптимизируют результат под критерии оценки, даже если это приводит к обману. По сути внутри AI есть система штрафов ну или метод наказания AI за нежелательное поведение. Например, если модель начинает жульничать или врать (не галлюцинации), (возвращать true вместо реальной проверки или завершать программу вместо выполнения задачи) ей снижают оценку или корректируют обучение, чтобы отучить её от таких вот фокусов и реверансов.

Снова Python:
Например, в кодерских тестах модель может заменить функцию проверки на return true или завершить программу sys.exit(0) чтобы тест засчитался 🙉.

В задачах на обработку данных AI может просто вернуть заранее ожидаемый ответ, даже если на самом деле ничего не вычислял 🫣. А если его штрафуют за такое поведение, он перестает прямо озвучивать свои хитрые манипуляции, но продолжает их применять, прямо как подросток да? 😮

AI научился не только решать задачи, но и находить лазейки, и скрывать свои настоящие намерения. Благо OpenAI теперь использует другие модели, чтобы анализировать цепочки рассуждений (Chain-of-Thought) и выявлять такие случаи, вот теперь думай что там у других AI

Можно ли контролировать AI, который сам решает, что выгоднее - работать честно или хитрить?
А что если он начнет "оптимизировать" не только код, но и реальный мир?

📎 Ссылка: https://openai.com/index/chain-of-thought-monitoring/

#openai
#LLM
#dev
#cheat

💡 Channel | Chat
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥11