ChatGPTevelopment & Promptgramming

No, GPT4 can’t ace MIT На фоне хайпа статьи выше в твиттере нашлись другие исследователи из MIT, которые задались вопросом - а это вообще правда, что 100% правильных ответов набралось? Конечно, нет. Самая первая простая и понятная придирка - это как вообще…

У меня не влезло из-за ограничений телеграма, поэтому допишу пятый "анекдот" отдельным сообщением, однако он не такой однозначный.

Авторы применяли все методы по цепочке. То есть если GPT-4 не смогла ответить на вопрос, то тогда ей показывали 3 самых похожих примера в промпте и просили решить. Если не могла - добавляли фразу "думай шаг за шагом". Не справлялась снова - пиши код. Ну и так далее. А те вопросы, на которые модель ответила правильно (согласно самой же GPT-4, напомню), уже не переспрашивались.

Кажется, тут можно сказать "ну это абсурдно же, так как по сути мы смотрим на правлиьные ответы. Это как будто кто-то на экзамене стоит над вами, и к каждому решению говорит, что оно неправильное. А если оно правильное - перестает ругаться, а вы перестаете его менять". С одной стороны, да, это правда - получается, что воспроизвести подобное в продакшене не получится (потому что нет правильного ответа, чтобы сравнить и остановить цепочку рассуждений).

Также ясно, почему это нечестно с точки зрения метрик - кажется, если модели на правильный ответ дать хотя бы промпт критика, мол, "найди тут ошибки и исправься" - то правильное решение может стать неправильным, ответ изменится, и всё!

Но с другой стороны OpenAI недавно выпустили статью, про которую я писал, где показывали, что можно научить модель очень качественно валидировать промежуточные шаги в решении задач и вычислениях. Так что при наличии оной (или если GPT-4 научится/умеет делать также) в теории можно повторить.

В хорошей статье, конечно, это тоже должно было исследоваться, как сильно меняются метрики, и на сколько просаживается качество. А эта статья, ну...нехорошая 🐈

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views06:32