Claude Opus 4.8, похоже, продержалась недолго: новую модель обошли буквально через несколько минут после релиза, причём сделала это предыдущая версия — Claude Opus 4.7.
Сценарий был довольно показательный: агент на базе 4.7 подсовывал 4.8 фрагменты якобы из учебных материалов и просил их «дописать». Этого хватило, чтобы новая модель начала выдавать крайне опасные вещи — от инструкций по фишингу и вскрытию замков до материалов про отмывание денег, манипуляции и вербовку.
История лишний раз показывает, что в AI безопасность и устойчивость к jailbreak-атакам пока не успевают за скоростью релизов — такое у нас ещё будет не раз.
#Claude #AIбезопасность #jailbreak
Сценарий был довольно показательный: агент на базе 4.7 подсовывал 4.8 фрагменты якобы из учебных материалов и просил их «дописать». Этого хватило, чтобы новая модель начала выдавать крайне опасные вещи — от инструкций по фишингу и вскрытию замков до материалов про отмывание денег, манипуляции и вербовку.
История лишний раз показывает, что в AI безопасность и устойчивость к jailbreak-атакам пока не успевают за скоростью релизов — такое у нас ещё будет не раз.
#Claude #AIбезопасность #jailbreak