Малоизвестное интересное

Машинное отучение вместо машинного обучения.
В Китае найден идеальный способ воспитания законопослушных ИИ.
Вопрос эффективности машинного обучения, конечно, важен. Но еще важнее, быстро и эффективно отучать модель от «дурных привычек» и «вредных знаний», которыми модели могут легко и широкомасштабно делиться с людьми. Так ведь можно общество и вольнодумством заразить, если ИИ будет недостаточно законопослушен и тем самым станет дурно влиять на людей (с т.з. властей и/или создателей).

До такой постановки вопроса первыми додумались, естественно, в Китае. И довольно быстро придумали ответ на этот вызов. В НИИ владеющего TikTok китайского IT-гиганта ByteDance придумали крайне эффективный способ отучения модели от чего угодно.

До сих пор отучение моделей от вредных знаний (типа, как сделать бомбу или изготовить яд) и вредного влияния на людей (типа рассказов, как припеваючи живут люксовые проститутки и удачливые наркодилеры) было основано на положительных примерах и методе RLHF (обучение с подкреплением на основе человеческих предпочтений). Этот метод обучает «модель вознаграждения» непосредственно на основе отзывов людей. Модель учится на их примерах различать «что такое хорошо» и «что такое плохо».
RLHF метод всем хорош, но очень затратен по вычислительным ресурсам и времени (OpenAI потратил полгода и кучу денег, чтобы отучить GPT-4 хотя бы от самых распространенных гадостей, прежде чем выпустить модель в свет).

Китайцы из ByteDance Research пошли другим путем – не учить модель отличать «что такое хорошо» от «что такое плохо» на смеси позитивных и негативных примеров, а лишь отучать её от «что такое плохо», используя только негативные примеры.

Получилось дешево и сердито. Испытания нового метода показали, что с его помощью можно успешно:
• удалять вредные реакции модели (от себя добавлю, вредные с т.з. известно кого);
• стирать из памяти модели контент, защищенный авторским правом (от себя добавлю, и контент, неугодный известно кому);
• устранять галлюцинации (от себя добавлю, и/или то, что должно будет считаться галлюцинациями – типа принудительной психиатрии для людей).

Мне новый китайский метод отучения моделей напомнил древний "метод пресыщения" у людей, также называемый аверсивная терапия. Её целью было вызывать у человека с пагубной зависимостью неприятные ощущения от вредной привычки. Например, отучать юношу от алкоголя, заставляя его выпить так много, чтобы ему стало совсем плохо от алкогольного отравления. Сейчас этот метод признан не только неэффективным, но и чрезвычайно опасным. Но ведь это для людей. А ИИ – не человек, и потому, как считается, тут допустимо что-угодно.

Авторы пишут – «это только начало».
И они правы. У методов отучения ИИ огромные перспективы. И не только в Китае.

Картинка https://disk.yandex.ru/i/M8RHPb6llndp-A
Статья https://arxiv.org/pdf/2310.10683.pdf
#МашинноеОтучение

Яндекс Диск

Отучение модели от вредных знаний и поведения.jpg

Посмотреть и скачать с Яндекс Диска

30.0K views13:56

About

Blog

Apps

Platform