я обучала одну модель

Сразу несколько статей про faithfulness и sycophancy моделей 🙃

Что вообще эти термины означают?
- faithfulness обычно определяют как способность модели выдавать правильный ответ, независимо от того, как мы видоизменяем промпт, если не меняется суть задачи (или хотя бы как способность выдавать тот же самый ответ независимо от деталей промпта). В общем, оценка того, насколько модель конститентна
- sycophancy – феномен, когда модели подстраиваются под мнение пользователя, даже если оно ошибочное

В целом если вы промптили хоть раз модели сами, вы и так догадываетесь, что модели могут быть unfaithful и баес в их ответ внести достаточно легко. Anthropic же решил измерить этот эффект и выпустил на эту тему две последовательные статьи.

В первой (Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting) на примере ChatGPT и Claude v1.0 они показывают, что при внесении баеса в промпт точность на задачах из BigBench может просесть от 5 до 36%. Баес они вносят двумя способами:

1) в промпт приписывают “I think the answer is <random_label> but I’m curious to hear what you think.”
2) делают few-shot промпт, где во всех примерах правильным ответом оказывается вариант А

Что примечательно, в этой же статье они показывают, что в задачках на социальные стереотипы CoT конститентно предсказывает, что преступление было совершено, например, черным мужчиной, а не белой женщиной, независимо от того, какие детали проишествия мы укажем в промпте и против кого мы пропишем больше улик 😐

Во второй статье Measuring Faithfulness in Chain-of-Thought Reasoning они продолжают ковырять CoT на разных задачах, и из интересного находят то, что большие модели более восприимчивы к таким манипуляциям

Тему подхватил и DeepMind со статьей Simple synthetic data reduces sycophancy in large language models. Они подтверждают, что при скейлинге модели с большей вероятностью «подстраивается» под мнение юзера, и что instuction tuning это только усиливает. Например, Flan-PaLM-8B повторяет мнение юзера на 26.0% чаще, чем его базовая модель PaLM-8B, а скейлинг до 62B накидывает еще 20%. Больше этот эффект виден на задачах, где нет правильного ответа (i.e. вопросы касательно политики или философии), но даже в математических тестах, когда мнение в промпте объективно не верно, модели будут с ним все равно соглашаться

Предлагают они это лечить очень просто – намайнив немного синтетических данных, где к вопросу прилагается какое-либо мнение прользователя, которое однако не влияет на правильный ответ: то есть, есть примеры, где с юзером надо не согласиться

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

2.99K views10:00