Интересное что-то

#llm

Ух, интересное

42 views14:17

Generative Agent Simulations of 1,000 People
Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein
Статья: https://arxiv.org/abs/2411.10109
Пост: https://hai.stanford.edu/news/ai-agents-simulate-1052-individuals-personalities-impressive-accuracy

Мы в прошлом году не разобрали эту статью, а она интересное практическое продолжение темы из 2023-го про Generative Agents (https://t.me/gonzo_ML/1481) от Стэнфорда и ко. Теперь авторы взяли и симулировали 1,052 реальных человека, а потом на последующих опросах сумели добиться 85% точности репликации их собственных ответов и действий в экспериментах через две недели. Кроме того собрали полезного агента-помощника для проведения интервью.

Процедура создания агента выглядит так:

🎤 Интервью

Были проведены глубинные интервью, включавшие в себя заранее заданные вопросы и адаптивные последующие, зависящие от ответов респондента.

Через стратифицированную выборку набрали 1052 участника, чтобы получить репрезентативную выборку US популяции по возрасту, полу, расе, региону, образованию и политической идеологии. Все участники прошли голосовое интервью со средней длиной транскрипта 6,491 слов (stddev 2,541). Также собрали ответы на серию опросников (General Social Survey (GSS), Big Five Inventory из 44 пунктов(BFI-44)) и результаты поведенческих экспериментов (пять экономических игр и пять поведенческих экспериментов). Интервью потом будет использоваться для прайминга агентов, а опросы/эксперименты для оценки точности полученных агентов. Также было ещё и self-consistency интервью через две недели после перечисленного.

Изначально через компанию Bovitz рекрутировали 1300 человек (хотели в итоге получить 1000 для достаточной статистической мощности пяти поведенческих экспериментов). Участникам платили: $60 за первый опрос, $30 за self-consistency через две недели, и ещё был бонус в диапазоне 0-10$ по результатам экономических игр. Не все дошли до второй фазы и выполнили self-consistency опрос, так что осталось 1052 (но ожидали ещё больший отсев).

Для этого прям заморочились и собрали свою платформу, где респондент может зарегаться, создать аватара, дать consent, пройти интервью, опросы и эксперименты, в заданном порядке и в нужное время. Для скейлинга интервью использовался ИИ-интервьюер, проводивший его по полуструктурированному протоколу. Хотели именно интервью, а не опрос, потому что надеялись получить более полную информацию с ценными нюансами. За основу взяли протокол, разработанный американскими социологами в рамках American Voices Project. В скрипте были темы от истории жизни до взглядов на текущие социальные темы. Оригинальный протокол был рассчитан на трёхчасовое интервью, здесь его немного урезали, чтобы всё умещалось в два часа.

ИИ-Интервьюер сам динамически генерировал последующие вопросы, соответствующие ответам участников. Архитектура агента была вариацией на тему оригинального Generative Agent (https://t.me/gonzo_ML/1486). Агент принимал на вход свежие предыдущие ответы респондента и скрипт интервью, и генерил follow-up вопросы или переходил к следующему вопросу в скрипте. Вопросы структурированы в блоки, для каждого вопроса прописано поле с указанием, сколько времени дано на вопрос. Первый вопрос блока агент задаёт не меняя, а затем ориентируясь на оставшийся бюджет времени и ответы респондента принимает решения в динамике, что именно спросить. Модель для этого должна делать некоторый ризонинг и учитывать весь контекст, но при росте контекста текущие (на тот момент, да наверное и на этот) модели обычно деградируют, так что в агента ввели модуль рефлексии, который суммаризирует беседу и записывает выводы, которые можно сделать про респондента.

Так, если до этого агент спрашивал, где респондент родился, а тот упомянул природу этого места, агент мог задать вопрос про походы и записать в итоге после рефлексии что-то вроде:

{
    “place of birth”: “New Hampshire”
    “outdoorsy vs. indoorsy”: “outdoorsy with potentially a lot of time spent outdoors”
}

41 views14:17