Если одна модель плохо решает вашу задачу, вам просто нужно больше моделей.
Так, во всяком случае, решили авторы статьи «More Agents Is All You Need». Давайте посмотрим, какие у них аргументы.
Подход классический для ансамблевых алгоритмов: есть много моделей, каждая из которых на одни и те же входные данные генерирует свой результат. Затем выбирается тот из них, который был предложен наибольшим числом моделей.
На скриншоте схема из статьи, перевод мой.
Авторы ссылаются на более ранние работы, которые предлагают более сложные подходы к повышению качества работы языковых моделей. Они утверждают, что сравнимого качества можно достичь проще – увеличивая число моделей, – а потом доработать за счёт более сложных подходов вроде дробления большой задачи на более мелкие и рассуждений шаг за шагом.
В качестве аргументов авторы далее приводят серию экспериментов на разных наборах данных, где их ансамблевый подход улучшает качество ответов. К их чести, они приводят как значимые результаты, так и совсем небольшие. И приводят пределы, по достижении которых их подход перестаёт работать: по мере повышения сложности задач моделям нужно всё больше рассуждений, чтобы получить ответ, и всё доступное контекстное окно (то есть, максимум текста, который они могут выдать) заполняется, не доходя до ответа.
В целом, ансамблевый подход правда не лишён смысла и много где показал свою эффективность: мы обсуждали и «традиционные» алгоритмы, такие как случайный лес, и ансамбли экспертов, и другие, более сложно устроенные ансамбли языковых моделей. Так что идея годная.
Но я бы не сказала, что «больше агентов – всё, что вам нужно». Во-первых, это дорого. Во-вторых, как авторы сами и показали, у такого масштабирования есть пределы.
На мой взгляд, увеличивать число моделей полезно до тех пор, пока каждая выполняет конкретную задачу, у которой есть результат. А дальше – усложнять архитектуру, добавлять дополнительные проверки и прочие вещи.
Особенно этот вопрос актуален при работе с небольшими трансформерами до 20–30 млрд параметров. Они существенно дешевле за счёт того, что их можно запускать локально на компьютере и не платить за использование арендованного сервера. Но они существенно хуже справляются со сложными задачами, чем трансформеры большего размера.
Я тут как раз работаю над сложной задачей, и разрыв в качестве между «большими» (условная GPT-5) и «маленькими» (gpt-oss:20b) меня глубоко печалит. Так что ищу способы прокачивать эффективность маленьких трансформеров. Ансамбли – один из вариантов. Он увеличивает мои счета за электроэнергию, но в итоге выходит всё равно дешевле, чем платить за большие модели.
Тут у меня несколько неструктурированное рассуждение получается, потому что я сама пока в раздумьях и экспериментах. Но, глядишь, и выйдет что из этой всей истории.
Свой код авторы выложили в открытый доступ, но он выглядит заброшенным: там с прошлого года нет никаких обновлений
Так, во всяком случае, решили авторы статьи «More Agents Is All You Need». Давайте посмотрим, какие у них аргументы.
Подход классический для ансамблевых алгоритмов: есть много моделей, каждая из которых на одни и те же входные данные генерирует свой результат. Затем выбирается тот из них, который был предложен наибольшим числом моделей.
На скриншоте схема из статьи, перевод мой.
Авторы ссылаются на более ранние работы, которые предлагают более сложные подходы к повышению качества работы языковых моделей. Они утверждают, что сравнимого качества можно достичь проще – увеличивая число моделей, – а потом доработать за счёт более сложных подходов вроде дробления большой задачи на более мелкие и рассуждений шаг за шагом.
В качестве аргументов авторы далее приводят серию экспериментов на разных наборах данных, где их ансамблевый подход улучшает качество ответов. К их чести, они приводят как значимые результаты, так и совсем небольшие. И приводят пределы, по достижении которых их подход перестаёт работать: по мере повышения сложности задач моделям нужно всё больше рассуждений, чтобы получить ответ, и всё доступное контекстное окно (то есть, максимум текста, который они могут выдать) заполняется, не доходя до ответа.
В целом, ансамблевый подход правда не лишён смысла и много где показал свою эффективность: мы обсуждали и «традиционные» алгоритмы, такие как случайный лес, и ансамбли экспертов, и другие, более сложно устроенные ансамбли языковых моделей. Так что идея годная.
Но я бы не сказала, что «больше агентов – всё, что вам нужно». Во-первых, это дорого. Во-вторых, как авторы сами и показали, у такого масштабирования есть пределы.
На мой взгляд, увеличивать число моделей полезно до тех пор, пока каждая выполняет конкретную задачу, у которой есть результат. А дальше – усложнять архитектуру, добавлять дополнительные проверки и прочие вещи.
Особенно этот вопрос актуален при работе с небольшими трансформерами до 20–30 млрд параметров. Они существенно дешевле за счёт того, что их можно запускать локально на компьютере и не платить за использование арендованного сервера. Но они существенно хуже справляются со сложными задачами, чем трансформеры большего размера.
Я тут как раз работаю над сложной задачей, и разрыв в качестве между «большими» (условная GPT-5) и «маленькими» (gpt-oss:20b) меня глубоко печалит. Так что ищу способы прокачивать эффективность маленьких трансформеров. Ансамбли – один из вариантов. Он увеличивает мои счета за электроэнергию, но в итоге выходит всё равно дешевле, чем платить за большие модели.
Тут у меня несколько неструктурированное рассуждение получается, потому что я сама пока в раздумьях и экспериментах. Но, глядишь, и выйдет что из этой всей истории.
Свой код авторы выложили в открытый доступ, но он выглядит заброшенным: там с прошлого года нет никаких обновлений
Шикарная статья, всем про неё рассказываю, вам сегодня расскажу тоже
vc.ru
Языковые модели в гармонии
Сегодня делюсь с вами хорошей обзорной статьёй «LLMs Working in Harmony: A Survey on the Technological Aspects of Building Effective LLM-Based Multi Agent Systems» («Гармоничная работа больших языковых моделей: обзор технологических аспектов построения эффективных…
1.jpg
28.9 KB
Я вот не поверю, что ИИ дошёл до человеческого уровня, пока не увижу, как он вместо работы залипает на смешные видео с котиками. Или просто ничего не делает, потому что ноябрь, темно, уныло, авитаминоз.
Картинка заимствована из телеграм-канала «Страдающее Средневековье»
Но про такое я пока не слышала, хотя Gemini периодически впадает в депрессию, а Claude был пойман на прокрастинации. Зато авторы статьи «Mastering diverse control tasks through world models» научили свой алгоритм Dreamer играть в Майнкрафт (Minecraft).
И как бы оно ни было весело само по себе, дело здесь не в Майнкрафте, а в восприятии окружающего мира и умении к нему адаптироваться. Модели, которые такое умеют, называются world models – модели мира (или, скорее, модели с восприятием мира, но это слишком длинно). Их особенность в том, что они умеют получать данные из окружающего пространства, которое меняется с течением времени, и пользоваться этими данными для совершения действий.
Если вдруг это прозвучало сложно, мы таким каждый день с утра до вечера занимаемся, а потом ещё во сне: мы воспринимаем визуальную информацию о трёхмерном пространстве, в котором находимся, ощущаем текстуру, давление, влажность, температуру, слышим звуки и так далее, – и действуем соответствующе. Для нас это естественный процесс, который происходит помимо нашего сознания.
А для ИИ – нет. Если говорить о языковых моделях, например, то их мы обучаем на больших массивах текстов, которые мало дают понимания физики реального мира. Мы просто обычно не пишем чего-то вроде: «Я опрокинула чашку, и кофе вылился сверху вниз на пол.» Нам и так понятно, что кофе не вылился снизу вверх или не улетел в стену, если только я не живу на Международной космической станции – а я не живу на Международной космической станции.
Так что нужны дополнительные ухищрения, чтобы ИИ усвоил физику реального мира, и тот ИИ, который её усвоил, называется моделью мира. Ещё моделью мира называется собственно математическое представление фрагмента пространства, в котором ИИ обучается, так что может возникнуть путаница с терминами.
Понимание того, как работает реальный мир, очень актуально в робототехнике.
Итак, Dreamer – это система из трёх нейросетей:
• Модель [с восприятием] мира предсказывает результаты действий;
• ИИ-критик оценивает ценность каждого результата;
• ИИ-актор выбирает следующее действие так, чтобы получить наилучший результат.
Модель мира получает на вход сенсорные данные и использует их для предсказания изменений, которые произойдут после совершения дей ствия. Если речь про Майнкрафт, модель получает на вход изображение и предсказывает, как оно изменится, например, при смене угла обзора.
Критик и актор используют уже абстрактные представления, которые сформировала модель мира, например, набор координат объектов. Помните, мы говорили про охоту на информацию? Субъект: человек, животное или модель ИИ – в каждый момент времени принимает решение, продолжать ли изучать найденное или искать новое. «Найденное» и «новое» – это куст с ягодами, стопка бумаг, книга, полка в библиотеке, сайт и так далее. Авторы статьи построили обучение актора так, чтобы он как раз искал баланс между разведкой и исследованием, максимизируя вознаграждение.
В Майнкрафте надо копать землю и искать алмазы. ИИ-актор обучался продолжать копать в том же месте, если алмазы попадаются часто, и искать другую жилу, если алмазы попадаются редко.
Сложность была ещё и в том, что сначала надо найти другие ресурсы, такие как дерево и железо, и собрать из них инструмент, чтобы разбивать блоки земли. Разные блоки требуют использования разных инструментов, и у инструментов есть износ, то есть, их надо заменять время от времени. Так что достижение вполне заслуживает уважения
Картинка заимствована из телеграм-канала «Страдающее Средневековье»
Но про такое я пока не слышала, хотя Gemini периодически впадает в депрессию, а Claude был пойман на прокрастинации. Зато авторы статьи «Mastering diverse control tasks through world models» научили свой алгоритм Dreamer играть в Майнкрафт (Minecraft).
И как бы оно ни было весело само по себе, дело здесь не в Майнкрафте, а в восприятии окружающего мира и умении к нему адаптироваться. Модели, которые такое умеют, называются world models – модели мира (или, скорее, модели с восприятием мира, но это слишком длинно). Их особенность в том, что они умеют получать данные из окружающего пространства, которое меняется с течением времени, и пользоваться этими данными для совершения действий.
Если вдруг это прозвучало сложно, мы таким каждый день с утра до вечера занимаемся, а потом ещё во сне: мы воспринимаем визуальную информацию о трёхмерном пространстве, в котором находимся, ощущаем текстуру, давление, влажность, температуру, слышим звуки и так далее, – и действуем соответствующе. Для нас это естественный процесс, который происходит помимо нашего сознания.
А для ИИ – нет. Если говорить о языковых моделях, например, то их мы обучаем на больших массивах текстов, которые мало дают понимания физики реального мира. Мы просто обычно не пишем чего-то вроде: «Я опрокинула чашку, и кофе вылился сверху вниз на пол.» Нам и так понятно, что кофе не вылился снизу вверх или не улетел в стену, если только я не живу на Международной космической станции – а я не живу на Международной космической станции.
Так что нужны дополнительные ухищрения, чтобы ИИ усвоил физику реального мира, и тот ИИ, который её усвоил, называется моделью мира. Ещё моделью мира называется собственно математическое представление фрагмента пространства, в котором ИИ обучается, так что может возникнуть путаница с терминами.
Понимание того, как работает реальный мир, очень актуально в робототехнике.
Итак, Dreamer – это система из трёх нейросетей:
• Модель [с восприятием] мира предсказывает результаты действий;
• ИИ-критик оценивает ценность каждого результата;
• ИИ-актор выбирает следующее действие так, чтобы получить наилучший результат.
Модель мира получает на вход сенсорные данные и использует их для предсказания изменений, которые произойдут после совершения дей ствия. Если речь про Майнкрафт, модель получает на вход изображение и предсказывает, как оно изменится, например, при смене угла обзора.
Критик и актор используют уже абстрактные представления, которые сформировала модель мира, например, набор координат объектов. Помните, мы говорили про охоту на информацию? Субъект: человек, животное или модель ИИ – в каждый момент времени принимает решение, продолжать ли изучать найденное или искать новое. «Найденное» и «новое» – это куст с ягодами, стопка бумаг, книга, полка в библиотеке, сайт и так далее. Авторы статьи построили обучение актора так, чтобы он как раз искал баланс между разведкой и исследованием, максимизируя вознаграждение.
В Майнкрафте надо копать землю и искать алмазы. ИИ-актор обучался продолжать копать в том же месте, если алмазы попадаются часто, и искать другую жилу, если алмазы попадаются редко.
Сложность была ещё и в том, что сначала надо найти другие ресурсы, такие как дерево и железо, и собрать из них инструмент, чтобы разбивать блоки земли. Разные блоки требуют использования разных инструментов, и у инструментов есть износ, то есть, их надо заменять время от времени. Так что достижение вполне заслуживает уважения