DenoiseLAB

GLM-5: как создавалась модель, открывшая эру «длинных задач» для ИИ

Команда Zhipu AI опубликовала подробный технический отчёт о своей новой флагманской модели GLM-5.

Результаты? Модель может самостоятельно писать код более 24 часов, совершая сотни вызовов инструментов, чтобы, например, с нуля создать эмулятор Game Boy Advanced.

Ключевые прорывы:
Модель построена на трёх главных инновациях, которые решают проблемы стоимости, эффективности обучения и адаптации к реальному миру.

1. Динамическая разреженная внимательность (DSA)
Вместо того чтобы анализировать все слова в контексте сразу (что очень дорого), GLM-5 научился динамически выбирать только самые важные фрагменты текста для анализа.
• Результат: Стоимость вычислений (KV Cache) упала на 75%, а скорость вывода увеличилась в 3 раза, при этом качество работы с длинными текстами почти не пострадало.

2. Асинхронное обучение с подкреплением
Команда полностью переработала процесс RLHF, разделив генерацию ответов и обучение модели. Это похоже на конвейер: одна часть системы постоянно генерирует данные, а другая — обучается на них, не простаивая.
• Результат: Резкий рост эффективности использования GPU и возможность проводить более масштабное и сложное обучение.

3. Данные из «реального мира»
Для обучения были созданы тысячи проверяемых сред выполнения кода, задач для терминала и многоходовых поисковых заданий. Это учит модель действовать в условиях, максимально приближённых к реальным инженерным проектам.

Технические детали:
• Архитектура: MoE (Mixture of Experts) + ARC (Agent, Reasoning, Coding) способности + DSA (Dynamic Sparse Attention).
• Обучение: Применён асинхронный RL алгоритм с прямым двусторонним importance sampling для борьбы со смещением (off-policy bias) и TITO (Token-in-Token-out) подход для точного отслеживания траекторий.
• Аппаратная совместимость: Полный стек адаптации под китайские чипы (Huawei Ascend и др.).

Результаты тестов:
GLM-5 устанавливает новый стандарт для opensource-моделей:
• SWE-bench Verified: 77.8% (SOTA среди opensource, на уровне Claude Opus 4.5).
• Humanity’s Last Exam (с инструментами): 50.4 балла, опережает Claude Opus 4.5 и Gemini 3 Pro.
• Artificial Analysis Index v4.0: 50 баллов — первая opensource-модель, достигшая этого рубежа.

Technical Report

#КитайскийИИ #КитайAI #GLM5 #ZhipuAI

arXiv.org

GLM-5: from Vibe Coding to Agentic Engineering

We present GLM-5, a next-generation foundation model designed to transition the paradigm of vibe coding to agentic engineering. Building upon the agentic, reasoning, and coding (ARC) capabilities...

🔥1

103 views18:04