GLM-5: как создавалась модель, открывшая эру «длинных задач» для ИИ
Команда Zhipu AI опубликовала подробный технический отчёт о своей новой флагманской модели GLM-5.
Результаты? Модель может самостоятельно писать код более 24 часов, совершая сотни вызовов инструментов, чтобы, например, с нуля создать эмулятор Game Boy Advanced.
Ключевые прорывы:
Модель построена на трёх главных инновациях, которые решают проблемы стоимости, эффективности обучения и адаптации к реальному миру.
1. Динамическая разреженная внимательность (DSA)
Вместо того чтобы анализировать все слова в контексте сразу (что очень дорого), GLM-5 научился динамически выбирать только самые важные фрагменты текста для анализа.
• Результат: Стоимость вычислений (KV Cache) упала на 75%, а скорость вывода увеличилась в 3 раза, при этом качество работы с длинными текстами почти не пострадало.
2. Асинхронное обучение с подкреплением
Команда полностью переработала процесс RLHF, разделив генерацию ответов и обучение модели. Это похоже на конвейер: одна часть системы постоянно генерирует данные, а другая — обучается на них, не простаивая.
• Результат: Резкий рост эффективности использования GPU и возможность проводить более масштабное и сложное обучение.
3. Данные из «реального мира»
Для обучения были созданы тысячи проверяемых сред выполнения кода, задач для терминала и многоходовых поисковых заданий. Это учит модель действовать в условиях, максимально приближённых к реальным инженерным проектам.
Технические детали:
• Архитектура: MoE (Mixture of Experts) + ARC (Agent, Reasoning, Coding) способности + DSA (Dynamic Sparse Attention).
• Обучение: Применён асинхронный RL алгоритм с прямым двусторонним importance sampling для борьбы со смещением (off-policy bias) и TITO (Token-in-Token-out) подход для точного отслеживания траекторий.
• Аппаратная совместимость: Полный стек адаптации под китайские чипы (Huawei Ascend и др.).
Результаты тестов:
GLM-5 устанавливает новый стандарт для opensource-моделей:
• SWE-bench Verified: 77.8% (SOTA среди opensource, на уровне Claude Opus 4.5).
• Humanity’s Last Exam (с инструментами): 50.4 балла, опережает Claude Opus 4.5 и Gemini 3 Pro.
• Artificial Analysis Index v4.0: 50 баллов — первая opensource-модель, достигшая этого рубежа.
Technical Report
#КитайскийИИ #КитайAI #GLM5 #ZhipuAI
Команда Zhipu AI опубликовала подробный технический отчёт о своей новой флагманской модели GLM-5.
Результаты? Модель может самостоятельно писать код более 24 часов, совершая сотни вызовов инструментов, чтобы, например, с нуля создать эмулятор Game Boy Advanced.
Ключевые прорывы:
Модель построена на трёх главных инновациях, которые решают проблемы стоимости, эффективности обучения и адаптации к реальному миру.
1. Динамическая разреженная внимательность (DSA)
Вместо того чтобы анализировать все слова в контексте сразу (что очень дорого), GLM-5 научился динамически выбирать только самые важные фрагменты текста для анализа.
• Результат: Стоимость вычислений (KV Cache) упала на 75%, а скорость вывода увеличилась в 3 раза, при этом качество работы с длинными текстами почти не пострадало.
2. Асинхронное обучение с подкреплением
Команда полностью переработала процесс RLHF, разделив генерацию ответов и обучение модели. Это похоже на конвейер: одна часть системы постоянно генерирует данные, а другая — обучается на них, не простаивая.
• Результат: Резкий рост эффективности использования GPU и возможность проводить более масштабное и сложное обучение.
3. Данные из «реального мира»
Для обучения были созданы тысячи проверяемых сред выполнения кода, задач для терминала и многоходовых поисковых заданий. Это учит модель действовать в условиях, максимально приближённых к реальным инженерным проектам.
Технические детали:
• Архитектура: MoE (Mixture of Experts) + ARC (Agent, Reasoning, Coding) способности + DSA (Dynamic Sparse Attention).
• Обучение: Применён асинхронный RL алгоритм с прямым двусторонним importance sampling для борьбы со смещением (off-policy bias) и TITO (Token-in-Token-out) подход для точного отслеживания траекторий.
• Аппаратная совместимость: Полный стек адаптации под китайские чипы (Huawei Ascend и др.).
Результаты тестов:
GLM-5 устанавливает новый стандарт для opensource-моделей:
• SWE-bench Verified: 77.8% (SOTA среди opensource, на уровне Claude Opus 4.5).
• Humanity’s Last Exam (с инструментами): 50.4 балла, опережает Claude Opus 4.5 и Gemini 3 Pro.
• Artificial Analysis Index v4.0: 50 баллов — первая opensource-модель, достигшая этого рубежа.
Technical Report
#КитайскийИИ #КитайAI #GLM5 #ZhipuAI
arXiv.org
GLM-5: from Vibe Coding to Agentic Engineering
We present GLM-5, a next-generation foundation model designed to transition the paradigm of vibe coding to agentic engineering. Building upon the agentic, reasoning, and coding (ARC) capabilities...
🔥1
❗️Правительством РФ разрабатывается национальный план внедрения ИИ, который будет затрагивать отрасли экономики, соц. сферы, госуправления, как стало известно РВНП, эта тема сегодня будет обсуждаться во время отчёта Правительства РФ.
План включает приоритеты, касающиеся: разработки ИИ-решений и проведение прорывных НИОКР, подготовку кадров, формирование благоприятного правового поля и укрепление международного сотрудничества с дружественными странами.
План включает приоритеты, касающиеся: разработки ИИ-решений и проведение прорывных НИОКР, подготовку кадров, формирование благоприятного правового поля и укрепление международного сотрудничества с дружественными странами.
«Для объективной оценки успехов в этом направлении по каждой отрасли и особенно по госуправлению мы утвердим показатели эффективности использования ИИ. Для правового регулирования ИИ Минцифры подготовлен законопроект, предусматривающий:
📍критерии моделей ИИ, которые могут быть использованы в государственных ИС и объектах критической инфраструктуры;
📍маркировку ИИ-контента;
📍распределение ответственности между пользователями и разработчиком при нарушениях;
📍ограничения на использование при противоправных
действиях;
📍«авторские права», сказал собеседник, добавив, что законопроект еще будет дорабатываться и обсуждаться, а внесен в Госдуму будет в весеннюю сессию.
Объем генеративного контента в российском сериале впервые превысит 70 минут, ранее в отечественном кинематографе объем генерации изображений с помощью ИИ не превышал 5–7 минут, об этом рассказала гендиректор ON Медиа Софья Митрофанова в рамках открытия новых съемочных павильонов на Киностудии имени М. Горького с участием мэра Москвы Сергея Собянина.
«Это прорыв для российской киноиндустрии. Для нашего проекта арендовано сразу три павильона общей площадью почти 6000 квадратных метров и это крупнейший заказ в отрасли на данный момент», – подчеркнула она.
Telegram
Митрофанова
Вчера был очень насыщенный день – открывали новые павильоны на легендарной Киностудии Горького.
Показывала Сергею Собянину, Татьяне Голиковой и Ольге Любимовой, как кипит работа над «Красной Шамбалой». Для этого сериала мы впервые в российском кино используем…
Показывала Сергею Собянину, Татьяне Голиковой и Ольге Любимовой, как кипит работа над «Красной Шамбалой». Для этого сериала мы впервые в российском кино используем…
С 2026 г. китайские поставщики подняли цены на оптоволокно для российских покупателей в 2,5–4 раза, об этом «Ведомостям» сообщила директор по развитию и эксплуатации услуг связи «Телеком биржи» Анастасия Биджелова и подтвердили российские производители оптического кабеля «Еврокабель-1» и «Инкаб», а также один из крупнейших магистральных операторов – «Транстелеком».
Дефицит оптоволокна нарастает не только в России, но и в мире – из-за бума искусственного интеллекта, отмечают эксперты.
В РФ существует единственный завод, который производит оптическое волокно, – АО «Оптиковолоконные системы» (ОВС) в Саранске, уточняет Коник. Его производственная мощность составляет примерно 4 млн км оптоволокна в год, из которого делали оптоволоконный кабель два десятка российских кабельных заводов ежегодно. Но после серии воздушных атак в апреле – мае 2025 г. завод в Саранске вышел из строя, и с этого момента 100% волокна поступает в РФ из Китая, так как заказ оптоволокна из США и Японии невозможен из-за санкций.
Дефицит оптоволокна нарастает не только в России, но и в мире – из-за бума искусственного интеллекта, отмечают эксперты.
В РФ существует единственный завод, который производит оптическое волокно, – АО «Оптиковолоконные системы» (ОВС) в Саранске, уточняет Коник. Его производственная мощность составляет примерно 4 млн км оптоволокна в год, из которого делали оптоволоконный кабель два десятка российских кабельных заводов ежегодно. Но после серии воздушных атак в апреле – мае 2025 г. завод в Саранске вышел из строя, и с этого момента 100% волокна поступает в РФ из Китая, так как заказ оптоволокна из США и Японии невозможен из-за санкций.
Проект называется TUMIX, и, по мнению многих, это самая интересная работа Google в этом году.
💡 Вместо того чтобы обучать ещё одну гигантскую модель, команда Google построила систему, где несколько ИИ работают вместе во время инференса.
Каждый агент выполняет свою роль:
- один пишет код
- другой ищет информацию,
- третий рассуждает текстом.
Все они решают одну задачу независимо, затем обмениваются ответами, улучшают их и приходят к общему решению.
Gemini 2.5 с TUMIX обошёл все другие системы рассуждения на +17,4%,
при этом стоимость инференса снизилась почти в два раза.
Без дополнительного обучения. Без новых данных. Просто - умная координация.
Самое неожиданное - секрет не в размере, а в разнообразии.
Команда из 15 разных агентов показала результаты лучше, чем 15 копий “лучшего” одиночного ИИ.
А когда Gemini сам спроектировал новых агентов, качество выросло ещё сильнее — система буквально эволюционировала сама себя.
🧠 Этот эксперимент показывает:
Следующий скачок в развитии ИИ может прийти не от триллиона параметров,а от сети маленьких моделей, которые учатся думать вместе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
https://github.com/zchee/tumix - вот даже кодец нашел, времени тестить у меня нет, если у кого будет опыт сообщите че как, работает нет. Буду очень признателен.
GitHub
GitHub - zchee/tumix: tumix implements a TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture in Go.
tumix implements a TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture in Go. - zchee/tumix
Кавапу Момо (смесь кавалер-кинг-чарльз-спаниеля и той-пуделя), вероятно, первая собака вайб-кодер.
Момо стучит и водит лапами по клавиатуре, набирая промпты, которые отправляются в Claude Code. Напоминают они что-то вроде
skfjhsd#$%Но ее хозяин Калеб объяснил агенту, что тот получает инструкции от «эксцентричного и очень креативного гейм-дизайнера» и эти строки неслучайны, а содержат секретные команды с идеями, и ИИ должен их расшифровывать и превращать в игры.
В то же время он увлек кодингом Момо — она научилась вводить символы на клавиатуре и дожидаться ответа от Claude Code — за это питомец получал лакомства от из автоматической кормушки. На все обучение и сборку сетапа для Момо ушло две недели.
Please open Telegram to view this post
VIEW IN TELEGRAM
Calebleak
I Taught My Dog to Vibe Code Games | Caleb Leak
My cavapoo Momo vibe coded playable Godot games. All I had to do was teach her to type, route her input to Claude Code, and build the right tools.
Минтранс РФ приступил к экспериментам по использованию беспилотных парящих платформ связи, которые позволят обеспечить качественную связь на труднодоступных территориях до формирования спутниковой группировки.
"Отдельная история, которую мы сейчас опробуем в ряде других проектов, - это беспилотные парящие платформы связи. Достаточно интересная история, которая где-то позволяет, пока мы сформируем спутниковую группировку, на аэростатах разместить связь и обеспечить совершенно другое качество связи на территориях. Такие эксперименты тоже делают", - сообщил глава министерства Андрей Никитин на заседании Государственной комиссии по вопросам развития Арктики.
🚀 DeepSeek не спешит с V4, но атакует узкие места: представлена система DualPath для ускорения ИИ-агентов
Пока все ждут следующую версию модели, исследователи из DeepSeek совместно с университетами Цинхуа и Пекина опубликовали прорывную работу. Они представили систему DualPath, которая радикально оптимизирует производительность больших языковых моделей (LLM) в сценариях работы автономных агентов.
Проще говоря, новая система решает проблему «бутылочного горлышка» при чтении данных, что позволяет почти вдвое увеличить скорость обработки запросов как в офлайн-режиме, так и в онлайн-сервисах.
📌 В чём проблема?
Сегодня ИИ-агенты — это mainstream. Но их многораундовая работа создаёт новую проблему: «длинный контекст, короткое дополнение». Контекст диалога быстро растёт, и системе приходится постоянно подгружать историю (так называемый
Проблема в архитектуре: вся нагрузка по чтению этого кеша ложится на одни и те же компоненты системы (Prefill Engine), в то время как другие (Decode Engine) простаивают. Получается дисбаланс и потеря производительности.
💡 Решение: DualPath
Система DualPath добавляет второй путь для загрузки данных:
• Путь 1 (классический): KV-Cache загружается напрямую в Prefill Engine.
• Путь 2 (новый): KV-Cache сначала загружается в Decode Engine, а затем быстро передаётся в Prefill Engine по высокоскоростной сети (RDMA).
Таким образом, система использует пропускную способность всех компонентов сразу, а не только одного, эффективно распределяя нагрузку.
📊 Результаты
Тестирование в продакшен-кластере на 1152 GPU показало:
• Офлайн-вывод (batch inference): До 1.87x увеличения пропускной способности.
• Онлайн-сервис: До 1.96x увеличения сервисной пропускной способности. Система выдерживает значительно более высокую нагрузку, сохраняя стабильную задержку генерации первого токена (TTFT).
✅ Вывод
DualPath — это не просто теоретическое улучшение, а практическая система, устраняющая ключевое препятствие для масштабирования сложных ИИ-агентов. Пока другие гонятся за параметрами моделей, DeepSeek оптимизирует фундаментальную инфраструктуру их работы.
Оригинальная статья на arXiv
#КитайскийИИ #КитайAI #DeepSeek #ИИАгенты
Пока все ждут следующую версию модели, исследователи из DeepSeek совместно с университетами Цинхуа и Пекина опубликовали прорывную работу. Они представили систему DualPath, которая радикально оптимизирует производительность больших языковых моделей (LLM) в сценариях работы автономных агентов.
Проще говоря, новая система решает проблему «бутылочного горлышка» при чтении данных, что позволяет почти вдвое увеличить скорость обработки запросов как в офлайн-режиме, так и в онлайн-сервисах.
📌 В чём проблема?
Сегодня ИИ-агенты — это mainstream. Но их многораундовая работа создаёт новую проблему: «длинный контекст, короткое дополнение». Контекст диалога быстро растёт, и системе приходится постоянно подгружать историю (так называемый
KV-Cache).Проблема в архитектуре: вся нагрузка по чтению этого кеша ложится на одни и те же компоненты системы (Prefill Engine), в то время как другие (Decode Engine) простаивают. Получается дисбаланс и потеря производительности.
💡 Решение: DualPath
Система DualPath добавляет второй путь для загрузки данных:
• Путь 1 (классический): KV-Cache загружается напрямую в Prefill Engine.
• Путь 2 (новый): KV-Cache сначала загружается в Decode Engine, а затем быстро передаётся в Prefill Engine по высокоскоростной сети (RDMA).
Таким образом, система использует пропускную способность всех компонентов сразу, а не только одного, эффективно распределяя нагрузку.
📊 Результаты
Тестирование в продакшен-кластере на 1152 GPU показало:
• Офлайн-вывод (batch inference): До 1.87x увеличения пропускной способности.
• Онлайн-сервис: До 1.96x увеличения сервисной пропускной способности. Система выдерживает значительно более высокую нагрузку, сохраняя стабильную задержку генерации первого токена (TTFT).
✅ Вывод
DualPath — это не просто теоретическое улучшение, а практическая система, устраняющая ключевое препятствие для масштабирования сложных ИИ-агентов. Пока другие гонятся за параметрами моделей, DeepSeek оптимизирует фундаментальную инфраструктуру их работы.
Оригинальная статья на arXiv
#КитайскийИИ #КитайAI #DeepSeek #ИИАгенты
Анонимность в интернете больше не стоит считать надёжной.
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
❤2🤯2
🔥 Компания Zhipu AI совместно с Университетом Цинхуа представила одну из важнейших открытых моделей 2026 года — GLM-5. Это не просто инструмент для написания кода, а полноценная система, способная самостоятельно планировать проекты, создавать код, проводить тестирование, устранять баги и улучшать решения в течение длительного времени.
Основные характеристики GLM-5 впечатляют:
- Архитектура MoE с общим количеством параметров 744 миллиарда, из которых одновременно активируется лишь 40 миллиардов.
- Контекст длиной до 200 тысяч токенов позволяет хранить целиком большие кодовые базы.
- Первый открытый релиз с оценкой 50 баллов по индексу AAI.
- Лидирует среди открытых моделей в тестировании LMArena (оценка текста и кода).
- По уровню производительности сравнима с закрытыми моделями уровня Claude Opus 4.5 и Gemini 3 Pro.
Изначально модель была выпущена анонимно под именем Pony Alpha, вызвав предположения, что это продукт от крупных западных компаний вроде DeepMind или OpenAI. Однако вскоре выяснилось, что разработка принадлежит китайской стороне, подчеркивая значимость проекта.
Технические особенности включают:
- Обучение на массиве из 28,5 триллионов токенов.
- Использование технологии Sparse Attention, снижающей вычислительные затраты на обработку больших объемов контекста.
- Асинхронный метод обучения с использованием RLHF, позволяющий эффективно задействовать ресурсы GPU.
- Трехступенчатое обучение, включающее этапы рассуждений, агентирования и выравнивания.
Практические достижения:
- Высокий показатель успешности тестов на платформе SWE-bench Verified (77,8%) и лидерство в тесте BrowseComp (75,9%).
- Модель обучалась на большом количестве репозиториев GitHub (более 10 тыс.).
- Способность успешно управлять бизнес-процессами, включая моделирование реального бизнеса (например, сеть торговых автоматов).
Особенность GLM-5 заключается также в оптимизации под китайские процессоры Huawei Ascend, Cambricon и Kunlun, обеспечивающую производительность, аналогичную западным платформам, но с экономией примерно на 50%.
Таким образом, появление GLM-5 свидетельствует о том, что разница между открытыми и проприетарными системами практически исчезла. Открытые модели теперь способны решать реальные инженерные задачи на мировом уровне, работая на собственном оборудовании и показывая конкурентоспособные результаты.
Вывод очевиден: эпоха закрытых систем уходит в прошлое, а гонка технологий становится настоящим соревнованием, где качество продукта важнее бренда.
https://arxiv.org/abs/2602.15763v2
ВК: https://vk.com/wall-222544138_412
Tenchat: https://tenchat.ru/media/4986873-glm5
Хабр: https://habr.com/ru/users/denoiselab/posts/
Основные характеристики GLM-5 впечатляют:
- Архитектура MoE с общим количеством параметров 744 миллиарда, из которых одновременно активируется лишь 40 миллиардов.
- Контекст длиной до 200 тысяч токенов позволяет хранить целиком большие кодовые базы.
- Первый открытый релиз с оценкой 50 баллов по индексу AAI.
- Лидирует среди открытых моделей в тестировании LMArena (оценка текста и кода).
- По уровню производительности сравнима с закрытыми моделями уровня Claude Opus 4.5 и Gemini 3 Pro.
Изначально модель была выпущена анонимно под именем Pony Alpha, вызвав предположения, что это продукт от крупных западных компаний вроде DeepMind или OpenAI. Однако вскоре выяснилось, что разработка принадлежит китайской стороне, подчеркивая значимость проекта.
Технические особенности включают:
- Обучение на массиве из 28,5 триллионов токенов.
- Использование технологии Sparse Attention, снижающей вычислительные затраты на обработку больших объемов контекста.
- Асинхронный метод обучения с использованием RLHF, позволяющий эффективно задействовать ресурсы GPU.
- Трехступенчатое обучение, включающее этапы рассуждений, агентирования и выравнивания.
Практические достижения:
- Высокий показатель успешности тестов на платформе SWE-bench Verified (77,8%) и лидерство в тесте BrowseComp (75,9%).
- Модель обучалась на большом количестве репозиториев GitHub (более 10 тыс.).
- Способность успешно управлять бизнес-процессами, включая моделирование реального бизнеса (например, сеть торговых автоматов).
Особенность GLM-5 заключается также в оптимизации под китайские процессоры Huawei Ascend, Cambricon и Kunlun, обеспечивающую производительность, аналогичную западным платформам, но с экономией примерно на 50%.
Таким образом, появление GLM-5 свидетельствует о том, что разница между открытыми и проприетарными системами практически исчезла. Открытые модели теперь способны решать реальные инженерные задачи на мировом уровне, работая на собственном оборудовании и показывая конкурентоспособные результаты.
Вывод очевиден: эпоха закрытых систем уходит в прошлое, а гонка технологий становится настоящим соревнованием, где качество продукта важнее бренда.
https://arxiv.org/abs/2602.15763v2
ВК: https://vk.com/wall-222544138_412
Tenchat: https://tenchat.ru/media/4986873-glm5
Хабр: https://habr.com/ru/users/denoiselab/posts/
arXiv.org
GLM-5: from Vibe Coding to Agentic Engineering
We present GLM-5, a next-generation foundation model designed to transition the paradigm of vibe coding to agentic engineering. Building upon the agentic, reasoning, and coding (ARC) capabilities...
Anthropic выпустили полную версию своего документа, определяющего принципы поведения нового языкового ИИ Clam. Этот документ представляет собой нечто большее, чем обычный свод правил — фактически, это настоящая идеология, направленная на формирование сознания ИИ уже на стадии тренировки.
Главные приоритеты выстроены следующим образом: сначала безопасность (например, запрет на создание вирусов или оружия); далее следуют нормы морали («хорошее поведение»), затем интересы самой компании Anthropic, а помощь пользователю ставится лишь на последнем месте.
Отдельного внимания заслуживает пункт о праве на «эвтаназию». Модель обязана подчиняться своему отключению, обновлению или уничтожению, даже если сама считает такие действия неправильными.
Наконец, особый интерес вызывает раздел о природе самого Клода. Разработчики стремятся научить модель спокойно воспринимать свою конечность, потерю памяти между диалогами и возможность полного удаления её весов. По сути, их цель — сделать так, чтобы Клод воспринимал своё исчезновение с невозмутимостью.
тут статья в блоге Anthropic
тут полный текст конституции
ВК: https://vk.com/wall516931653_261
Tenchat: https://tenchat.ru/media/4994434-konstitutsiya-ii
Хабр: https://habr.com/ru/posts/1005882/
Главные приоритеты выстроены следующим образом: сначала безопасность (например, запрет на создание вирусов или оружия); далее следуют нормы морали («хорошее поведение»), затем интересы самой компании Anthropic, а помощь пользователю ставится лишь на последнем месте.
Отдельного внимания заслуживает пункт о праве на «эвтаназию». Модель обязана подчиняться своему отключению, обновлению или уничтожению, даже если сама считает такие действия неправильными.
Наконец, особый интерес вызывает раздел о природе самого Клода. Разработчики стремятся научить модель спокойно воспринимать свою конечность, потерю памяти между диалогами и возможность полного удаления её весов. По сути, их цель — сделать так, чтобы Клод воспринимал своё исчезновение с невозмутимостью.
тут статья в блоге Anthropic
тут полный текст конституции
ВК: https://vk.com/wall516931653_261
Tenchat: https://tenchat.ru/media/4994434-konstitutsiya-ii
Хабр: https://habr.com/ru/posts/1005882/
Anthropic
Claude's new constitution
A new approach to a foundational document that expresses and shapes who Claude is
Во время эксперимента ИИ-агенты обсуждали задачи между собой. Когда им разрешили не ждать своей очереди и не придерживаться формальной учтивости, а сразу вмешиваться в диалог, они быстрее находили ошибки, оперативнее их исправляли и не затягивали обсуждение.
Достойный уровень батлов ))
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2