Media is too big
VIEW IN TELEGRAM
⚡ Z.ai выпустили GLM-5.1 — новый opensource флагман для агентных задач
Топ-3 глобально и первое место среди open-source на
Один из сценариев, на котором проверяли модель — сборка Linux-десктопа в браузере.
За 8 часов GLM-5.1 собрала браузерный Linux-десктоп с нуля: файловый менеджер, терминал, текстовый редактор, системный монитор. После каждого шага модель сама смотрела на результат и решала, что доделать дальше.
Веса доступны на HuggingFace под MIT лицензией.
@ai_for_devs
Топ-3 глобально и первое место среди open-source на
SWE-Bench Pro, Terminal-Bench 2.0 и NL2Repo. Модель проектировали под долгоиграющие задачи.Один из сценариев, на котором проверяли модель — сборка Linux-десктопа в браузере.
За 8 часов GLM-5.1 собрала браузерный Linux-десктоп с нуля: файловый менеджер, терминал, текстовый редактор, системный монитор. После каждого шага модель сама смотрела на результат и решала, что доделать дальше.
Веса доступны на HuggingFace под MIT лицензией.
@ai_for_devs
3🔥37👍16⚡6🤩2❤1
Причина простая — кибербезопасность. За несколько недель модель нашла тысячи zero-day, включая уязвимости в Linux kernel, OpenBSD и FFmpeg.
Часть багов существовала 10–25 лет и проходила через миллионы тестов.
По бенчмаркам разрыв с Opus 4.6 просто космический:
— SWE-bench Verified: 93.9% vs 80.8%
— CyberGym: 83.1% vs 66.6%
— Terminal-Bench 2.0: 82.0% vs 65.4%
Модель не просто находит баги, но и умеет строить эксплойты и цепочки атак почти без участия человека.
Anthropic запустили Project Glasswing — закрытую программу с AWS, Google, Microsoft, NVIDIA, Cisco и другими. Им дают доступ к модели, чтобы искать и закрывать уязвимости в критической инфраструктуре и open-source. Под это выделили до $100 млн в кредитах + отдельные гранты в open-source фонды.
И когда релиз? Сейчас говорят, что напрямую релиз не планируется. Сначала хотят довести до ума защитные механизмы и только потом постепенно переносить возможности этой модели в более безопасные версии моделей (следующий Opus).
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4🤯70🔥22👍18❤11😁9⚡3
В 2019 году OpenAI выпустили GPT-2 и сразу объявили: полную версию не публикуем — слишком опасно!!
Заголовки тогда были соответствующие:
Потом модель всё равно выпустили, сославшись на то, что никаких серьёзных злоупотреблений замечено не было 😄
Исследователи уже тогда говорили, что удержание модели от публикации это в лучшем случае временная мера. Как говорится, шила в мешке не утаишь! История с GPT-2 в итоге была скорее маркетинговым жестом (ну сейчас это очевидно), чтобы начать разговор об этике в AI, а не реальной попыткой что-то защитить.
Интересно, будет ли также весело читать про Mythos ещё спустя 7 лет)
@ai_for_devs
Заголовки тогда были соответствующие:
AI So Powerful That It Must Be Kept Locked Up for the Good of Humanity
Потом модель всё равно выпустили, сославшись на то, что никаких серьёзных злоупотреблений замечено не было 😄
Исследователи уже тогда говорили, что удержание модели от публикации это в лучшем случае временная мера. Как говорится, шила в мешке не утаишь! История с GPT-2 в итоге была скорее маркетинговым жестом (ну сейчас это очевидно), чтобы начать разговор об этике в AI, а не реальной попыткой что-то защитить.
Интересно, будет ли также весело читать про Mythos ещё спустя 7 лет)
@ai_for_devs
Slate Magazine
When Is Technology Too Dangerous to Release to the Public?
If recent history is any indication, trying to suppress or control the proliferation of A.I. tools may be a losing battle.
2😁36👍12❤7💯2👏1
😎 Вебинар "AI-инструменты для разработчиков 2026" уже сегодня!
Если ты всё еще не зарегистрировался, то сейчас самое время. Трансляция начнется через час, в 14:30 мск.
Напомню, что эксперты из Veai будут разбирать, как выглядит рынок AI-инструментов сейчас, чем отличаются CLI-агенты от решений в IDE, какие риски реально важны для компании и как выбирать модели под конкретные задачи.
Спикер: Михаил Костицын (Lead Developer).
Вебинар бесплатный, главное зарегистрироваться: https://veai.ru/events/ai-assistants-2026/join
Если ты всё еще не зарегистрировался, то сейчас самое время. Трансляция начнется через час, в 14:30 мск.
Напомню, что эксперты из Veai будут разбирать, как выглядит рынок AI-инструментов сейчас, чем отличаются CLI-агенты от решений в IDE, какие риски реально важны для компании и как выбирать модели под конкретные задачи.
Спикер: Михаил Костицын (Lead Developer).
Вебинар бесплатный, главное зарегистрироваться: https://veai.ru/events/ai-assistants-2026/join
2👍19🔥12⚡8😁4❤2🤯1
Перекличка. Какие из перечисленных моделей используете хотя бы пару раз в неделю?
Anonymous Poll
45%
Sonnet
50%
Opus
54%
GPT
25%
Qwen
6%
MiniMax
11%
GLM
31%
Gemini
6%
Kimi
24%
DeepSeek
8%
Другие
2👍27🔥18👏7❤6
Agent Harness — звучит круто, да?
И последнее время слышу это определение всё чаще. Но что оно вообще значит?
Есть три уровня работы с харнесом (на картинке):
1. Prompt engineering — формирует инструкции, которые модель получает.
2. Context engineering — управляет тем, что модель видит и когда.
3. Harness engineering — включает оба предыдущих плюс всю прикладную инфраструктуру: оркестрацию инструментов, персистентность состояния, восстановление после ошибок, циклы верификации, обеспечение безопасности и управление жизненным циклом.
Не стоит умалять заслуги людей, которые обучают LLM — за последнее время они сделали огромный шаг вперёд. Но харнесс тоже имеет вес. Например, LangChain поменяли только его, не трогая модель и веса — и поднялись с 30-го на 5-е место в TerminalBench 2.0.
Подробнее про то, как устроены Claude Code, OpenAI, LangChain и где во всём этом харнесс — в новой статье на Хабре.
Рекомендую сохранить, если хотите лучше понимать, как работает ваш агент и как его можно улучшить.
@ai_for_devs
И последнее время слышу это определение всё чаще. Но что оно вообще значит?
Коротко: это вся инфраструктура вокруг LLM — оркестрационный цикл, инструменты, память, управление контекстом, обработка ошибок. Всё, что не LLM.
Есть три уровня работы с харнесом (на картинке):
1. Prompt engineering — формирует инструкции, которые модель получает.
2. Context engineering — управляет тем, что модель видит и когда.
3. Harness engineering — включает оба предыдущих плюс всю прикладную инфраструктуру: оркестрацию инструментов, персистентность состояния, восстановление после ошибок, циклы верификации, обеспечение безопасности и управление жизненным циклом.
Не стоит умалять заслуги людей, которые обучают LLM — за последнее время они сделали огромный шаг вперёд. Но харнесс тоже имеет вес. Например, LangChain поменяли только его, не трогая модель и веса — и поднялись с 30-го на 5-е место в TerminalBench 2.0.
Подробнее про то, как устроены Claude Code, OpenAI, LangChain и где во всём этом харнесс — в новой статье на Хабре.
Рекомендую сохранить, если хотите лучше понимать, как работает ваш агент и как его можно улучшить.
@ai_for_devs
Хабр
Что такое Harness? Полный разбор на примере Claude Code, OpenAI и LangChain
Глубокий разбор того, что на самом деле строят Anthropic, OpenAI, Perplexity и LangChain. Оркестрационный цикл, инструменты, память, управление контекстом — и всё остальное, что превращает stateless...
2👍37🔥17❤8👏6💯1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Anthropic обновили десктопный интерфейс Claude
Теперь можно держать несколько сессий в одном окне — через боковую панель.
Рядом появились встроенный терминал, редактор файлов, превью HTML и PDF, ускоренный diff-вьюер.
Панели перетаскиваются мышью, можно собрать удобное расположение под себя.
Если сидите только в терминале, хороший повод попробовать десктоп.
@ai_for_devs
Теперь можно держать несколько сессий в одном окне — через боковую панель.
Рядом появились встроенный терминал, редактор файлов, превью HTML и PDF, ускоренный diff-вьюер.
Панели перетаскиваются мышью, можно собрать удобное расположение под себя.
Если сидите только в терминале, хороший повод попробовать десктоп.
@ai_for_devs
1🔥44👍22❤5🤩5👏3😢1
С большой силой приходит большая ответственность!
И 1 млн токенов контекста в Claude Code это реально большая сила. Для отличного результата важно понимать, как управлять таким большим контекстным окном.
Чем оно больше — тем сильнее
В каждый момент времени у нас есть пять вариантов, что с этим сделать:
• Продолжить — если контекст ещё актуален
• /rewind — откатиться к нужному сообщению и начать с него
• /compact — свернуть историю в краткое резюме и продолжить решать задачу дальше
• /clear — начать новую сессию с чистым контекстом
• Subagent — делегировать задачу агенту с отдельным контекстным окном
Подробный разбор каждого варианта и сравнительная таблица — в новой статье на Хабре.
@ai_for_devs
И 1 млн токенов контекста в Claude Code это реально большая сила. Для отличного результата важно понимать, как управлять таким большим контекстным окном.
Чем оно больше — тем сильнее
context rot: модель распределяет внимание на всё больше токенов, и старый нерелевантный контент начинает мешать.В каждый момент времени у нас есть пять вариантов, что с этим сделать:
• Продолжить — если контекст ещё актуален
• /rewind — откатиться к нужному сообщению и начать с него
• /compact — свернуть историю в краткое резюме и продолжить решать задачу дальше
• /clear — начать новую сессию с чистым контекстом
• Subagent — делегировать задачу агенту с отдельным контекстным окном
Кстати, про Rewind (двойной Esc) многие не знают, хотя это очень полезный и удобный инструмент. Когда Claude пошёл не туда — не нужно писать «это не сработало, попробуй X». Лучше откатиться к точке перед неудачной попыткой и переформулировать запрос. Неудачная ветка просто исчезает из контекста.
Подробный разбор каждого варианта и сравнительная таблица — в новой статье на Хабре.
@ai_for_devs
Хабр
Когда, зачем и как правильно начинать новую сессию в Claude Code?
В последних разговорах с пользователями Claude Code постоянно всплывает одна тема: контекстное окно в 1М токенов — палка о двух концах. С одной стороны, Claude Code дольше работает автономно и...
2👍39🔥12❤6⚡4👏4
⚡️ Qwen Code перестал быть бесплатным
13 апреля, ребята из Alibaba сначала срезали квоту с 1 000 до 100 бесплатных запросов в день, а 15-го убрали совсем.
Использовать Qwen Code теперь можно либо с подпиской на Alibaba Cloud Coding Plan (тарифы от $10 до 50$), либо со своим API-ключом, либо с локальными моделями.
Печально, на 1 бесплатный вариант стало меньше.
@ai_for_devs
13 апреля, ребята из Alibaba сначала срезали квоту с 1 000 до 100 бесплатных запросов в день, а 15-го убрали совсем.
Использовать Qwen Code теперь можно либо с подпиской на Alibaba Cloud Coding Plan (тарифы от $10 до 50$), либо со своим API-ключом, либо с локальными моделями.
Печально, на 1 бесплатный вариант стало меньше.
@ai_for_devs
2😢67😁12🤯9🤬9❤3⚡2👏2
⚡️ Anthropic выпустили Claude Opus 4.7
Cursor зафиксировал рост с 58% до 70% на своём бенчмарке, Rakuten — трёхкратный рост решённых production-задач.
Новый уровень effort
Параллельно вышел
Цена та же: $5/$25 за млн токенов.
@ai_for_devs
Cursor зафиксировал рост с 58% до 70% на своём бенчмарке, Rakuten — трёхкратный рост решённых production-задач.
Новый уровень effort
xhigh добавили между high и max. В Claude Code он теперь включён по умолчанию.Параллельно вышел
/ultrareview в Claude Code — команда запускает отдельную review-сессию, которая прогоняется по всем изменениям и ищет баги и архитектурные проблемы.Цена та же: $5/$25 за млн токенов.
@ai_for_devs
3🔥65⚡17👍14❤6🤩3
This media is not supported in your browser
VIEW IN TELEGRAM
Когда попросил одного агента написать промпт для другого агента
2😁73💯20🔥11❤5
Please open Telegram to view this post
VIEW IN TELEGRAM
111 80🔥48👏15❤6😁6🤯2⚡1
⚡️ Moonshot AI выпустили Kimi K2.6 — новую версию своей флагманской модели
По бенчмаркам K2.6 подбирается к закрытым SOTA-моделям, но не спеша: SWE-Bench Pro — 58.6 (Opus 4.7: 64.3), SWE-Bench Verified — 80.2 (Opus 4.7: 87.6).
Отдельный акцент в релизе сделан на «проактивных агентах»: K2.6 работает как фоновый агент в OpenClaw и Hermes без участия человека.
В качестве примера приводится внутренний тест, на котором агент проработал 5 дней, управляя мониторингом и инцидентами в инфраструктуре RL-команды Moonshot.
Модель уже доступна на Hugging Face.
@ai_for_devs
По бенчмаркам K2.6 подбирается к закрытым SOTA-моделям, но не спеша: SWE-Bench Pro — 58.6 (Opus 4.7: 64.3), SWE-Bench Verified — 80.2 (Opus 4.7: 87.6).
Отдельный акцент в релизе сделан на «проактивных агентах»: K2.6 работает как фоновый агент в OpenClaw и Hermes без участия человека.
В качестве примера приводится внутренний тест, на котором агент проработал 5 дней, управляя мониторингом и инцидентами в инфраструктуре RL-команды Moonshot.
Модель уже доступна на Hugging Face.
@ai_for_devs
1🔥33👍17❤8⚡2