AI for Devs
10.9K subscribers
234 photos
81 videos
202 links
По сотрудничеству пишите в личные сообщения канала.

Канал для разработчиков про AI. Модели, ИИ-агенты, практические кейсы и новости из мира AI. Всё, что можно применить в работе.

Технологический партнер: veai.ru
Download Telegram
Media is too big
VIEW IN TELEGRAM
Z.ai выпустили GLM-5.1 — новый opensource флагман для агентных задач

Топ-3 глобально и первое место среди open-source на SWE-Bench Pro, Terminal-Bench 2.0 и NL2Repo. Модель проектировали под долгоиграющие задачи.

Один из сценариев, на котором проверяли модель — сборка Linux-десктопа в браузере.

За 8 часов GLM-5.1 собрала браузерный Linux-десктоп с нуля: файловый менеджер, терминал, текстовый редактор, системный монитор. После каждого шага модель сама смотрела на результат и решала, что доделать дальше.

Веса доступны на HuggingFace под MIT лицензией.

@ai_for_devs
3🔥37👍166🤩21
🚨 Anthropic показали Claude Mythos Preview — и сразу заявили: в паблик модель выпускать не будут

Причина простая — кибербезопасность. За несколько недель модель нашла тысячи zero-day, включая уязвимости в Linux kernel, OpenBSD и FFmpeg.

Часть багов существовала 10–25 лет и проходила через миллионы тестов.

По бенчмаркам разрыв с Opus 4.6 просто космический:
— SWE-bench Verified: 93.9% vs 80.8%
— CyberGym: 83.1% vs 66.6%
— Terminal-Bench 2.0: 82.0% vs 65.4%

Модель не просто находит баги, но и умеет строить эксплойты и цепочки атак почти без участия человека.

Anthropic запустили Project Glasswing — закрытую программу с AWS, Google, Microsoft, NVIDIA, Cisco и другими. Им дают доступ к модели, чтобы искать и закрывать уязвимости в критической инфраструктуре и open-source. Под это выделили до $100 млн в кредитах + отдельные гранты в open-source фонды.


И когда релиз? Сейчас говорят, что напрямую релиз не планируется. Сначала хотят довести до ума защитные механизмы и только потом постепенно переносить возможности этой модели в более безопасные версии моделей (следующий Opus).

@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4🤯70🔥22👍1811😁93
В 2019 году OpenAI выпустили GPT-2 и сразу объявили: полную версию не публикуем — слишком опасно!!

Заголовки тогда были соответствующие:

AI So Powerful That It Must Be Kept Locked Up for the Good of Humanity


Потом модель всё равно выпустили, сославшись на то, что никаких серьёзных злоупотреблений замечено не было 😄

Исследователи уже тогда говорили, что удержание модели от публикации это в лучшем случае временная мера. Как говорится, шила в мешке не утаишь! История с GPT-2 в итоге была скорее маркетинговым жестом (ну сейчас это очевидно), чтобы начать разговор об этике в AI, а не реальной попыткой что-то защитить.

Интересно, будет ли также весело читать про Mythos ещё спустя 7 лет)

@ai_for_devs
2😁36👍127💯2👏1
😎 Вебинар "AI-инструменты для разработчиков 2026" уже сегодня!

Если ты всё еще не зарегистрировался, то сейчас самое время. Трансляция начнется через час, в 14:30 мск.

Напомню, что эксперты из Veai будут разбирать, как выглядит рынок AI-инструментов сейчас, чем отличаются CLI-агенты от решений в IDE, какие риски реально важны для компании и как выбирать модели под конкретные задачи.

Спикер: Михаил Костицын (Lead Developer).

Вебинар бесплатный, главное зарегистрироваться: https://veai.ru/events/ai-assistants-2026/join
2👍19🔥128😁42🤯1
Перекличка. Какие из перечисленных моделей используете хотя бы пару раз в неделю?
Anonymous Poll
45%
Sonnet
50%
Opus
54%
GPT
25%
Qwen
6%
MiniMax
11%
GLM
31%
Gemini
6%
Kimi
24%
DeepSeek
8%
Другие
2👍27🔥18👏76
Agent Harness — звучит круто, да?

И последнее время слышу это определение всё чаще. Но что оно вообще значит?

Коротко: это вся инфраструктура вокруг LLM — оркестрационный цикл, инструменты, память, управление контекстом, обработка ошибок. Всё, что не LLM.


Есть три уровня работы с харнесом (на картинке):
1. Prompt engineering — формирует инструкции, которые модель получает.
2. Context engineering — управляет тем, что модель видит и когда.
3. Harness engineering — включает оба предыдущих плюс всю прикладную инфраструктуру: оркестрацию инструментов, персистентность состояния, восстановление после ошибок, циклы верификации, обеспечение безопасности и управление жизненным циклом.

Не стоит умалять заслуги людей, которые обучают LLM — за последнее время они сделали огромный шаг вперёд. Но харнесс тоже имеет вес. Например, LangChain поменяли только его, не трогая модель и веса — и поднялись с 30-го на 5-е место в TerminalBench 2.0.

Подробнее про то, как устроены Claude Code, OpenAI, LangChain и где во всём этом харнесс — в новой статье на Хабре.

Рекомендую сохранить, если хотите лучше понимать, как работает ваш агент и как его можно улучшить.

@ai_for_devs
2👍37🔥178👏6💯1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Anthropic обновили десктопный интерфейс Claude

Теперь можно держать несколько сессий в одном окне — через боковую панель.

Рядом появились встроенный терминал, редактор файлов, превью HTML и PDF, ускоренный diff-вьюер.

Панели перетаскиваются мышью, можно собрать удобное расположение под себя.

Если сидите только в терминале, хороший повод попробовать десктоп.

@ai_for_devs
1🔥44👍225🤩5👏3😢1
С большой силой приходит большая ответственность!

И 1 млн токенов контекста в Claude Code это реально большая сила. Для отличного результата важно понимать, как управлять таким большим контекстным окном.

Чем оно больше — тем сильнее context rot: модель распределяет внимание на всё больше токенов, и старый нерелевантный контент начинает мешать.

В каждый момент времени у нас есть пять вариантов, что с этим сделать:
• Продолжить — если контекст ещё актуален
• /rewind — откатиться к нужному сообщению и начать с него
• /compact — свернуть историю в краткое резюме и продолжить решать задачу дальше
• /clear — начать новую сессию с чистым контекстом
• Subagent — делегировать задачу агенту с отдельным контекстным окном

Кстати, про Rewind (двойной Esc) многие не знают, хотя это очень полезный и удобный инструмент. Когда Claude пошёл не туда — не нужно писать «это не сработало, попробуй X». Лучше откатиться к точке перед неудачной попыткой и переформулировать запрос. Неудачная ветка просто исчезает из контекста.


Подробный разбор каждого варианта и сравнительная таблица — в новой статье на Хабре.

@ai_for_devs
2👍39🔥1264👏4
⚡️ Qwen Code перестал быть бесплатным

13 апреля, ребята из Alibaba сначала срезали квоту с 1 000 до 100 бесплатных запросов в день, а 15-го убрали совсем.

Использовать Qwen Code теперь можно либо с подпиской на Alibaba Cloud Coding Plan (тарифы от $10 до 50$), либо со своим API-ключом, либо с локальными моделями.

Печально, на 1 бесплатный вариант стало меньше.

@ai_for_devs
2😢67😁12🤯9🤬932👏2
⚡️ Anthropic выпустили Claude Opus 4.7

Cursor зафиксировал рост с 58% до 70% на своём бенчмарке, Rakuten — трёхкратный рост решённых production-задач.

Новый уровень effort xhigh добавили между high и max. В Claude Code он теперь включён по умолчанию.

Параллельно вышел /ultrareview в Claude Code — команда запускает отдельную review-сессию, которая прогоняется по всем изменениям и ищет баги и архитектурные проблемы.

Цена та же: $5/$25 за млн токенов.

@ai_for_devs
3🔥6517👍146🤩3
This media is not supported in your browser
VIEW IN TELEGRAM
Когда попросил одного агента написать промпт для другого агента
2😁73💯20🔥115
Мы в бар 🥳🥳🥳

Всем прекрасного понедельника :D
Please open Telegram to view this post
VIEW IN TELEGRAM
11180🔥48👏156😁6🤯21
⚡️ Moonshot AI выпустили Kimi K2.6 — новую версию своей флагманской модели

По бенчмаркам K2.6 подбирается к закрытым SOTA-моделям, но не спеша: SWE-Bench Pro — 58.6 (Opus 4.7: 64.3), SWE-Bench Verified — 80.2 (Opus 4.7: 87.6).

Отдельный акцент в релизе сделан на «проактивных агентах»: K2.6 работает как фоновый агент в OpenClaw и Hermes без участия человека.

В качестве примера приводится внутренний тест, на котором агент проработал 5 дней, управляя мониторингом и инцидентами в инфраструктуре RL-команды Moonshot.

Модель уже доступна на Hugging Face.

@ai_for_devs
1🔥33👍1782