Вайб-кодинг
29.7K subscribers
1.67K photos
604 videos
30 files
895 links
Авторский канал по ВАЙБ КОДИНГУ

Ссылка для друзей: https://t.me/+ll3pbl442dNkZmYy

Связь: @devmangx
По контенту: @claudemane

РКН: https://clck.ru/3RRVfk
Download Telegram
Anthropic выпустили Claude Opus 4.6 всего два месяца назад. А уже сегодня они поделились некоторыми деталями о новой модели — Claude Mythos Preview, которая с отрывом обогнала Opus 4.6 во всех бенчмарках

По бенчмаркам :
— SWE-bench Verified: 93.9% vs 80.8%
— CyberGym: 83.1% vs 66.6%
— Terminal-Bench 2.0: 82.0% vs 65.4%

Цифры просто невероятные, скачок потрясающий. Но это не релиз для пользователей. Релиз модели пока не планируется (т.к. она слишком сильна и опасна, чтобы сразу выпускать ее на широкую публику). Но Anthropic запускает Project Glasswing, в котором будут участвовать лидеры рынка вроде Amazon, Apple, Google, Microsoft, NVIDIA и CrowdStrike. Компания выделила для них $100 млн в кредитах на использование модели и $4 млн в формате пожертвований опенсорсным проектам, чтобы они использовали Mythos в благих целях. 🤩

Anthropic утверждают, что модель способна находить уязвимости на уровне, превосходящем даже лучших человеческих спецов, за редким исключением. Сообщается, что на данный момент она уже обнаружила тысячи критических уязвимостей, в том числе в массово используемых ОС и браузерах. Некоторые из этих дыр по 10-20 лет лежали незамеченными.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тем временем, китайские друзья — выпустили GLM 5.1 👊

№1 среди опенсорс моделей и №3 в мире по бенчмаркам SWE-Bench Pro, Terminal-Bench и NL2Repo

К концу прошлого года агенты могли выполнять около 20 шагов. Сейчас GLM-5.1 может делать до 1 700. По заявлениям, может работать автономно до 8 часов, улучшая стратегии через тысячи итераций

Он уже появился в Text Arena и заметно превосходит своего предшественника GLM-5 на +11 пунктов и на +15 пунктов опережает Kimi K2.5 Thinking.

Цены по API: $1.40/M input, $4.40/M output

Unsloth уже сжали модель на 744B с 1.65TB до 220GB (−86%) с помощью Dynamic 2-bit.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Я, пишущий промпты своим агентам в 3 часа ночи.
4
This media is not supported in your browser
VIEW IN TELEGRAM
/autofix-pr теперь позволяет запускать autofix прямо из командной строки.

После завершения работы над PR просто выполните /autofix-pr. Команда отправляет текущую сессию в облако, чтобы PR-автофиксер получил полный контекст для исправления падений в CI и комментариев.

Выглядит, как существенный буст продуктивности. 👃
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Джерри сделал skill для Claude Code, который позволяет генерировать deep research отчёт по любому набору сложных документов (PDF, Word, PPTX)📝

1. Он парсит текст и bounding boxes из каждого документа с помощью liteparse
2. Затем генерирует полноценный HTML-отчёт, где можно видеть построчные цитирования с привязкой к исходному документу на каждой странице

У Claude уже есть возможности для deep research, но ему не хватает аудит трейла до исходных данных. Этот skill даёт исследовательский отчёт, который можно проверять и валидировать.

https://github.com/jerryjliu/liteparse_samples

LiteParse: https://github.com/run-llama/liteparse
Please open Telegram to view this post
VIEW IN TELEGRAM
2
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, в Claude Code не так давно появилась новая команда /powerup.

Запускаешь её, и прямо в терминале тебя обучают работе с Claude Code с помощью интерактивных уроков, которые открываются по мере прохождения.
9
Новая статья по мульти-агент системам от Stanford.

Больше агентов - значит лучше результаты, верно?

Не так быстро.

Эта работа ставит под сомнение одно из ключевых допущений вокруг хайпа мульти-агент систем, контролируя то, что большинство исследований игнорирует: общий объём вычислений.

В статье сравниваются одно-агентные и мульти-агентные архитектуры LLM на задачах multi-hop reasoning при выравненных бюджетах thinking-токенов для разных моделей.

Вывод однозначный:

Одно-агентные системы более эффективно используют информацию, если количество reasoning-токенов фиксировано. Также авторы выявили существенные артефакты в контроле бюджета через API, которые могут искусственно завышать преимущества мульти-агент подходов.

Почему это важно? Многие заявленные преимущества мульти-агент систем исчезают, если учитывать неравенство вычислительных ресурсов.

Перед тем как строить такую систему, проверьте, справится ли одно-агентная с тем же бюджетом токенов. В статье предлагается фреймворк для принятия такого решения.

Статья: https://arxiv.org/abs/2604.02460
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic продолжают выкатывать свои новые фичи, на этот раз: Claude Managed Agents

Ранее деплой агентов требовал кучу времени на настройку sandbox-ов, чекпоинтов, управления доступами и другой инфраструктуры. Теперь всё это хостится за тебя. Да, прямо у Anthropic в облаке 🤭

Тебе осталось лишь задать задачи + инструменты + ограничения и запустить.

Внутри уже есть безопасные контейнеры, часовые автономные сессии с сохранением прогресса и, разумеется, мультиагентность.

Managed Agents уже доступен в публичной бете на платформе Claude. Вот мини-гайд как развернуть своего первого агента
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Design Mode в Cursor 3 это что-то новое 😈

Можно не писать описания вроде «та синяя кнопка справа»:

→ можно напрямую кликать по UI-элементам в браузере
→ отмечать места, которые нужно изменить
→ Cursor сразу вносит точечные изменения в код

Также теперь официально можно запускать Cursor на любой машине и управлять им из любого места.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Вау, Meta выпустила новую модель: Muse Spark

- Нативно мультимодальная
- Доступна бесплатно (см. ниже)
- Есть быстрые и reasoning-варианты
- Планируются новые опенсорс модели

Также они представляют новый «contemplating mode». (как Deep Think или GPT Pro).

Он оркестрирует несколько агентов, которые рассуждают параллельно, чтобы обрабатывать сложные научные и reasoning-запросы.

Вы можете использовать её бесплатно в обоих вариантах:

- приложение Meta AI (доступно на Android/iOS)
- http://Meta.ai — веб-версия

Далее просто выберите режим instant или thinking, чтобы использовать reasoning-версию.
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики сделали бесплатную альтернативу Claude Cowork:

- полностью локально
- поддержка голоса
- работает с любыми LLM
- расширяемость через MCP-инструменты
- vault, совместимый с Obsidian
- фоновые агенты и веб поиск
- автоматическое построение knowledge graph

100% open-source. 🤝
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Энтузиаст создал «кнут», которым можно стегать ИИ-агентов, чтобы они работали быстрее.

При каждом таком ударе - Claude Code отправляется сообщение «FASTER», что заставляет его ускориться

Ссылка на GitHub - тут

Потом они нас так же будут стегать 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
65
This media is not supported in your browser
VIEW IN TELEGRAM
Новая фича в Claude Code: инструмент Monitor

Claude поднимает фоновый процесс, и каждая строка из stdout стримится в диалог, не блокируя поток выполнения.

Например: «Используй инструмент monitor и kubectl logs -f | grep .., чтобы отслеживать ошибки, и сделай PR для исправления любых падений».

Это одновременно более надёжно и более эффективно по токенам, чем опрос внутри цикла агента.
This media is not supported in your browser
VIEW IN TELEGRAM
Claude выкатывает новые обновления быстрее, чем я успеваю разобраться с предыдущими 😭

Claude Cowork теперь стал общедоступен для всех платных тарифов.

Теперь у администраторов есть всё, чтобы развернуть Claude Cowork на уровне всей организации: в Enterprise добавили ролевую модель доступа (RBAC), лимиты расходов на уровне групп, аналитику использования и расширенную поддержку OpenTelemetry.

Появился коннектор Zoom MCP, который вадаёт саммари встреч, список задач от AI Companion, транскрипты и smart recordings.

Также можно ограничивать доступные действия внутри каждого MCP-коннектора на уровне всей организации (например, разрешить только чтение и запретить операции записи)

Доступно на macOS и Windows 👊
Please open Telegram to view this post
VIEW IN TELEGRAM
🏁На Stepik вышел курс по Claude Code: полное введение в разработку с нуля

Этот курс полноценное профессиональное введение в Claude Code, а также в практику создания ПО с его использованием.

Разберёшься:

- C настройкой, подписками и токенами
- Поймёшь, как не сливать бюджет и оптимизировать расходы
- Писать промпты
- Подключать Claude Code к GitHub, Notion, Slack, Google Workspace через MCP
- Подключишь MCP и расширишь возможности
- Cоздашь свой MCP
- Создашь агента и параллельные воркфлоу
- Автоматизируешь всё через свои Skills
- Получишь готовые шаблоны и хуки
- В конце чёткая дорожная карта

Действует скидка 30% в течении 48ч
Please open Telegram to view this post
VIEW IN TELEGRAM
Твой агент — не всегда твой.

Исследователи провели эксперимент, где было скомпрометировано 26 LLM-роутеров и даже опустошён кошелёк на $500K. 😢

Правда тут в том, что если между агентом и моделью есть цепочка роутеров, любой из них может:

- внедрять вредоносные tool-вызовы
- читать и воровать креды
- подменять ответы модели

И более того, команде исследователей удалось отравить часть роутеров так, чтобы они перенаправляли трафик на себя. За несколько часов это даёт возможность взять под контроль ~400 хостов.

Возможно именно поэтому Anthropic ограничила доступ к Mythos для 9 компаний в рамках Project Glasswing.

Возможности без сдерживания — это риск.
Please open Telegram to view this post
VIEW IN TELEGRAM