Заметки LLM-энтузиаста

🤖 Microsoft выпустила Agent Lightning — фреймворк для обучения ИИ-агентов с помощью обучения с подкреплением

Многие ИИ-агенты отлично работают в демо, но проваливаются в реальных сценариях с многоэтапными задачами, приватными данными и незнакомыми инструментами. Промпт-инжиниринг не всегда надежен и имеет свои ограничения.

Microsoft представила Agent Lightning — открытый фреймворк, который обучает ИИ-агентов методом обучения с подкреплением практически без изменений в существующем коде.
Хотя, например, авторы Manus считают, что излишнее усложнение агентов путем дообучения моделей - это ловушка, которой следует избегать (см. интерактивный транскрипт из заметки)

🔧 Как это работает:
ИИ-агент работает в обычном режиме, а фреймворк перехватывает поток выполнения. Он фиксирует каждый вызов LLM, обращение к инструментам и сигналы вознаграждения в виде структурированных блоков данных, а затем передает эти данные в алгоритмы оптимизации, которые реально улучшают производительность агента.

⚡️ Основные возможности:

1️⃣ Простая интеграция — добавьте трейсер в существующий код агента и начните собирать данные для обучения. Система автоматически инструментирует вызовы LLM без переписывания под конкретные фреймворки

2️⃣ Множественные методы оптимизации — выбирайте между обучением с подкреплением с интеграцией VERL для файн-тюнинга модели или автоматической оптимизацией промптов

3️⃣ Независимая архитектура масштабирования — запускайте десятки воркеров на CPU-машинах, пока обучение происходит на GPU-кластерах

4️⃣ Мониторинг в продакшене — встроенное логирование отслеживает каждое решение агента, вызов LLM и сигнал вознаграждения через OpenTelemetry

🔗 Совместимость:
Работает с любыми фреймворками для ИИ-агентов: LangChain, OpenAI Agent SDK, AutoGen, CrewAI, Microsoft Agent Framework, или даже без фреймворка (чистый Python OpenAI).

📊 Преимущество RL над обучением с учителем:
Обучение с подкреплением требует только сигналы результата (задача решена/провалена), в то время как обучение с учителем требует детальных аннотаций для каждого шага каждой задачи, что крайне дорого для интерактивных сценариев.

🔬 Подробнее:
• GitHub: https://github.com/microsoft/agent-lightning
• Документация: https://microsoft.github.io/agent-lightning/latest/
• DeepWiki: https://deepwiki.com/microsoft/agent-lightning

@llm_notes

#reinforcement_learning #rl #agents #microsoft #machine_learning #ml #llm

❤2🔥1

649 viewsedited 18:18

🚀 Cursor 2.0: новая версия AI-редактора кода

Только вчера на первом занятии пятого потока курса по "ИИ-прототипам и вайб-кодингу" (который исторически назывался курсом по Cursor) обсуждали, чем Cursor лучше других ИИ-кодеров, и мне ничего кроме возможности работы с ним без VPN (что во время блокировок может быть настоящей killer-фичей) в голову не пришло, а уже сегодня команда Cursor выпустила крупное обновление своего AI-редактора с несколькими значимыми нововведениями.

🤖 Composer — собственная модель для кодирования
Cursor представил новую собственную модель для программирования (если помните, раньше уже была внутри Cursor модель похожего плана, она называлась Cursor, но, судя по всему, ей особо никто не пользовался, я уж точно). По заявлениям разработчиков, новая модель работает в 4 раза быстрее аналогичных решений и выполняет большинство задач менее чем за 30 секунд. Имеет смысл потестировать на реальных проектах.
Собственная модель для написания кода - логичный шаг для любого вендора коммерческих решений по Vibe Coding, иначе с развитием качественных решений такого плана от вендоров LLM (openai/anthropic/google) ценность нишевых решений будет падать.

👥 Мультиагентный интерфейс
• Новый интерфейс, ориентированный на работу с агентами
• Возможность запуска до 8 агентов параллельно
• Изоляция агентов через Git worktrees или удаленные машины
• Возможность сравнения результатов работы разных моделей

🌐 Встроенный браузер
Браузер теперь интегрирован в редактор с инструментами для выбора элементов, полными dev tools и MCP-контролами для агента.
Теперь есть паритет по данной функциональности с Windsurf, которые выпустили встроенный браузер в начале лета этого года (подробнее в заметке по ссылке)
Остается еще добавить удобный деплой, хостинг и мониторинг приложений в облаке, через интеграцию с кем-то из существующих вендоров: cloudflare (как сделали ребята из Genspark), aws/gcp (как сделано в leap.new), netlify (как сделали ребята из Windsurf), можно сделать шаблоны для railway / fly.io / и т.д. или сделать такое "облако" для деплоя самим, как поступили ребята из lovable - и тогда Cursor действительно можно будет считать самым удобным инструментом для вайб-кодинга.

📋 Улучшенный код-ревью
Все изменения агента по кодовой базе теперь отображаются в одном месте, без необходимости переключаться между файлами.

🎙 Голосовой режим
Добавлена поддержка голосового управления с встроенным преобразованием речи в текст.

⚡️ Другие улучшения:
1️⃣ Повышена производительность языковых серверов
2️⃣ Улучшена отрисовка текста
3️⃣ Добавлены deeplink для правил и команд
4️⃣ Режим планирования для фоновых агентов
5️⃣ Новые средства безопасности для корпоративных пользователей

Cursor 2.0 доступен для загрузки на официальном сайте.
Я обновился через уведомление в старой версии.

@llm_notes

Источники:
• https://cursor.com/changelog/2-0
• https://cursor.com/blog/composer

#cursor #vibecoding #development #programming

👍2🔥1

438 views05:25

Заметки LLM-энтузиаста

🚀 Cognition представила SWE-1.5 — новую модель для разработки ПО

Не успели мы порадоваться новой модели для кодинга от Cursor, как компания Cognition (которая этим летом купила Windsurf) анонсировала выпуск SWE-1.5 - специализированной модели для кодинга с сотнями миллиардов параметров.

Модель показывает производительность на уровне GPT-5-high в бенчмарке SWE-Bench Pro, работая при этом в 6 раз быстрее Haiku 4.5 и в 13 раз быстрее Sonnet 4.5.

🔧 Ключевые особенности:

• Скорость до 950 токенов в секунду благодаря партнерству с Cerebras
• Обучение с подкреплением на реальных задачах программирования (именно RL и помог сделать модель такой классной)
• Интеграция в IDE Windsurf
• Обучение на кластере GB200 NVL72 (возможно, первая публичная модель, прошедшая обучение на таком "железе")

📊 Подход к обучению:

1️⃣ Создание собственного датасета, отражающего реальные задачи разработчиков
2️⃣ Три механизма оценки: классические тесты, рубрики качества кода и агентная проверка
3️⃣ Процесс "reward hardening" для предотвращения обхода системы оценки
4️⃣ Совместная оптимизация модели и агентной системы

⚡️ Практическое применение:

• Изучение больших кодовых баз (используется в функциональности Codemaps, которая строит иерархические карты кодовых баз)
• Создание full-stack приложений
• Редактирование конфигураций
• Задачи, которые раньше занимали 20 секунд, теперь выполняются за 5 секунд

Модель доступна в последней версии Windsurf. Разработчики отмечают, что SWE-1.5 устраняет необходимость выбирать между скоростью и качеством работы ИИ-помощника.

🔗 Источники:
• [Официальный блог Cognition]
• [Скачать Windsurf]

@llm_notes

#windsurf #swe15 #cognition #vibecoding #ai #programming

❤2

1.12K viewsedited 13:24

Заметки LLM-энтузиаста

🤖 LangChain запускает свой Agent Builder — конструктор ИИ-агентов без кода

LangChain представил LangSmith Agent Builder в закрытом превью — платформу для создания ИИ-агентов без необходимости писать код. Теперь создавать автономных агентов смогут не только разработчики.

Что отличает от конкурентов:

🔹 Это не визуальный конструктор workflow, а именно агент-билдер
🔹 Агенты принимают решения динамически, а не следуют заранее заданному пути
🔹 Встроенная система памяти — агент запоминает исправления и применяет их в будущем

Ключевые возможности:

1️⃣ Разговорная настройка — описываете задачу простым языком, система задает уточняющие вопросы и автоматически генерирует промпты

2️⃣ Адаптивная память — агенты обновляют свои инструкции на основе ваших корректировок без ручного редактирования

3️⃣ Интеграция с сервисами — подключение к Gmail, Slack, Linear, LinkedIn через OAuth и MCP

4️⃣ Agent Inbox — мониторинг всех потоков агентов с индикаторами статуса и уведомлениями

Архитектура агента включает:

• Промпт — логика и описание задач агента
• Инструменты — подключение к внешним сервисам через MCP
• Триггеры — автоматический запуск по событиям или расписанию
• Субагенты — разделение сложных задач на специализированные модули

Платформа подходит для внутренних задач: email-ассистенты, чат-боты, интеграция с Salesforce. Например, агент может ежедневно присылать сводку встреч или создавать задачи в Linear на основе писем.

В целом, все это можно сделать и в том же manus.im через интеграционную связку "отправка задания по email" в manus, внутри которого предварительно настроены нужные mcp-серверы.
Но если вы хотите влиять на архитектуру agent flow и в дальнейшем мониторить его состояние, то LangSmith Agent Builder подойдет лучше, чем универсальная система вроде manus.im.
Получается, LangSmith Agent Builder - это что-то вроде lovable/replit для построения мульти-агентной системы.
Кстати, вот еще один вариант системы такого плана, но которую можно потестировать и без private preview (я ее использовал в третьем потоке курса по ИИ-прототипированию для быстрого создания мульти-агентных цепочек).

Источники:
📝 [Официальный блог LangChain]
🎥 [Демо на YouTube]

@llm_notes

#agents #langchain #automation #productivity #builder

🔥3❤‍🔥2❤1

624 viewsedited 19:16

Заметки LLM-энтузиаста

🔧 Новый подход к оптимизации MCP-агентов от Anthropic

Команда Anthropic Engineering пару дней назад опубликовала интересную статью, посвященную решению двух основных проблем MCP-агентов: высокой стоимости токенов и задержек.

Суть проблемы:
Все определения инструментов загружаются в контекст заранее, а каждый промежуточный результат требует обращения к модели, даже при простом перемещении данных.

Предложенное решение:
Представить MCP-серверы как код-API в файловой структуре, дать агенту среду выполнения кода и позволить ему писать программы для взаимодействия с инструментами. Так уже некоторое время назад поступает Manus (см. заметку и более подробный интерактивный транскрипт)

Ключевые преимущества:

🔄 Прогрессивная (постепенная) загрузка инструментов
Агент исследует файловое дерево серверов по требованию, загружая только нужные определения инструментов

📊 Фильтрация данных в среде выполнения
Обработка больших датасетов непосредственно в коде. Из 10,000 строк таблицы агент видит только 5 отфильтрованных записей

⚡️ Управление потоком действий без трат токенов
Циклы, условия и обработка ошибок выполняются как код, а не цепочки отдельных вызовов инструментов

🔒 Приватные потоки данных
Промежуточные результаты остаются в среде выполнения, модель видит только то, что явно логируется

💾 Постоянные навыки и состояние
Сохранение рабочего кода как переиспользуемых функций в директории ./skills/

Сравнение с Cloudflare Code Mode:

1️⃣ Обнаружение инструментов:
• Cloudflare: загружает все TypeScript определения заранее
• Anthropic: файловая система с прогрессивным раскрытием

2️⃣ Эффективность контекста:
• Cloudflare: определения типов загружаются изначально
• Anthropic: сокращение токенов на 98.7% за счет загрузки только необходимых определений

3️⃣ Применение:
• Cloudflare: готовая инфраструктура на их платформе
• Anthropic: кастомные архитектуры агентов с акцентом на эффективность

Подход использует сильные стороны LLM (написание кода) для устранения их слабостей (управление контекстным окном).

Источники:
📖 [Оригинальная статья Anthropic]
🔗 [Cloudflare Code Mode]

Также подготовил для вас:
🌐 [Интерактивный гайд на русском языке]

@llm_notes

#mcp #anthropic #ai #agents #optimization #llm_efficiency

👍3❤1

419 views16:55

About

Blog

Apps

Platform