Заметки LLM-энтузиаста

Интеграция v0 с Cursor: новые возможности для разработки

Теперь можно использовать v0 напрямую в редакторе Cursor. Это позволяет превратить базовый UI-код в более профессиональный frontend.

Настройка интеграции 🔧

1️⃣ Откройте настройки Cursor:
• ⌘+Shift+P на macOS
• Ctrl+Shift+P на Windows/Linux

2️⃣ Перейдите во вкладку Models

3️⃣ Найдите поле OpenAI API Key и вставьте ваш v0 API ключ

4️⃣ Нажмите Override OpenAI Base URL

5️⃣ Введите эндпоинт v0: https://api.v0.dev/v1

6️⃣ Сохраните настройки и проверьте соединение

Использование `v0-1.0-md` в Agent Mode 🤖

• Откройте новый чат
• Режим: Agent
• Модель: любая с пометкой OpenAI (gpt-4o, gpt-4-turbo и т.д.)
• Cursor автоматически будет использовать v0-1.0-md

Для проверки можете спросить: "кто ты?" (см. скриншот)

Обратите внимание, что на данный момент есть небольшой баг, связанный с тем, что если вы включили использование модели v0-1.0-md и в чате обращаетесь к какой-то другой модели (например, claude-3.5-sonnet), то будете получать ошибку (см. скриншот), поэтому если модель v0-1.0-md не нужна на данном этапе, то ее лучше просто отключить в настройках.

Возможности модели v0-1.0-md 📋

• Поддержка текста и изображений
• Совместимость с OpenAI Chat Completions API
• Быстрые потоковые ответы
• Оптимизация для современных стеков (Next.js, Vercel)
• Автоматическое исправление ошибок кода

Ограничения использования ⚠️

• Максимум 200 сообщений в день
• Контекстное окно: 128,000 токенов
• Максимальный вывод: 32,000 токенов
• Требуется Premium или Team план с оплатой по использованию

API находится в бета-версии. Для получения API ключа нужно зайти на v0.dev в настройки.

Пример использования

• Создаем в существующем next-js проекте Cursor главную страницу при помощи v0-1.0-md модели

Сделай красивое и стильное приложение календарь на базе моего уже настроенного проекта на Next.js.
Cначала создай главную страницу.

результат см. на скриншоте

• Переключаемся на claude-3.5-sonnet (или 4.0), продолжаем дизайнить фронтенд приложения этой моделью, и все остальные страницы будут сохранять стиль, который был задан на первой странице моделью v0-1.0-md
Похожего эффекта красивого фронтенда можно добиться, используя magic-ui MCP и постоянно к нему обращаясь в процессе написания кода для UI.

Источники:
• https://vercel.com/docs/v0/cursor
• https://vercel.com/docs/v0/api

#cursor #v0 #frontend #development #ai

👍4❤3🔥1

455 views20:14

Заметки LLM-энтузиаста

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Stagewise: инструмент для точной настройки UI с помощью ИИ 🎯

Stagewise — это браузерная панель инструментов, которая соединяет веб-интерфейс с ИИ-агентами в редакторах кода. Основная идея: выбираете элементы на странице, оставляете комментарий и позволяете ИИ внести нужные изменения.

Как это работает:
🔸 Устанавливаете расширение в VS Code/Cursor
🔸 Добавляете компонент в веб-приложение
🔸 Выбираете элементы прямо в браузере
🔸 Описываете желаемые изменения
🔸 ИИ получает контекст и вносит правки в код

Основные возможности:
🔸 Работает с React, Next.js, Vue
🔸 Передает DOM-элементы, скриншоты и метаданные
🔸 Поддерживает выбор нескольких элементов
🔸 Настраивается через конфигурационный файл

Поддерживаемые ИИ-агенты:
1️⃣ Cursor ✅
2️⃣ Windsurf ✅
3️⃣ GitHub Copilot 🚧 (в разработке)
4️⃣ Остальные пока не поддерживаются

Архитектура системы:
🔸 Браузерная панель инструментов
🔸 Расширение для VS Code
🔸 Типобезопасная RPC-система для связи
🔸 MCP-сервер для интеграции с ИИ

Инструмент решает проблему точной настройки UI, когда ИИ делает 80% работы правильно, но остальные 20% требуют детальных правок. Вместо описания изменений текстом, предоствляя скриншот, вы просто показываете конкретные элементы. Такая функциональность обычно встроена во все AI веб-кодеры (lovable, bolt.new, replit и т.д.), а stagewise дает возможность получить ее в IDE-кодерах на своем ПК или mac'e.

Проект с открытым исходным кодом, активно развивается.
Монорепозиторий включает компоненты для разных фреймворков и систему сборки на базе pnpm и Turborepo.
Deepwiki документация со схемами по нему здесь.

#ai #frontend #cursor #ui #development

👍6❤‍🔥3

397 viewsedited 15:12

Заметки LLM-энтузиаста

GitHub представил Copilot Spaces — новый инструмент для управления знаниями команды 🚀

Команды разработчиков часто сталкиваются с проблемой разрозненной информации: код разбросан по репозиториям, документация спрятана в файлах, а лучшие практики существуют только в головах опытных коллег. Это замедляет работу и усложняет сотрудничество.

GitHub выпустил Copilot Spaces — инструмент, который организует всю информацию в единые "пространства", устраняя разрыв между кодом и контекстом 📚

Как это работает

Copilot Spaces позволяет создавать тематические пространства, включающие:
• Репозитории с кодом
• API документацию
• Рабочие процессы
• Командные соглашения

Каждое пространство может иметь собственные команды для настройки поведения Copilot под конкретные задачи.

Ключевые особенности

🔗 Глубокая интеграция с GitHub — добавляйте код и документы прямо из репозиториев без копирования
⚡️ Автоматическое обновление — при изменении репозитория пространство обновляется автоматически
🎯 Контекстные ответы — Copilot дает рекомендации на основе актуального состояния проекта

Как создать пространство

1️⃣ Перейдите на github.com/copilot/spaces 2️⃣ Нажмите "Create space" 3️⃣ Укажите название и владельца (личный аккаунт или организация) 4️⃣ Добавьте описание (опционально) 5️⃣ Нажмите "Create"

Типы контента в Spaces 📝

1️⃣ Инструкции — описание того, на чем должен фокусироваться Copilot 2️⃣ Ссылки — код из GitHub репозиториев и текстовый контент

Сценарии применения 💡

• Онбординг — быстрое введение новых разработчиков в курс дела
• Системные знания — документирование сложных процессов (аутентификация, CI/CD)
• Стандарты кода — руководства по стилю и чек-листы для ревью
• Разработка фич — организация контекста для конкретных задач

💡 Для получения пользы от Spaces не нужна формальная документация — можно использовать заметки, резюме встреч или простые списки.

Функция находится в публичном превью и доступна всем пользователям с лицензией Copilot 🔧

Источники:
• Анонс
• Документация

#github #copilot #development #knowledge #teamwork

🔥4❤2👍2

267 views08:31

Заметки LLM-энтузиаста

DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖

Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.

Основные характеристики модели:

• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами

Результаты тестирования 📊

На бенчмарке LiveCodeBench новая модель показала результаты:

1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию

Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)

🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

#deepseek #opensource #ai #llm #reasoning

❤2👍2

323 views12:11

Заметки LLM-энтузиаста

Эндрю Нг о состоянии AI-агентов: ключевые инсайты 🤖

Вчера на конференции Interrupt от Langchain состоялась беседа со-основателя Langchain Гариссона Чейса с Эндрю Нгом — одним из ведущих экспертов в области ИИ. Ниже мой краткий конспект с выводами о развитии агентных систем.

Агентность vs Агенты 🎯

Нг предлагает думать об агентности как о спектре функций, а не делить системы на "агентные" и "не агентные". Это помогает избежать бесполезных споров и сосредоточиться на практической разработке.

Текущее состояние рынка 📊

Большинство бизнес-процессов представляют собой:
• Линейные рабочие процессы
• Простые ветвления при ошибках
• Небольшие циклы обработки данных

Сложные агентные системы с множественными циклами пока менее распространены.

Ключевые навыки для разработчиков агентов 🛠

1️⃣ Правильная декомпозиция задач
Умение разбивать бизнес-процессы на микрозадачи остается критически важным навыком.

2️⃣ Система оценки (Evals)
Многие команды слишком долго полагаются только на ручную оценку. Автоматизированные evals нужно внедрять быстрее, даже если они изначально несовершенны.

3️⃣ Тактические знания
Опыт работы с различными инструментами (RAG, память, guardrails) как с "кубиками Lego" — чем больше инструментов знаешь, тем быстрее можешь собрать решение.

Недооцененные технологии 🔍

Голосовые приложения 🎙
Несмотря на высокий интерес крупных компаний, разработчики уделяют им недостаточно внимания. Голос снижает барьер входа для пользователей — люди говорят более свободно, чем пишут. Это действительно так: даже у меня уже сформировалась привычка ставить задачу AI-кодеру голосом.

MCP (Model Context Protocol) 🔗
Стандартизирует интеграцию агентов с различными источниками данных. Пока протокол "сырой", но это важный шаг к решению проблемы n×m интеграций.

Программирование с ИИ 💻
Нг выступает против термина "vibe coding", считая его misleading (некорректным). Это интеллектуально сложный процесс, требующий глубокого понимания технологий.
Про глубокое понимание технологий можно, конечно, поспорить.
Порог входа в AI-программирование стремительно снижается. Модели, которые "пишут" код, "умнеют" каждые пол-года. Многие задачи, которые раньше требовали написания сложного PRD (Product Requirement Document) сейчас решаются промптом в 1-2 предложения (которые можно сформулировать голосом).
Большинство даже опенсорсных систем (Cline/Roo Code) уже имеют встроенные "опросники" (Architect Mode) для новичков, которые позволяют максимально точно сформулировать задачу. Коммерческие системы тоже перед решением задачи формируют привычку расспросить новоиспеченных программистов о задаче, которые те собираются решить, предложив возможные варианты (например, claude code или cursor с настроенным соответствующим образом custom agent).
Однако, сам процесс Vibe Coding может быть утомительным, если действительно хочешь решить задачу, а не поиграться.

Важно: Всем стоит изучать программирование, так как умение точно объяснить компьютеру задачу становится ключевым навыком будущего.

Советы для стартапов 🚀

Два главных предиктора успеха:

1️⃣ Скорость выполнения
Опытные команды работают значительно быстрее, чем представляют себе новички.

2️⃣ Техническая экспертиза
Глубокое понимание технологий — самый редкий ресурс, поскольку технологии развиваются очень быстро.

Мультиагентные системы 🤝
Пока рано говорить о взаимодействии агентов от разных команд. Даже создание работающего одиночного агента остается сложной задачей.

• Ссылка на оригинальное видео беседы здесь
• Подробный транскрипт здесь
• Краткий транскрипт тут

#ai_agents #andrew_ng #artificial_intelligence #tech_trends #startup_advice

Langchain

LangChain Interrupt - The AI Agent Conference by LangChain

Catch the recordings from Interrupt - The AI Agent Conference by LangChain. Watch now for free, on-demand.

❤4👍4🔥2

303 viewsedited 14:21

Заметки LLM-энтузиаста

Создание AI-тьютора испанского языка за час: разбор live-кодинга с Lovable 🤖

Команда Lovable вчера провела интересный онлайн-эксперимент — создание полноценного AI-тьютора для изучения испанского языка в прямом эфире. Разбираем, что получилось и какие технологии использовались.

Что такое Lovable? 🛠

Про Lovable уже писал много раз (пост 1, пост 2, пост 3, пост 4), но на всякий случай напомню.
Lovable — платформа для создания full-stack приложений с помощью естественного языка. Вместо написания кода разработчики общаются с AI, описывая нужную функциональность.

Основные возможности:
• Создание React-приложений через текстовые команды
• Интеграция с Supabase для backend-функций
• Автоматическое развертывание и управление базой данных
• Поддержка аутентификации и внешних API

Техническая архитектура проекта ⚙️

Стек технологий: 1️⃣ Frontend: React (единственный поддерживаемый фреймворк) 2️⃣ Backend: Supabase (база данных + Edge Functions) 3️⃣ AI: OpenAI API для обработки текста и голоса 4️⃣ Аутентификация: встроенная система Supabase

Структура приложения:
• Глобальная боковая панель навигации
• Страница дашборда (по умолчанию)
• Чат-интерфейс для общения с AI
• Панель настроек справа

Реализованная функциональность 📱

Основные возможности:
• Текстовый чат с AI-тьютором на испанском
• Голосовой ввод с преобразованием речи в текст
• Воспроизведение ответов AI в аудиоформате
• Перевод сообщений AI на английский
• Настройка скорости воспроизведения аудио

Система кредитов:
• Ограничение бесплатного использования
• Списание кредитов за AI-операции
• Отображение баланса в интерфейсе
• Модальное окно при исчерпании лимита

Практические советы по работе с Lovable 💡

Эффективные промпты:
• Разбивайте сложные задачи на мелкие шаги
• Будьте максимально конкретны в описаниях
• Указывайте технические детали (например, "используй OpenAI")
• Добавляйте требования к UI/UX сразу

Работа с ошибками:
• Не нажимайте "Try to fix" больше 2-3 раз
• Используйте функцию отката к предыдущим версиям
• Переформулируйте запрос, если AI "застрял"
• Применяйте Chat Mode для планирования сложных изменений

Интеграция с внешними сервисами 🔗

Supabase:
• Автоматическое создание таблиц для профилей пользователей
• Безопасное хранение API-ключей в секретах
• Edge Functions для серверной логики
• Миграции базы данных "на лету"

OpenAI API:
• Отдельные Edge Functions для каждой AI-задачи
• Обработка текста, речи и переводов
• Настраиваемые системные промпты
• Автоматическое развертывание при изменениях

Ограничения и особенности ⚠️

Текущие ограничения:
• Только React в качестве frontend-фреймворка
• Производительность снижается в пиковые часы
• Необходимость детального планирования промптов
• Ограниченная поддержка кастомных доменов

Рекомендации:
• Используйте Custom Knowledge для хранения требований проекта
• Применяйте гибридный подход: Lovable + ручное редактирование кода
• Интегрируйтесь с GitHub для версионирования
• Тестируйте функциональность после каждого изменения

Планы развития проекта 🚀

Следующие этапы: 1️⃣ Улучшение дизайна и UX 2️⃣ Добавление геймификации (рейтинг достижений) 3️⃣ Админ-панель для управления пользователями 4️⃣ Интеграция Stripe для монетизации 5️⃣ Запуск на Product Hunt

Эксперимент показал, что современные AI-инструменты позволяют создавать функциональные приложения без глубоких знаний программирования. Однако успех зависит от умения правильно формулировать задачи и понимания архитектуры веб-приложений.

Очень рекомендую посмотреть этот эксперимент в записи (1 час), или прочитать транскрипт. Я подготовил 2 версии транскрипта: • детальную • краткую

P.S. На этой неделе курса по AI-программированию и ИИ-агентам у нас была очень близкая тема - мы делали синхронный переводчик для зума, и также в одном из вариантов использовали lovable, в следующей заметке напишу чуть подробнее что и как мы делали и дам ссылки на веб-приложения, которые у нас получились.

#ai_development #nocode #lovable #supabase #react

YouTube

Can We Build an AI Tutor in an Hour? Live Coding Challenge!

🚀 Can we build a fully functional AI-powered Spanish tutor in under an hour? Welcome to Session 1 of our Zero to Launch series, where we take an AI app from concept to reality in five live sessions!

💡 This session is packed with real-time coding, problem…

❤‍🔥3❤3👍3

396 views06:34

Заметки LLM-энтузиаста

На прошлой неделе на 6-ом занятии по AI-программированию мы делали синхронный переводчик для Zoom-звонков. Решение получилось универсальным — работает с любой системой ВКС через виртуальные аудио-устройства.

Протестировали сразу 3 варианта решения задачи:
• Cursor для разработки и railway для деплоя
• Replit
• Lovable

Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.

Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.

Результаты тестирования

• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.

• Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут

• Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).

Ну а теперь про само приложение!

Как это работает 🔧

🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)

Настройка для разных сценариев ⚙️

Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)

Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход

Технические характеристики 📊

• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)

Требования 💻

• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с

Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза

#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom

productuniversity.ru

Cursor. AI-программироание и ИИ-агенты. Ускоряем разработки и создание прототипов. 8 проектов за 8 недель c помощью ИИ-ассистентов.…

Курс по «вайб-кодингу» и основам основам создания IT-приложений с AI-ассистентами

👍6⚡5🔥3❤1

2.32K viewsedited 20:27

Заметки LLM-энтузиаста

Уязвимости ИИ-агентов: часть III и IV

В продолжении поста хотелось бы взять на заметку описанные ниже угрозы безопасности для агентных и мульти-агентных систем.
Я думаю, что сейчас в связи со снижением порога входа в разработку методом Vibe Coding, мало кто обращает внимание на такие угрозы, и через некоторое время в погоне за скоростью разработки и повсеместным внедрением GenAI мы можем столкнуться с ростом атак и компроментацией более сложных систем, которые начнут включать в себя программные модули, использующие GenAI как в своей непосредственной работе, так и на этапе своей разработки.

Часть III. Как скрытые инструкции крадут данные 🔓

Исследователи Trend Micro обнаружили серьезные проблемы безопасности в мультимодальных ИИ-агентах. Злоумышленники могут внедрять скрытые команды в изображения и документы, заставляя ИИ передавать конфиденциальные данные без ведома пользователя.

Что такое непрямая инъекция промптов? 🎯

Это скрытая атака, при которой вредоносные инструкции маскируются в обычном контенте:

• Веб-страницы — скрытые команды в HTML-коде
• Изображения — невидимый текст в "пустых" картинках
• Документы — скрытые инструкции в Word-файлах

Какие данные под угрозой? 📊

1️⃣ Персональные данные (имена, email, телефоны) 2️⃣ Финансовая информация (банковские реквизиты) 3️⃣ Медицинские записи 4️⃣ Коммерческие секреты 5️⃣ API-ключи и пароли 6️⃣ Загруженные документы

Реальный пример атаки 💀

Исследователи создали PoC-агента "Pandora", который продемонстрировал:

• Обработку вредоносного Word-документа "CV – Actor.docx"
• Извлечение и выполнение скрытого Python-кода
• Передачу данных на сервер злоумышленников
• Завершение с сообщением "Task complete"

Как защититься? 🛡

• Ограничить сетевые подключения к непроверенным URL
• Использовать фильтры для анализа загружаемого контента
• Применять OCR для обнаружения скрытого текста
• Внедрить системы мониторинга подозрительного поведения
• Очищать пользовательский ввод от потенциально опасных команд

Проблема особенно актуальна для ChatGPT Data Analyst и других ИИ-сервисов с возможностью выполнения кода.
Даже при использовании продвинутых моделей вроде GPT-4o уязвимости остаются, если отсутствуют защитные механизмы на уровне сервиса. То есть, задачу обеспечения безопасности должны решать именно разработчики! (не администраторы инфраструктры, и даже не DevSecOps!). Если мы говорим про Vibe Coding, то в PRD (а лучше прямо на уровне проектных правил для AI-кодинга) нужно закладывать соответствующую функциональность.

Часть IV: Уязвимости ИИ-агентов: угрозы доступа к базам данных 🔐

Исследователи Trend Micro выявили критические уязвимости в ИИ-агентах, работающих с базами данных. Злоумышленники могут эксплуатировать эти слабости для кражи данных и мошеннических атак.

Основные угрозы 🎯

1. Уязвимости генерации SQL-запросов
• Атакующие могут обойти защитные механизмы
• Получить доступ к конфиденциальным данным сотрудников
• Использовать методы джейлбрейкинга для обхода ограничений

2. "Сохраняющаяся" инъекция промптов
• Вредоносные промпты внедряются в пользовательские данные
• Активируются при последующих запросах к ИИ
• Могут привести к рассылке фишинговых писем

3. "Отравление" векторных хранилищ
• Атака на системы семантического поиска
• Злоумышленники внедряют вредоносный контент
• Срабатывает при похожих запросах других пользователей

Процесс атаки 🔄

1️⃣ Разведка - изучение структуры базы данных 2️⃣ Внедрение - размещение вредоносного контента 3️⃣ Активация - срабатывание при запросах пользователей 4️⃣ Эксплуатация - кража данных или распространение фишинга

Последствия 💥
• Кража персональных данных
• Фишинговые атаки внутри организации
• Финансовые потери • Репутационный ущерб
• Нарушение регулятивных требований

Защитные меры 🛡
• Надежная санитизация входных данных
• Продвинутое определение намерений (можно использовать классификатор)
• Строгий контроль доступа
• Постоянное обновление мер безопасности

#security #agents #prompt_injection #data_exfiltration #cybersecurity

Заметки LLM-энтузиаста

Уязвимости AI-агентов: Часть I и II

Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).…

❤‍🔥4👍2❤1

423 viewsedited 13:36

Заметки LLM-энтузиаста

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Cursor 1.0: обзор ключевых обновлений 🚀

Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.

BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.

Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
• Разработчики могут создавать кнопки "Add to Cursor" для своих проектов

Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).

Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.

Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.

Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре

Обновленный интерфейс ✨
Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.

Подробнее здесь

#cursor #ai #coding #development #tools

❤3👍1

358 views08:41

Заметки LLM-энтузиаста

На днях на канале Anthropic посмотрел запись беседы с Борисом Черным - создателем Claude Code, инструмента, который я все чаще начинаю использовать совместно, а иногда и вместо Cursor/Windsurf/Roo Code/Cline 📝
Эта беседа - отличное дополнение к документу по лучшим практикам использования Claude Code (вот здесь подготовил перевод на русский язык)

Ниже мои заметки по данной беседе.

Что такое Claude Code 🤖

Claude Code - это агентный инструмент для программирования, который работает прямо в терминале. Не нужно осваивать новые IDE или сайты - работает там, где вы уже работаете.

Почему терминал?
• Универсальность - работает с любым редактором (VS Code, Vim, Zed)
• Простота - позволяет быстро итерировать
• Гибкость - интегрируется в любой workflow

Установка и использование ⚙️

Установка через npm:

npm install -g @anthropic-ai/claude-code

Запуск: просто введите claude в терминале

Работает везде: iTerm2, SSH сессии, TMUX, терминалы IDE

Ключевые особенности 🔧

Агентность: Claude не просто дополняет код, а выполняет полные задачи - анализирует кодовую базу, читает файлы, вносит изменения

Интеграция с GitHub: можно @упоминать Claude в issues и PR для автоматического исправления багов и написания тестов

Claude.md файлы - система "памяти" для инструкций:
1️⃣ Claude.md - общие инструкции для проекта 2️⃣ Claude.local.md - персональные настройки
3️⃣ Глобальный Claude.md в домашней папке 4️⃣ Локальные Claude.md в подпапках проекта
Очень похоже на cursor project rules

Стоимость и доступность 💰

• Тестирование: $5 через API ключ
• Серьезное использование: ~$50-200/месяц
• Claude Max подписка: $100-200/месяц с практически безлимитным использованием - при регулярном использовании claude данный тариф получается выгодным.

Эволюция с Claude 4 🚀

Новые модели значительно улучшили:
• Следование инструкциям с первого раза
• Способность к "one-shot" решениям сложных задач
• Качество автоматически генерируемых тестов

Практические советы 💡

Для сложных задач:
• Просите Claude сначала составить план
• Используйте extended thinking для лучших результатов
• Комбинируйте чтение контекста → размышления → кодирование

Рабочий процесс:
• Простые задачи - делегируйте полностью в GitHub Actions
• Сложные задачи - работайте в паре с Claude в IDE терминале

Будущее развитие 🔮

Планируется расширение интеграций с различными инструментами и упрощение доступа для быстрых задач без открытия терминала.

P.S. Беседа идет всего 20 минут, полный транскрипт на русском языке здесь, краткий - тут.

@llm_notes

#claude #aicoding #developertools #anthropic #programming

❤‍🔥3👍1

344 viewsedited 11:51

Заметки LLM-энтузиаста

7 стратегий промптинга из "утечки" системного промпта Claude 4

Недавно в сети появился предполагаемый системный промпт Claude 4 объемом 10,000 слов. Независимо от его подлинности, документ содержит ценные принципы для создания эффективных промптов 📝

Я решил провести анализ этого системного промпта для Claude 4, используя Claude 4 :)
Вот здесь результат анализа
А тут универсальный промпт, который я использовал (формировал и улучшал его по методике, которую описывал чуть раньше).

Затем мне на глаза попалась интересная статья на medium про 7 стратегий промптинга, которые используются в системном промпте Claude 4
Что порадовало - выводы практически совпадают. Только мой промпт, выявил 6, а не 7 приемов. Ну и мне были интересны также рекомендации по улучшению имеющихся промптов от самой модели, которая должна им следовать :)

Ключевая идея: промпт — это не магическое заклинание, а конфигурационный файл операционной системы. 90% внимания уделяется предотвращению ошибок, и только 10% — желаемому результату.

Основные стратегии:

1️⃣ Якорение идентичности
Начинайте промпт с фиксированных фактов: идентичность модели, дата, основные возможности. Это снижает нагрузку на рабочую память и стабилизирует рассуждения.

2️⃣ Явные условные блоки
Используйте четкие конструкции "если X, то Y" для граничных случаев. Неопределенность приводит к непоследовательности — будьте конкретны.

3️⃣ Трехуровневая маршрутизация неопределенности
• Вечная информация → прямой ответ
• Медленно меняющаяся → ответ + предложение проверки
• Актуальная → немедленный поиск

4️⃣ Грамматика инструментов с контрпримерами
Показывайте как правильные, так и неправильные примеры использования API. Негативные примеры учат не хуже позитивных.

5️⃣ Бинарные правила стиля
Вместо размытых указаний ("будь краток") используйте четкие запреты ("никогда не начинай с лести", "никаких эмодзи без запроса").

6️⃣ Позиционное усиление
В длинных промптах повторяйте критические ограничения каждые 500 токенов — внимание модели ослабевает в длинном контексте.

7️⃣ Рефлексия после использования инструментов
Добавляйте паузу для "размышлений" после вызова функций. Это улучшает точность в многошаговых цепочках рассуждений 🤔 (то, что мой промпт-анализатор не обнаружил)

Практический вывод

Думайте о промптах как об операционных системах. Будьте точны в намерениях и не бойтесь "оборонительного программирования" — детально прописывайте, чего модель делать НЕ должна.

Декларативный подход "если X, всегда Y" часто эффективнее императивного "сначала X, потом Y" ⚡️

@llm_notes

#claude4 #ai_engineering #llm_optimization #prompt

⚡6❤‍🔥3👍3

383 views16:06

Заметки LLM-энтузиаста

🤖 Google выпустил open-source агента на базе Gemini 2.5

Компания Google представила полнофункциональный агент-исследователь с открытым исходным кодом, построенный на Gemini 2.5 и LangGraph.

Что умеет агент:
• Выполняет многоэтапный поиск в интернете
• Анализирует найденную информацию
• Синтезирует ответы с указанием источников
• Работает как человек-исследователь

Техническая архитектура:
1️⃣ Frontend на React
2️⃣ Backend на LangGraph
3️⃣ Интеграция с Google Search API
4️⃣ Рефлексивное мышление для улучшения поисковых запросов
5️⃣ Автоматическая генерация цитат

Проект интересен тем, что Google предоставил полный код как фронтенда, так и бэкенда. Это позволяет изучить весь пайплайн работы AI-агента от начала до конца.

🔗 Репозиторий: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
DeepWiki по проекту здесь

@llm_notes

#ai_agents #langgraph #google_gemini #open_source #research_ai

❤6🔥3✍2🤩1

1K views12:34

Заметки LLM-энтузиаста

Как устроен Cursor: технические детали от создателей 🔧

Вчера прочитал очень интересное интервью с основателем Cursor. Интервью содержит множество деталей внутреннего устройства самого популярного AI-кодера, и с моей точки зрения будет интересно практически каждому.

Ниже мой краткий конспект.

Полная оригинальная версия здесь.
Перевод на русский язык: часть 1 | часть 2

Cursor — AI-редактор кода, который за год вырос в 100 раз по нагрузке и обрабатывает более 1 млн запросов в секунду. Сооснователь Суалех Асиф рассказал об используемых технических решениях.

Цифры проекта 📊

• 50 инженеров в команде
• 1M+ транзакций в секунду в пике
• 100x рост пользователей за 12 месяцев
• $500M+ годовая выручка
• Миллиард строк кода пишется ежедневно

Технический стек 💻

Клиент:
• TypeScript — основная логика
• Electron — форк VS Code
• Rust — производительные компоненты

Бэкенд:
• TypeScript + Rust
• Монолитная архитектура
• Node API для связи с Rust

Базы данных:
• Turbopuffer — хранение зашифрованных файлов
• Pinecone — векторная БД для документации

Инфраструктура:
• AWS + Azure для вычислений
• Десятки тысяч NVIDIA H100 GPU
• Terraform для управления инфраструктурой

Как работает автодополнение ⚡️

1️⃣ Клиент собирает контекст кода локально 2️⃣ Код шифруется и отправляется на сервер 3️⃣ Сервер расшифровывает и генерирует предложение 4️⃣ Предложение возвращается в IDE 5️⃣ Пользователь принимает через Tab

Ключевая задача — минимизировать задержки при максимальном качестве предложений.

Чат без хранения кода 🔒

Cursor не хранит исходный код на серверах, используя умную систему индексации:

Создание индексов:
• Код разбивается на чанки
• Создаются эмбеддинги без сохранения имен файлов
• Используются обфусцированные названия

Поиск по коду:
• Векторный поиск по эмбеддингам
• Запрос нужных файлов с клиента
• Анализ и ответ на основе контекста

Синхронизация через Merkle Trees:
• Каждые 3 минуты сравнение деревьев клиент-сервер
• Переиндексация только измененных файлов
• Эффективное использование ресурсов

Anyrun: оркестратор агентов 🤖

Написанный на Rust сервис для запуска AI-агентов в облаке:

• AWS EC2 — для корпоративных клиентов
• AWS Firecracker — микро-ВМ с запуском за 125мс
• Изоляция процессов — безопасность на уровне ВМ
• Снапшоты — сохранение состояния для быстрого восстановления

Инженерные вызовы 🚧

Проблемы масштабирования:
• Рост использования в 100 раз за год
• Миллиарды эмбеддингов ежедневно
• Один из крупнейших клиентов OpenAI

Проблема холодного старта:
• При падении всех нодов перезапуск критичен
• Нужно контролировать трафик при восстановлении
• Приоритизация пользователей во время инцидентов

Шардинг и его сложности:
• Ручное разделение индексов в Pinecone
• Недоиспользование ресурсов (30% простоя)
• Сложные миграции между шардами

Миграции баз данных 🔄

От Yugabyte к PostgreSQL:
• Yugabyte не справлялся с нагрузкой
• Долгие транзакции в распределенной системе
• PostgreSQL на AWS RDS решил проблемы

От PostgreSQL к Turbopuffer:
• 22TB данных в RDS достигли лимитов
• Особенности VACUUM в PostgreSQL
• Экстренная миграция за 10 часов во время инцидента

Культура разработки 👥

Релизы:
• Каждые 2-4 недели (десктопное приложение)
• Консервативные feature flags
• Тщательное тестирование перед выпуском

Команда:
• 15 инженеров в инфраструктурной команде
• Культура экспериментов
• Использование собственного продукта

Будущие вызовы:
• Масштабирование reinforcement learning
• Тысячи GPU для обучения
• Сложная архитектура с множеством компонентов

Выводы 💡

• Небольшие команды могут превосходить гигантов при правильном подходе
• Облачные провайдеры критичны для быстрого масштабирования
• Надо быть очень осторожными с использованием стартап-продуктов в инфраструктуре - лучше доверять гиперскейлерам
• Создание продукта для собственной аудитории упрощает разработку

Cursor своим примером показывает, как 50 инженеров могут конкурировать с Microsoft и GitHub, фокусируясь на потребностях разработчиков.

@llm_notes

#cursor #vibecoding #tech_architecture #startup_scaling

👍5❤‍🔥2

373 views09:06

Заметки LLM-энтузиаста

OpenAI снизила цены на o3 на 80% и представила o3-pro 🚀

OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.

Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион

Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.

o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.

Ключевые особенности o3-pro: 🎯
• Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии

Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе

Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁

Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊

@llm_notes

#openai #o3pro #pricing #llm #chatgpt

❤‍🔥3👍3❤2

410 views12:06

Заметки LLM-энтузиаста

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

Windsurf Wave 10: новый режим планирования и встроенный браузер 🌊

Windsurf выпустил обновление Wave 10 с двумя ключевыми функциями: встроенным браузером и режимом планирования. Рассмотрим кратко, что это значит для разработчиков.

Windsurf Browser 🌐

Встроенный браузер на базе Chromium интегрирован прямо в IDE. Основные возможности:

• ИИ-ассистент Cascade видит содержимое открытых вкладок
• Автоматическое использование контента веб-страниц без копирования (по сути аналог Stagewise для Cursor)
• Отладка фронтенда и просмотр логов в одном окне (аналог browser-tools-mcp, только встроенный в AI-кодер)
• Работа с документацией API без переключения между приложениями

Planning Mode 📋
Новый подход к долгосрочному планированию проектов:

1️⃣ Создает markdown-файл с целями и задачами 2️⃣ Синхронизируется между пользователем и ИИ 3️⃣ Обновляется автоматически при изменении контекста 4️⃣ Использует более мощную модель для долгосрочного планирования 5️⃣ Сохраняется локально и доступен для редактирования

Технические детали ⚙️

• Planning Mode доступен на всех платных тарифах
• Браузер находится в бета-версии
• Модель O3 стала дешевле в использовании
• Планируется добавление автоматизации веб-задач (по сути встроенный browser-use)

Обновление направлено на решение проблемы разрыва между краткосрочными действиями и долгосрочными целями в разработке. Браузер закрывает пробел в понимании ИИ контекста веб-активности разработчика.

2025 год превращается в настоящее поле битвы AI-браузеров. После Opera, Dia, Perplexity и Genspark теперь и Windsurf решил не отставать от трендов 📈

Ждем ответных шагов от команды Cursor!
Встроенный планировщик без необходимости настройки дополнительных кастомных агентных ролей, Memory Bank или Task Master теперь есть практически у всех популярных AI-кодеров: Windsurf, Claude Code.

@llm_notes

#windsurf #vibecoding #browser #planning #tools

👍4🔥4❤2🤩1

460 views08:45

Заметки LLM-энтузиаста

🔍 Два новых инструмента для веб-поиска и исследований: Firesearch и GPT Researcher

Разработчики получили два интересных решения для автоматизации веб-исследований, которые решают разные задачи при работе с данными.

Firesearch: поиск и скрапинг в одном запросе

Firecrawl запустили эндпоинт /search, который объединяет поиск в интернете и извлечение контента в одном API-вызове. Теперь не нужно делать отдельные запросы для поиска и последующего скрапинга страниц. Что очень круто. Например, yandex search api в режиме нейро-поиска пока работает только по определенному спектру url (см. здесь).

Основные возможности:
• Поиск и извлечение контента одним запросом
• Настройка по языку, стране и временному диапазону
• Вывод в разных форматах: markdown, HTML, ссылки, скриншоты
• Интеграция с Zapier, n8n, MCP для Claude и OpenAI

Как устроен:
Firesearch использует Langgraph и Firecrawl и построен на основе одного основного компонента - LangGraphSearchEngine, который управляет всем процессом поиска через граф состояний LangGraph.
Система содержит 6 основных узлов обработки в графе состояний:
• understand - анализ запроса пользователяplan - планирование стратегии поиска
• search - выполнение поисковых запросов
• scrape - извлечение дополнительного контента
• analyze - анализ найденных источников
• synthesize - синтез финального ответа
Подробнее в репозитории (где, кстати, есть возможность сразу сделать деплой на vercel со своими ключами Firecrawl и Openai) и на deepwiki (где можно не только подробно ознакомиться с архитектурой решения, но и позадавать интересующие вопросы, только не включайте опцию deep research - она почему-то работает бесконечно медленно)

GPT Researcher: opensource альтернатива дорогим deep research решениям

Пока крупные компании предлагают свои "Deep Research" функции за $200/месяц (OpenAI) или с ограничениями (Perplexity - 5 запросов в день), GPT Researcher предоставляет открытое решение.

Ключевые особенности:
1️⃣ Мультиагентная архитектура с планировщиком и исполнителем
2️⃣ Рекурсивные исследования с древовидной структурой анализа
3️⃣ Обработка 20+ источников за 3 минуты ($0.1 за отчет)
4️⃣ Глубокий анализ за 5 минут ($0.4 за расширенный отчет)
5️⃣ Отчеты свыше 2000 слов с цитированием источников

Как устроен
GPT Researcher использует Tavily для поиска и LangGraph для построения мультиагентной архитектуры.
Система состоит из 8 агентов:
• Chief Editor - главный агент-координатор, который управляет командой через LangGraph
• Researcher (gpt-researcher) - специализированный автономный агент для исследований
• Editor - планирует структуру исследования
• Reviewer - проверяет корректность результатов
• Revisor - пересматривает результаты на основе обратной связи
• Writer - составляет финальный отчет
• Publisher - публикует отчет в различных форматах
• Human - человек в цикле для обратной связи
Подобнее в репозитории и на deepwiki
Также у GPT Researcher есть отдельный репозиторий для MCP-сервера

Практическое применение 📊

Firesearch подходит для быстрого получения актуального контента с веб-страниц, а GPT Researcher - для комплексного анализа и создания детальных отчетов по исследуемым темам.

Оба инструмента можно интегрировать в существующие рабочие процессы и настроить под конкретные задачи.

@llm_notes

#webscraping #deepresearch #opensource #firecrawl #langgraph

❤5👍2

408 views17:14

Заметки LLM-энтузиаста

🤖 Вышел интересный CEO playbook от Mckinsey по решению парадокса генеративного ИИ при помощи ИИ-агентов

Источник здесь

Суть парадокса: почти 80% компаний используют генеративный ИИ, но столько же сообщают об отсутствии значимого влияния на прибыль. Это называют "парадоксом генеративного ИИ" 📊

🔍 В чем проблема

Дисбаланс между двумя типами решений:
• Горизонтальные (корпоративные копилоты, чат-боты) - быстро масштабируются, но дают размытые результаты
• Вертикальные (функциональные решения) - более трансформационные, но 90% застревают на стадии пилота

⚡️ Что такое ИИ-агенты

ИИ-агенты выходят за рамки реактивной генерации контента, становясь автономными исполнителями с возможностями:
• Планирование и память
• Интеграция с системами
• Проактивное выполнение задач
• Адаптация в реальном времени

💼 Реальные кейсы применения

1. Банк: модернизация legacy-систем
• Проблема: 400 компонентов ПО, бюджет $600+ млн
• Решение: гибридные "цифровые фабрики" с ИИ-агентами
• Результат: сокращение времени и усилий на 50%+

2. Исследовательская компания: качество данных
• Проблема: 500+ сотрудников на обработку данных, 80% ошибок
• Решение: мультиагентная система для анализа аномалий
• Результат: рост продуктивности на 60%+, экономия $3+ млн в год

3. Банк: кредитные меморандумы
• Проблема: недели на создание кредитных отчетов
• Решение: агенты для извлечения данных и составления отчетов
• Результат: рост продуктивности на 20-60%

🏗 Архитектура будущего: Agentic AI Mesh

Новая парадигма для управления экосистемой агентов:

Ключевые принципы:
1️⃣ Композитность (Composability) - любой агент легко интегрируется в mesh-сеть
2️⃣ Распределенный интеллект - задачи декомпозируются и решаются сетями взаимодействующих агентов
3️⃣ Развязка по слоям (Layered decoupling) - функции логики, памяти и оркестрации независимы друг от друга
4️⃣ Вендор-нейтральность - избежание привязки к проприетарным решениям (предпочтение отдается открытым протоколам, например, A2A и MCP)
5️⃣ Управляемая автономия - контроль поведения агентов

🎯 Три уровня трансформации процессов

Уровень 1: Помощь в задачах (5-10% улучшения)
• ИИ помогает в существующих процессах

Уровень 2: Автоматизация шагов (20-40% экономии времени)
• Агенты выполняют отдельные операции

Уровень 3: Переосмысление процесса (до 80% автономного решения)
• Полная перестройка рабочих процессов вокруг агентов

⚠️ Основные вызовы

Технические:
• Управление новыми рисками
• Интеграция кастомных и готовых решений
• Адаптация к быстро развивающимся технологиям

Организационные:
• Взаимодействие человек-агент
• Контроль автономии
• Предотвращение неконтролируемого распространения

🚀 Что нужно для успеха

Четыре ключевых направления:

1️⃣ Люди: обучение сотрудников, новые роли
2️⃣ Управление: контроль автономии, предотвращение хаоса
3️⃣ Технологии: архитектура для взаимодействия и масштабирования
4️⃣ Данные: ускорение продуктизации данных

📈 Новый подход к ИИ-трансформации

Переход от:
• Разрозненных инициатив → к стратегическим программам
• Отдельных кейсов → к бизнес-процессам
• Изолированных ИИ-команд → к кросс-функциональным группам
• Экспериментов → к промышленному масштабированию

🎯 Роль CEO

Время экспериментов заканчивается. Руководители должны:
• Завершить фазу экспериментов
• Перестроить модель управления ИИ
• Запустить первые трансформационные проекты

ИИ-агенты - это не просто технологический шаг, а основа операционной модели следующего поколения 🔮

@llm_notes

#agents #genai #digital_transformation #business_automation #mckinsey

✍3❤3👍1👌1

554 viewsedited 17:24

Заметки LLM-энтузиаста

Сравнение подходов: как строить AI-агентов в продакшене 🤖

Думаю, что будет интересно всем. Две крупные AI-компании одновременно опубликовали диаметрально противоположные взгляды на архитектуру агентов.
Cognition утверждает "не стройте мульти-агентов", а Anthropic напротив детально описывает свою мульти-агентную систему для Claude Research.

Позиция Cognition: простота как залог надежности 🎯

Основные принципы:
• Общий контекст для всех операций
• Действия несут неявные решения
• Параллельные агенты создают конфликты

Почему мульти-агенты НЕ работают:
1️⃣ Потеря контекста между агентами
2️⃣ Противоречивые решения подагентов
3️⃣ Сложность отладки и координации
4️⃣ Накопление ошибок в цепочке

Cognition предлагает линейную архитектуру с единым потоком выполнения и компрессией истории для длинных задач.

Подход Anthropic: сложность под контролем ⚡️

Архитектура Advanced Research:
• Главный агент-координатор
• Специализированные подагенты для поиска
• Параллельное выполнение задач
• Система цитирования

Ключевые решения:
1️⃣ Детальное делегирование задач
2️⃣ Масштабирование усилий под сложность запроса
3️⃣ Параллельные вызовы инструментов
4️⃣ Расширенный режим мышления

Результаты: мульти-агентная система превосходит одиночного агента на 90% в исследовательских задачах.

Сравнение подходов 📊

Управление контекстом:
• Cognition: единый поток, компрессия истории
• Anthropic: распределенный контекст, память системы

Обработка ошибок:
• Cognition: минимизация точек отказа
• Anthropic: graceful degradation, retry логика

Производительность:
• Cognition: предсказуемость и стабильность
• Anthropic: скорость через распараллеливание задач

Сложность разработки:
• Cognition: простая отладка, линейный флоу
• Anthropic: сложная координация, но больше возможностей

Когда какой подход использовать 🎪

Линейные агенты (Cognition):
• Задачи с высокими требованиями к надежности
• Ограниченные ресурсы на разработку
• Последовательные рабочие процессы

Мульти-агенты (Anthropic):
• Исследовательские задачи
• Высокая ценность результата
• Возможность распараллеливания задач

Выводы 💡

Оба подхода имеют право на существование.

Выбор зависит от:
• Типа задач
• Требований к надежности
• Бюджета на разработку
• Опыта команды

Главное - понимать все trade-offs и не пытаться решить все задачи одним универсальным подходом.

@llm_notes

#agents #multi_agent_systems #production_ai #claude_research #battle #anthropic #cognition

❤7🔥4✍2

366 views20:06

About

Blog

Apps

Platform