Заметки LLM-энтузиаста

#openai #news #agents #operator

Что произошло?
Опенаи вчера анонсировали своего первого агента под названием Operator.

Зачем это нужно?
Оператор - это что-то вроде виртуального ИИ-консъержа, может решать задачи по планированию поездки, бронированию номеров в гостинице, столика в ресторане, покупке продуктов по рукописному списку и т.д.

Как работает?
Все это он делает через закрытую "песочницу" с браузером, в котором вводит необходимые команды поиска и работает с выбранными при постановке задаче инструментами. То есть, даже если у выбранного сайта (например, по заказу продуктов) нет API-интерфейса, он просто воспользуется им как обычный пользователь и решит поставленную задачу.
Подробнее здесь: https://help.openai.com/en/articles/10421097-operator

Как потестировать?
Оператор доступен по ссылке https://operator.chatgpt.com/
Сейчас 2 условия для доступа:
- регион USA (поэтому VPN нужно подобрать соответствующий)
- подписка ChatGPT Pro. Это более существенное ограничение, т.к. стоит $200 в месяц (https://chatgpt.com/#pricing)

Планы на будущее?
В анонсе говорят, что планируют:
- расширять линейку инструментов Оператора
- добавлять новых агентов
- расширять список регионов, в которых доступен Оператор
- через какое-то время сделать Оператора доступным для тех, у кого подписка ChatGPT Plus (за $20 в месяц)

Есть ли что-то похожее?
Да. Опенаи не первые, кто делает агентов, использующих веб-браузер для решения поставленных задач.

✍2🔥2👍1

78 viewsedited 07:46

#news #vercel #agents #operator #free

Бесплатный Open Operator от Vercel - теперь не надо платить $200 в месяц за данную функциональность, как это предлагает нам сделать Openai :)

https://open-operator.vercel.app

Vercel только что выпустила Open Operator, и я его протестировал
Основные функции:
- Поддержка web scraping
- Поддержка автоматической публикации задач
- Поддержка самостоятельного управления браузером, в котором происходит поиск

🎉3👍1🔥1

75 views21:26

Заметки LLM-энтузиаста

Newwhitepaper_Agents2.pdf

4.1 MB

#info #ai #agents #google #whitepaper

Google недавно опубликовали отличный обзорный материал по ИИ-агентам (см. вложенный файл).

ИИ-агенты принципиально отличаются от стандартных языковых моделей по трем ключевым параметрам:

1) Они комбинируют возможности больших языковых моделей с инструментами реального мира и уровнем оркестрации, который управляет сложными рассуждениями. Это позволяет им как обрабатывать информацию, так и выполнять какие-то полезные действия.

2) В отличие от традиционных моделей, которые могут ссылаться только на данные, на которых их обучали, агенты могут получать доступ к новой актуальной информации через:

- Расширения: Прямые соединения с внешними API
- Функции: Возможности выполнения кода/алгоритмов на стороне клиента
- Хранилища данных: Доступ к базам данных и внешним знаниям

3) Они используют сложные алгоритмы рассуждений (например, ReAct и Chain-of-Thought) для планирования и выполнения многоэтапных задач, подобно тому, как повар планирует и корректирует процесс приготовления сложного блюда.

В документе подчеркивается важное техническое различие между тем, что выдает модель (model outputs) на выходе и тем, что выдает агент в результате выполнения им поставленной задачи (agent execution). В то время как модель может генерировать ответы только на основе своего обучения, агент может проверять информацию, выполнять вызовы API и взаимодействовать с внешними системами для обеспечения точности и актуальности своих ответов.

Заглядывая в будущее, авторы предполагают, что «цепочка агентов» ("agent chaining") - объединение специализированных агентов для выполнения различных задач - может значительно расширить возможности ИИ.
Однако они также подчеркивают, что создание по-настоящему эффективно работающих полезных агентов требует тщательного итерационного подхода и оптимизации под конкретную область.

В общем, судя по всему, 2025 год будет годом "вертикальных" ИИ-агентов.

✍2👍1

82 viewsedited 14:18

Заметки LLM-энтузиаста

#mcp #workshop #agents

Вот отличный вебинар от Anthropic по теме создания агентов на базе MCP
https://www.youtube.com/watch?v=kQmXtrmQ5Zg

И мой конспект https://telegra.ph/Postroenie-agentov-s-ispolzovaniem-Model-Context-Protocol-MCP-03-16

YouTube

Building Agents with Model Context Protocol - Full Workshop with Mahesh Murag of Anthropic

The Model Context Protocol is a universal, open standard for connecting AI systems with data sources, replacing fragmented integrations with a single protocol. This workshop from Anthropic -- the creators of MCP -- talks about the philosophy behind MCP, its…

1❤5⚡3👍1

229 views07:55

Заметки LLM-энтузиаста

#nvidia #news #agents #llm

NVIDIA представляет семейство моделей Llama Nemotron для построения агентных AI-платформ 🚀

🔍 NVIDIA только что выпустила новое семейство моделей с открытым исходным кодом — Llama Nemotron, специально разработанных для создания продвинутых ИИ-агентов, способных решать сложные задачи самостоятельно или в команде.

Что в этом особенного? 🤔
Эти модели поставляются в трех размерах:
• Nano (8B) — идеально для ПК и устройств на периферии
• Super (49B) — лучшая точность и производительность на одном GPU
• Ultra (249B) — максимальная точность на мульти-GPU серверах

🔄 Самая интересная особенность — переключатель режима рассуждений. Можно включать/выключать режим глубокого рассуждения прямо во время работы, в зависимости от задачи!

Впечатляющие результаты 📊
• На 20% выше точность по сравнению с базовыми моделями Llama
• В 5 раз быстрее других открытых моделей рассуждения
• Превосходит Llama 3.3 и DeepSeek R1 в тестах по STEM и использованию инструментов

Кто уже использует? 🏢
Microsoft, SAP, ServiceNow, Accenture и другие технологические гиганты уже интегрируют эти модели в свои платформы.

Что дальше? 🔮
В апреле NVIDIA выпустит фреймворк "AI-Q Blueprint", который поможет компаниям соединить ИИ-агентов с существующими системами и источниками данных. Тулкит уже доступен на github.

Похоже, что NVIDIA строит полноценную экосистему для эры агентного ИИ — от железа до высококачественных reasoning-моделей.

#NVIDIA #LlamaNemotron #ИскусственныйИнтеллект #АгентныйИИ #ГлубокоеОбучение #ТехНовости #AI #MachineLearning

👍4🔥4

262 viewsedited 10:24

Заметки LLM-энтузиаста

#agents #google #анонс

Google представляет Agent2Agent: новая эра взаимодействия ИИ-агентов 🚀

Друзья, Google только что анонсировал революционный протокол Agent2Agent (A2A), который позволит ИИ-агентам общаться между собой независимо от платформы или разработчика! 🤖↔️🤖

A2A обеспечивает взаимодействие между "клиентскими" и "удаленными" агентами через четыре ключевые возможности:

• 🔒 Безопасное сотрудничество
• 📋 Управление задачами
• 👥 Согласование пользовательского опыта
• 🔍 Обнаружение возможностей

Всё это построено на популярных стандартах HTTP и JSON-RPC с корпоративной аутентификацией.

Почему это важно? 🤔

Представьте мир, где ваши ИИ-помощники могут:
• Автоматически взаимодействовать с другими системами
• Выполнять сложные задачи без вашего постоянного участия
• Обмениваться информацией безопасно и эффективно

Ключевые принципы A2A: 💡

• Простота: использование существующих стандартов
• Безопасность: корпоративная аутентификация и авторизация
• Асинхронность: поддержка длительных задач и участия человека
• Мультимодальность: работа с текстом, аудио, видео и другими форматами
• Непрозрачное выполнение: агенты не обязаны делиться своими мыслями, планами или инструментами

Реальный пример использования: 👨‍💼

Процесс найма инженера-программиста может быть значительно упрощен с помощью A2A. Менеджер по найму может поручить своему агенту найти кандидатов, соответствующих вакансии, местоположению и набору навыков. Агент взаимодействует с другими специализированными агентами для поиска потенциальных кандидатов, а затем может организовать собеседования и проверку биографии.

Кто поддерживает A2A? 🌐

Более 50 партнеров уже присоединились к инициативе, включая Atlassian, Box, Cohere, Intuit, Langchain, MongoDB, PayPal, Salesforce, SAP, ServiceNow и многих других.

Протокол открыт для всех, и Google активно приглашает сообщество к участию в его развитии.
Полная спецификация и примеры кода уже доступны на GitHub!

Оригинальный блог-пост с анонсом от гугла тут
Подробная техническая документация здесь

Мой конспект с фокусом на сходства/отличия от #mcp можно почитать по ссылке (спойлер: A2A дополняет MCP)

Что думаете о будущем взаимодействия ИИ-агентов? Делитесь в комментариях! 👇

#AI #GoogleCloud #AgentToAgent #ИскусственныйИнтеллект #ТехнологииБудущего

👍3🔥3❤2

244 viewsedited 12:51

Заметки LLM-энтузиаста

#mcp #list #top #agents

Топ-10 MCP-серверов для ИИ-агентов, апрель 2025 года 🤖

В этом обзоре представлены наиболее интересные с моей точки зрения MCP-серверы, которые расширяют возможности ИИ-агентов.
Эти инструменты обеспечивают доступ к различным функциям через единый интерфейс — от SQL-запросов до анимации и видеоредактирования.

1. Anyquery: универсальные SQL-запросы с поддержкой ИИ 💾

Anyquery позволяет делать запросы к различным источникам данных с помощью SQL.

Функциональность:

• Работа с традиционными базами данных и локальными файлами
• Интеграция с приложениями (Apple Notes, Notion)
• Поддержка веб-браузеров, включая Chrome
• Интеграция с языковыми моделями (ChatGPT, Claude) через протокол MCP
• Функционирование в качестве MySQL-сервера
• Совместимость с MySQL-клиентами (TablePlus, Metabase)
• Архитектура на основе SQLite с поддержкой плагинов

2. PluggedInMCP Proxy Server: централизованное управление MCP-серверами 🔄

PluggedInMCP Proxy Server представляет собой универсальный интерфейс для управления MCP-серверами, запущенными локально или через веб с использованием WebSockets.

Функциональность:

• Совместимость с MCP-клиентами (Claude Desktop, Klein, Cursor)
• Автоматическая загрузка конфигураций, инструментов и ресурсов
• Изоляция пространств имен для организации разных наборов MCP
• Многорабочее пространство для переключения между конфигурациями

3. Manim MCP Server: математические анимации через MCP 📊

Manim MCP Server объединяет математические анимации с протоколом MCP, позволяя выполнять скрипты Manim Python и получать анимационное видео.

Функциональность:

• Программное создание математических визуализаций
• Рендеринг через стандартизированный протокол
• Интеграция с MCP-совместимыми инструментами
• Генерация анимаций через текстовые запросы
• Автоматическое сохранение анимаций в медиа-папке

4. Video Editor MCP Server: редактирование видео через MCP 🎬

Video Editor MCP Server интегрирует возможности редактирования видео в экосистему MCP, позволяя языковым моделям взаимодействовать с видеоконтентом.

Функциональность:

• Интерфейс для загрузки, редактирования, поиска и генерации видео
• Интеграция с платформой Video Jungle
• Схема URI vj:// для обращения к видео и проектам
• Поиск видео с использованием эмбеддингов
• Метаданные о содержании видео и временных метках
• Инструменты для добавления видео из URL
• Поиск локальных видеофайлов в приложении Photos на macOS

5. DaVinci Resolve MCP Server: управление видеоредактором через MCP 🎥

DaVinci Resolve MCP Server интегрирует ИИ-ассистентов с профессиональным видеоредактором DaVinci Resolve.

Функциональность:

• Управление DaVinci Resolve с помощью текстовых команд
• Перечисление проектов, создание таймлайнов, добавление маркеров
• API-подобное управление через ИИ
• Автоматизация рабочих процессов видеомонтажа

6. Anilist MCP Server: доступ к данным об аниме и манге 🎌

Anilist MCP Server обеспечивает доступ к API Anilist через MCP-клиенты, позволяя взаимодействовать с данными об аниме и манге через текстовые команды.

Функциональность:

• Поиск аниме, манги, персонажей, студий
• Получение подробной информации о контенте
• Доступ к профилям пользователей и спискам
• Специализированные инструменты для данных Anilist
• Доступ к пользовательским спискам с авторизацией

7. MetaMCP: управление MCP-серверами 🎛

MetaMCP представляет собой промежуточный слой для централизованного управления MCP-серверами.

Функциональность:

• Единый интерфейс для контроля MCP-интеграций
• Совместимость с различными MCP-клиентами
• Управление инструментами, подсказками и ресурсами
• Мультирабочее пространство для изоляции конфигураций
• Детальное управление инструментами
• Доступен в версии с открытым исходным кодом и в облачной версии (доступна бесплатно)

❤1👍1

301 viewsedited 05:51

Заметки LLM-энтузиаста

#mcp #agents

Подготовил сравнительный анализ наиболее популярных (по разным категориям) MCP-серверов из репозитория Awesome MCP Servers

Полный список обзоров здесь

GitHub

vibe-coding-blog/Сравнительный анализ MCP-серверов.md at main · dzhechko/vibe-coding-blog

Contribute to dzhechko/vibe-coding-blog development by creating an account on GitHub.

❤4👍1

298 views07:44

Заметки LLM-энтузиаста

#ai #agents #forlife #trip #planning #browser

🚀 Как я спланировал семейное путешествие с помощью ИИ-агентов

Привет, друзья! 🌍✨

Хочу поделиться лайфхаком, который сделал планирование семейного отпуска на майские праздники простым и интересным!

🤖 Этап 1: Планирование маршрута

Решил проверить, как современные ИИ-агенты справятся с задачей планирования семейного отдыха. У меня оставались кредиты на нескольких платформах, так что устроил небольшое соревнование:

• genspark.ai 🏆 - составил подробную программу на 3 дня
• perplexity.ai deep research 📝 - предложил план на 2 дня

Вот результаты:

• https://www.genspark.ai/agents?id=02447c93-d4ba-45c9-a682-2a8bcc506cea

• https://www.perplexity.ai/search/sostav-programmu-poseshcheniia-2He2wz1bRG2t0ucCxWy1BA

💡 Можно также использовать: gemini deep research, manus ai, suna.so, openai deep research, rtrvr.ai или AI-кодеры типа roo code/cline с MCP серверами (brave research, exa, perplexity, firecrawl и т.п.)

💻 Этап 2: Создание интерактивной версии плана поездки

Чтобы сделать наше путешествие еще удобнее, решил создать интерактивную веб-версию программы поездки, доступную всем членам семьи. Сравнил два ИИ веб-кодера:

• bolt.new ⚡️ - сделал отличный сайт с первого раза без дополнительных пояснений
• lovable.dev 🎨 - потребовал некоторых уточнений (хотя он лучше справляется со сложными проектами)

Результаты получились такие:

• https://yar-trip.netlify.app/ (от bolt.new)

• https://yaroslavl-family-adventure-guide.lovable.app/ (от lovable.dev)

🏆 Мой выбор для планирования семейных путешествий:

• genspark.ai - как универсальный агент для составления плана поездки
• bolt.new - для быстрой и красивой визуализации интерактивного плана поездки

Попробуйте сами - возможно это сэкономит и вам какое-то время и сделает подготовку к отпуску интересной! 🧳🌴

А вы уже использовали ИИ для планирования отдыха? Делитесь опытом в комментариях! 👇

Perplexity AI

Составь программу посещения города ярославль на 2 дня (1 - 3 мая) с семьей 2...

Ярославль - один из красивейших городов Золотого кольца России, где удачно сочетаются исторические достопримечательности и современные развлечения для детей....

🔥6❤3👍3

272 viewsedited 13:07

Заметки LLM-энтузиаста

1:16

This media is not supported in your browser

VIEW IN TELEGRAM

DeerFlow: Новый фреймворк для глубоких исследований от ByteDance

ByteDance, компания-создатель TikTok, выпустила новый опенсорсный инструмент под названием DeerFlow. Это фреймворк для проведения глубоких исследований, который уже набрал почти 5000 звезд на GitHub всего за несколько дней. Неплохо для очередного AI-проекта, не так ли? 🤔

Что такое DeerFlow?

DeerFlow представляет собой фреймворк для систематических глубоких исследований с использованием координированных LangGraph агентов. По сути, это еще один AI-ассистент, но с открытым исходным кодом и возможностью запуска локально.

Основные возможности:
• Комплексный анализ литературы
• Синтез данных
• Структурированное извлечение знаний
• Интеграция с веб-поиском и Python

Как это работает?

Система использует языковые модели (например, Qwen 2.5 14B) и может работать с различными инструментами:

- Веб-поиск (DuckDuckGo, Tavily, Brave Search)
- Веб-краулинг
- Выполнение Python-кода
- Генерация отчетов и даже подкастов 🎙

Интерфейс выглядит довольно приятно (см. демо), а процесс исследования отображается в реальном времени с активностями, выводами и ссылками на источники. Всё как у "больших мальчиков", только бесплатно.

Стоит ли пробовать?

Если вы устали от платных API и хотите иметь собственный инструмент для исследований — возможно. Установка не самая простая (требуется Node.js 22+, несколько зависимостей и настройка конфигурации), но для энтузиастов это не проблема.

Конечно, не стоит ожидать, что он заменит ChatGPT или Claude, но для специфических исследовательских задач может оказаться полезным. По крайней мере, не нужно платить за каждый токен. 💸

Источники
1) Официальный сайт проекта: https://deerflow.tech/
2) Репозиторий проекта: github.com/ByteDance/DeerFlow
3) Подробная документация со схемами по репозиторию здесь

#AI #opensource #ByteDance #deerflow #ИИ_инструменты #deepsearch #agents

🔥4❤3👍3

256 views09:06

Заметки LLM-энтузиаста

LangGraph Platform — это, пожалуй, самый простой способ разрабатывать, разворачивать и управлять долгоиграющими агентами с сохранением состояния. Он может использоваться независимо от других продуктов LangChain или в сочетании с ними для обеспечения плавного перехода от фазы сборки к продакшну.

Интересно, сколько компаний сейчас действительно нуждаются в такой сложной инфраструктуре для агентов? 🤔 Но если вы из их числа — возможно, стоит взглянуть.

Источники:

• https://blog.langchain.dev/langgraph-platform-ga/
• https://www.youtube.com/watch?v=YWVuBLSbNWE
• https://langchain-ai.github.io/langgraph/concepts/langgraph_studio/
• https://langchain-ai.github.io/langgraph/concepts/deployment_options/

#LangGraphPlatform #агенты #LangChain #ИнфраструктураИИ #DevOps #agents

Langchain

LangGraph Platform

Develop, deploy, and scale agents with LangGraph Platform — our purpose-built platform for long-running, stateful workflows.

❤2👍2🔥1

201 views19:19

Заметки LLM-энтузиаста

Microsoft представила концепцию "открытого агентного веба" на Build 2025 🚀

Очень много крутых анонсов от Microsoft.

Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.

Ключевые анонсы:

• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧

• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)

• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠

• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)

• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊

Почему это важно

Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.

Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.

P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.

#ai #microsoft #copilot #agents #opensource

The Official Microsoft Blog

Microsoft Build 2025: The age of AI agents and building the open agentic web

TL;DR? Hear the news as an AI-generated audio overview made using Microsoft 365 Copilot. You can read the transcript here. We’ve entered the era of AI agents. Thanks to groundbreaking advancements in reasoning and memory, AI models are now more capable…

❤‍🔥2👍2

237 viewsedited 11:21

Заметки LLM-энтузиаста

Open Agent Platform от LangChain: создавайте умных агентов, а не бэкенд 🤖

Привет, друзья! Сегодня хотел обратить ваше внимание на новую платформу от LangChain, которая обещает избавить нас от написания тонны кода для создания AI-агентов.

Я до этого пробовал https://chai.new/ (по сути bolt.new но для агентов, построенный на базе фреймворка https://langbase.com ) и CrewAI Studio - очень удобно, ничего не нужно устанавливать локально, вся мульти-агентная система "собирается" простым текстовым описанием на русском языке. На выходе вы получаете и схему, и работающий код. В случае с CrewAI есть потенциальная возможность превратить созданную мульти-агентную систему в MCP-сервер при помощи automcp. А в случае с langbase для этой цели проще всего использовать https://mcpify.ai/ которому в принципе пофигу какой код или текстовое описание "превращать" в MCP сервер, чуть ранее писал об этом, классный инструмент, но недостаток в том, что кодовую базу MCP сервера вы уже не контроллируете).

Но Langchain решили сделать платформу где агентные и мульти-агентные системы
создаются без написания кода по аналогии как это происходит сейчас во Flowise (только во Flowise, на мой взгляд, все выглядит симпатичнее, но зато у Langchain система работает на базе

Langgraph

)

Итак Open Agent Platform (OAP) — это веб-интерфейс для создания и управления LangGraph-агентами без необходимости писать код. Идея супер, особенно если вы уже устали от бесконечных строк на Python.

Что умеет эта платформа? 📋

Заявлено следующее:
• Управление агентами: создание, настройка и общение через браузерный интерфейс
• Интеграция с RAG: поддержка retrieval-augmented generation через LangConnect
• Инструменты MCP: подключение к внешним сервисам через HTTP MCP сервер
• Мульти-агентная оркестрация: один агент может управлять другими
• Аутентификация: встроенная поддержка Supabase (можно заменить своим решением, что по-моему и стоит сделать сразу, т.к. если у вас Pro подписка на Supabase, то даже самый мелкий проект будет стоить +$10 в месяц)

Детали архитектуры здесь

По описанию, OAP выглядит как неплохой инструмент для тех, кто хочет быстро прототипировать агентов без глубокого погружения в LangChain API. Но не ждите чудес — это всё ещё молодая технология со своими ограничениями. А первоначальная настройка и запуск могли бы быть и попроще. Если кто еще пробовал установку по инструкции поделитесь своими впечатлениями в комментариях.

Демонстрацию работы можно посмотреть здесь
Транскрипт демки тут.

#ai #langchain #agents #nocode #developer_tools

❤5👍4

249 views18:35

Заметки LLM-энтузиаста

Уязвимости ИИ-агентов: часть III и IV

В продолжении поста хотелось бы взять на заметку описанные ниже угрозы безопасности для агентных и мульти-агентных систем.
Я думаю, что сейчас в связи со снижением порога входа в разработку методом Vibe Coding, мало кто обращает внимание на такие угрозы, и через некоторое время в погоне за скоростью разработки и повсеместным внедрением GenAI мы можем столкнуться с ростом атак и компроментацией более сложных систем, которые начнут включать в себя программные модули, использующие GenAI как в своей непосредственной работе, так и на этапе своей разработки.

Часть III. Как скрытые инструкции крадут данные 🔓

Исследователи Trend Micro обнаружили серьезные проблемы безопасности в мультимодальных ИИ-агентах. Злоумышленники могут внедрять скрытые команды в изображения и документы, заставляя ИИ передавать конфиденциальные данные без ведома пользователя.

Что такое непрямая инъекция промптов? 🎯

Это скрытая атака, при которой вредоносные инструкции маскируются в обычном контенте:

• Веб-страницы — скрытые команды в HTML-коде
• Изображения — невидимый текст в "пустых" картинках
• Документы — скрытые инструкции в Word-файлах

Какие данные под угрозой? 📊

1️⃣ Персональные данные (имена, email, телефоны) 2️⃣ Финансовая информация (банковские реквизиты) 3️⃣ Медицинские записи 4️⃣ Коммерческие секреты 5️⃣ API-ключи и пароли 6️⃣ Загруженные документы

Реальный пример атаки 💀

Исследователи создали PoC-агента "Pandora", который продемонстрировал:

• Обработку вредоносного Word-документа "CV – Actor.docx"
• Извлечение и выполнение скрытого Python-кода
• Передачу данных на сервер злоумышленников
• Завершение с сообщением "Task complete"

Как защититься? 🛡

• Ограничить сетевые подключения к непроверенным URL
• Использовать фильтры для анализа загружаемого контента
• Применять OCR для обнаружения скрытого текста
• Внедрить системы мониторинга подозрительного поведения
• Очищать пользовательский ввод от потенциально опасных команд

Проблема особенно актуальна для ChatGPT Data Analyst и других ИИ-сервисов с возможностью выполнения кода.
Даже при использовании продвинутых моделей вроде GPT-4o уязвимости остаются, если отсутствуют защитные механизмы на уровне сервиса. То есть, задачу обеспечения безопасности должны решать именно разработчики! (не администраторы инфраструктры, и даже не DevSecOps!). Если мы говорим про Vibe Coding, то в PRD (а лучше прямо на уровне проектных правил для AI-кодинга) нужно закладывать соответствующую функциональность.

Часть IV: Уязвимости ИИ-агентов: угрозы доступа к базам данных 🔐

Исследователи Trend Micro выявили критические уязвимости в ИИ-агентах, работающих с базами данных. Злоумышленники могут эксплуатировать эти слабости для кражи данных и мошеннических атак.

Основные угрозы 🎯

1. Уязвимости генерации SQL-запросов
• Атакующие могут обойти защитные механизмы
• Получить доступ к конфиденциальным данным сотрудников
• Использовать методы джейлбрейкинга для обхода ограничений

2. "Сохраняющаяся" инъекция промптов
• Вредоносные промпты внедряются в пользовательские данные
• Активируются при последующих запросах к ИИ
• Могут привести к рассылке фишинговых писем

3. "Отравление" векторных хранилищ
• Атака на системы семантического поиска
• Злоумышленники внедряют вредоносный контент
• Срабатывает при похожих запросах других пользователей

Процесс атаки 🔄

1️⃣ Разведка - изучение структуры базы данных 2️⃣ Внедрение - размещение вредоносного контента 3️⃣ Активация - срабатывание при запросах пользователей 4️⃣ Эксплуатация - кража данных или распространение фишинга

Последствия 💥
• Кража персональных данных
• Фишинговые атаки внутри организации
• Финансовые потери • Репутационный ущерб
• Нарушение регулятивных требований

Защитные меры 🛡
• Надежная санитизация входных данных
• Продвинутое определение намерений (можно использовать классификатор)
• Строгий контроль доступа
• Постоянное обновление мер безопасности

#security #agents #prompt_injection #data_exfiltration #cybersecurity

Заметки LLM-энтузиаста

Уязвимости AI-агентов: Часть I и II

Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).…

❤‍🔥4👍2❤1

399 viewsedited 13:36

Заметки LLM-энтузиаста

🤖 Вышел интересный CEO playbook от Mckinsey по решению парадокса генеративного ИИ при помощи ИИ-агентов

Источник здесь

Суть парадокса: почти 80% компаний используют генеративный ИИ, но столько же сообщают об отсутствии значимого влияния на прибыль. Это называют "парадоксом генеративного ИИ" 📊

🔍 В чем проблема

Дисбаланс между двумя типами решений:
• Горизонтальные (корпоративные копилоты, чат-боты) - быстро масштабируются, но дают размытые результаты
• Вертикальные (функциональные решения) - более трансформационные, но 90% застревают на стадии пилота

⚡️ Что такое ИИ-агенты

ИИ-агенты выходят за рамки реактивной генерации контента, становясь автономными исполнителями с возможностями:
• Планирование и память
• Интеграция с системами
• Проактивное выполнение задач
• Адаптация в реальном времени

💼 Реальные кейсы применения

1. Банк: модернизация legacy-систем
• Проблема: 400 компонентов ПО, бюджет $600+ млн
• Решение: гибридные "цифровые фабрики" с ИИ-агентами
• Результат: сокращение времени и усилий на 50%+

2. Исследовательская компания: качество данных
• Проблема: 500+ сотрудников на обработку данных, 80% ошибок
• Решение: мультиагентная система для анализа аномалий
• Результат: рост продуктивности на 60%+, экономия $3+ млн в год

3. Банк: кредитные меморандумы
• Проблема: недели на создание кредитных отчетов
• Решение: агенты для извлечения данных и составления отчетов
• Результат: рост продуктивности на 20-60%

🏗 Архитектура будущего: Agentic AI Mesh

Новая парадигма для управления экосистемой агентов:

Ключевые принципы:
1️⃣ Композитность (Composability) - любой агент легко интегрируется в mesh-сеть
2️⃣ Распределенный интеллект - задачи декомпозируются и решаются сетями взаимодействующих агентов
3️⃣ Развязка по слоям (Layered decoupling) - функции логики, памяти и оркестрации независимы друг от друга
4️⃣ Вендор-нейтральность - избежание привязки к проприетарным решениям (предпочтение отдается открытым протоколам, например, A2A и MCP)
5️⃣ Управляемая автономия - контроль поведения агентов

🎯 Три уровня трансформации процессов

Уровень 1: Помощь в задачах (5-10% улучшения)
• ИИ помогает в существующих процессах

Уровень 2: Автоматизация шагов (20-40% экономии времени)
• Агенты выполняют отдельные операции

Уровень 3: Переосмысление процесса (до 80% автономного решения)
• Полная перестройка рабочих процессов вокруг агентов

⚠️ Основные вызовы

Технические:
• Управление новыми рисками
• Интеграция кастомных и готовых решений
• Адаптация к быстро развивающимся технологиям

Организационные:
• Взаимодействие человек-агент
• Контроль автономии
• Предотвращение неконтролируемого распространения

🚀 Что нужно для успеха

Четыре ключевых направления:

1️⃣ Люди: обучение сотрудников, новые роли
2️⃣ Управление: контроль автономии, предотвращение хаоса
3️⃣ Технологии: архитектура для взаимодействия и масштабирования
4️⃣ Данные: ускорение продуктизации данных

📈 Новый подход к ИИ-трансформации

Переход от:
• Разрозненных инициатив → к стратегическим программам
• Отдельных кейсов → к бизнес-процессам
• Изолированных ИИ-команд → к кросс-функциональным группам
• Экспериментов → к промышленному масштабированию

🎯 Роль CEO

Время экспериментов заканчивается. Руководители должны:
• Завершить фазу экспериментов
• Перестроить модель управления ИИ
• Запустить первые трансформационные проекты

ИИ-агенты - это не просто технологический шаг, а основа операционной модели следующего поколения 🔮

@llm_notes

#agents #genai #digital_transformation #business_automation #mckinsey

✍3❤3👍1👌1

509 viewsedited 17:24

Заметки LLM-энтузиаста

Сравнение подходов: как строить AI-агентов в продакшене 🤖

Думаю, что будет интересно всем. Две крупные AI-компании одновременно опубликовали диаметрально противоположные взгляды на архитектуру агентов.
Cognition утверждает "не стройте мульти-агентов", а Anthropic напротив детально описывает свою мульти-агентную систему для Claude Research.

Позиция Cognition: простота как залог надежности 🎯

Основные принципы:
• Общий контекст для всех операций
• Действия несут неявные решения
• Параллельные агенты создают конфликты

Почему мульти-агенты НЕ работают:
1️⃣ Потеря контекста между агентами
2️⃣ Противоречивые решения подагентов
3️⃣ Сложность отладки и координации
4️⃣ Накопление ошибок в цепочке

Cognition предлагает линейную архитектуру с единым потоком выполнения и компрессией истории для длинных задач.

Подход Anthropic: сложность под контролем ⚡️

Архитектура Advanced Research:
• Главный агент-координатор
• Специализированные подагенты для поиска
• Параллельное выполнение задач
• Система цитирования

Ключевые решения:
1️⃣ Детальное делегирование задач
2️⃣ Масштабирование усилий под сложность запроса
3️⃣ Параллельные вызовы инструментов
4️⃣ Расширенный режим мышления

Результаты: мульти-агентная система превосходит одиночного агента на 90% в исследовательских задачах.

Сравнение подходов 📊

Управление контекстом:
• Cognition: единый поток, компрессия истории
• Anthropic: распределенный контекст, память системы

Обработка ошибок:
• Cognition: минимизация точек отказа
• Anthropic: graceful degradation, retry логика

Производительность:
• Cognition: предсказуемость и стабильность
• Anthropic: скорость через распараллеливание задач

Сложность разработки:
• Cognition: простая отладка, линейный флоу
• Anthropic: сложная координация, но больше возможностей

Когда какой подход использовать 🎪

Линейные агенты (Cognition):
• Задачи с высокими требованиями к надежности
• Ограниченные ресурсы на разработку
• Последовательные рабочие процессы

Мульти-агенты (Anthropic):
• Исследовательские задачи
• Высокая ценность результата
• Возможность распараллеливания задач

Выводы 💡

Оба подхода имеют право на существование.

Выбор зависит от:
• Типа задач
• Требований к надежности
• Бюджета на разработку
• Опыта команды

Главное - понимать все trade-offs и не пытаться решить все задачи одним универсальным подходом.

@llm_notes

#agents #multi_agent_systems #production_ai #claude_research #battle #anthropic #cognition

❤7🔥4✍2

337 views20:06

Заметки LLM-энтузиаста

rtrvr.ai показал лучшие результаты в тестах Web Bench 🚀

Я несколько раз в постах (1|2) уже упоминал вскользь такой инструмент для автономного решения рабочих задач в браузере как rtrvr.ai

Инструмент чрезвычайно эффективный - может почти полностью заменить человека, который работает с браузером (не только по результативности, но и по скорости работы), и имеет возможность запуска задач по расписанию, поэтому хотел бы посвятить ему отдельный пост.

Платформа rtrvr.ai продемонстрировала впечатляющие результаты в бенчмарке Web Bench, достигнув 81,39% успешности выполнения задач при среднем времени выполнения всего 0,9 минуты (см. скриншот).

Ключевые особенности архитектуры 🔧

rtrvr.ai использует локальный подход через Chrome-расширение (также есть расширение для Edge браузера под Windows), работая напрямую с DOM веб-страниц:

• Обход систем защиты от ботов и CAPTCHA
• Использование уже авторизованных сессий пользователя
• Поддержка работы в нескольких вкладках одновременно
• Интеграция пользовательской логики через AI Function Calling (можно добавлять свои инструменты)

Производительность по типам задач 📊

1️⃣ Задачи чтения данных: 88,24% успешности 2️⃣ Операции записи: 65,63% успешности
3️⃣ Средняя стоимость: $0,12 за задачу

Решение проблемы "экспоненциального отказа" ⚡️

Платформа эффективно справляется с усложнением многошаговых процессов благодаря:

• Параллельному выполнению в нескольких вкладках
• Работе с "живым" DOM
• Локальной оркестрации задач

Такой подход имитирует поведение реального пользователя, что значительно снижает количество ошибок при работе с динамическими элементами и сложными формами. Единственно что - по новой открываемой браузерной вкладке требует повторной авторизации, надо еще раз нажимать "ок".

Практическое применение 💼

rtrvr.ai подходит как для индивидуальных пользователей, так и для корпоративного использования, предлагая быструю и доступную автоматизацию веб-задач с минимальной настройкой.

Как и в любом AI-инструменте, эффективность использования сильно зависит от правильной постановки задачи.
Поэтому имеет смысл ознакомиться с лучшими практиками использования и попробовать готовые workflow.

А еще есть классная штука - запись своего workflow, для автоматизации рутины, которую делаешь, но долго или сложно описать словами. Кажется, такая функция сейчас должна работать "из коробки" в любом современном браузере :)

У инструмента есть полнофункциональный Free Tier, который обновляется каждый месяц, поэтому можно потестировать и посмотреть насколько он вам подходит (250 Initial Credits, 100 Credits/Month).

Подробности: https://www.rtrvr.ai/blog/web-bench-results
Записи тестов здесь

@llm_notes

#web #automation #ai #agents #browser #rtrvr

❤2👍2🔥1

465 viewsedited 10:04

Заметки LLM-энтузиаста

ChatGPT Agent: новый инструмент для автоматизации задач 🤖

OpenAI представила ChatGPT Agent — он объядиняет возможности Operator и Deep Research в единой системе. Логичный шаг, теперь у Openai есть агент, который может самостоятельно выполнять сложные задачи, используя браузер, терминал и различные API.

Небольшое отступление. По сути, все эти задачи можно решить и без ChatGPT Agent, настроив в любом AI-кодере, у которого есть доступ к терминалу, необходимый набор MCP-серверов, но если серверов много - можно наткнуться на лимиты по количеству инструментов (как наример, в Cursor) или же AI-кодер может просто "запутаться" в количесте MCP-инструментов и начать делать что-то не то. Выход из такого положения тоже есть:
1) поместить инструкции по применению MCP-инструментов в системный промпт (rules-файлы)
2) использовать MCP-агрегаторы со встроенным RAG по списку MCP-инструментов наподобие ACI.DEV (отлично справляется в случае с Cursor, когда есть лимиты на количество MCP-tools, и что круто - этот инструмент может быть установлен локально!)

Судя по всему, сам сценарий использования стал настолько популярен, что Openai решили пойти по пути создания pret-a-porter агента, который в данном контексте выигрывает за счет того, что не требует дополнительной "сборки" и настройки под описанный выше класс задач и будет удобнее для обычного пользователя, который далек от AI-программирования и не хочет вдаваться в детали настройки MCP.

Основные возможности:
• Анализ календаря и подготовка брифингов по встречам
• Планирование покупок и составление списков
• Создание презентаций и анализ конкурентов
• Бронирование и планирование поездок
• Работа с таблицами и документами

Технические особенности: ⚙️
🔹 Визуальный браузер для взаимодействия с веб-интерфейсами
🔹 Текстовый браузер для быстрого анализа контента
🔹 Доступ к терминалу для выполнения кода
🔹 Интеграция с Gmail, Google Calendar, GitHub (я полагаю, что в сравнении с MCP-интеграцией здесь преимущество в безопасности системы, за которую теперь отвечает openai, а не дуэт в составе автора MCP-сервера и команды anthropic, которая пишет спецификацию MCP-протокола)
🔹 Возможность создания презентаций и таблиц (это уже относительно давно есть в manus и genspark)

Результаты тестирования: 📊
1️⃣ Humanity's Last Exam: 41.6% (новый рекорд)
2️⃣ FrontierMath: 27.4% точности
3️⃣ SpreadsheetBench: 45.5% при работе с файлами
4️⃣ BrowseComp: 68.9% (+17.4% к предыдущим результатам)

Безопасность и ограничения: ⚠️
Система требует подтверждения для критических действий и защищена от prompt injection атак. Пользователи могут в любой момент прервать выполнение задачи или взять управление на себя.

Доступность:
• Pro пользователи: 400 запросов/месяц
• Plus и Team: 40 запросов/месяц
• Постепенный запуск в течение нескольких дней

Функция пока недоступна в ЕС и Швейцарии.
Я пока тоже доступ не получил.
Разработчики планируют регулярные улучшения системы.

Полезные ссылки для просмотра:
- Введение в ChatGPT Agent
- Кастомизация ChatGPT Agent

@llm_notes

#chatgpt #agents #openai #automation #productivity

🔥2❤1🤔1

504 viewsedited 07:46

Заметки LLM-энтузиаста

🚀 v0.dev стал v0.app: еще одна агентная платформа для создания продуктов с ИИ

Популярная платформа v0.dev получила крупное обновление и сменила домен на v0.app. Теперь это более мощный инструмент, который позволяет создавать полноценные рабочие продукты с помощью агентного ИИ.

Это отличное дополнение к фронентд AI-кодерам lovable и bolt. Только v0.app сейчас бесплатный!

Что нового:
• Агентный ИИ планирует, исследует, создает и отлаживает проекты
• Возможность описать идею и получить готовый продукт
• Бесплатный доступ на этой неделе

Что уже создают пользователи: 1️⃣ Полноценные MVP стартапов 2️⃣ Интерактивные презентации с редактируемыми макетами 3️⃣ Приложения для опросов с подключением к базам данных 4️⃣ Витрины интернет-магазинов 5️⃣ Дашборды с реальными данными и API-интеграцией

Платформа предлагает бесплатный период для тестирования всех возможностей.

Основное преимущество платформы — не нужно писать промпты построчно. Достаточно описать, что хотите создать, и v0.app разберется с остальным 🤖

Я проверил на задаче создания сайта-визитки по профилю в linkedin (см. скриншоты)
Мне понравилось, как v0.app справился с созданием сайта, где есть переключение 2х языков и переключение с темной на светлую тему. Полгода назад, тестируя lovable и bolt на такой задаче, я потратил почти в 2 раза больше времени.
Осталось добавить форму обратной связи через email (для отправки email можно использовать EmailJS), сделать выгрузку CV в pdf и подправить ссылки на соц. сети.

После того как проект готов его можно либо сразу опубликовать на vercel (см. пример по ссылке), либо скачать архив и потом сделать частью более крупного проекта на claude/roocode/cursor/windsurf/...

Если сравнивать с lovable и bolt, то v0.app пока не хватает встроенного Security Audit, также нет отдельного режима планирования и автоматического рефакторинга кода (как в lovable).
А с точки зрения интеграций с Supabase и другими сервисами - у v0.app их даже больше! (подробности тут)

@llm_notes

#v0 #app #vibecoding #ui #agents #vercel #cv #site

👍6❤3

267 views09:38

Заметки LLM-энтузиаста

🔧 Полезный инструмент для Claude Code: Claude Code Templates

Для разработчиков, использующих Claude Code, появился полезный ресурс — платформа Claude Code Templates.
Это аналог популярного Playbooks для Cursor/Windsurf (ранее писал про него здесь), но созданный специально для Claude Code.

Что предлагает данный инструмент:

• Готовые AI-агенты (а точнее их полные спецификации с промптами и инструментами) для различных задач разработки
• Настроенные команды для автоматизации рутинных процессов
• Хуки для событийно-ориентированной автоматизации
• MCP интеграции с внешними сервисами
• Шаблоны проектов для разных языков и фреймворков

Основные возможности:

1️⃣ Специализированные агенты — от аудитора безопасности до оптимизатора производительности

2️⃣ Библиотека команд — автоматизация тестирования, рефакторинга, деплоя

3️⃣ Интеграции — подключение к GitHub, базам данных, инструментам автоматизации

4️⃣ Аналитическая панель — мониторинг использования Claude Code в реальном времени

5️⃣ Проверка системы — диагностика конфигурации и производительности

Платформа позволяет быстро найти нужный инструмент через поиск, не тратя время на создание решений с нуля. Все компоненты можно устанавливать как полными шаблонами проектов, так и отдельными модулями.

Инструмент распространяется через NPM и GitHub, имеет открытый исходный код и подробную документацию 📚

Есть красивая интеграция с DeepGraph, доступная прямо из UI, но для поиска нужного инструмента (агента, команды, шаблона, mcp и т.п.) под определенную задачу, по моему опыту, лучше использовать DeepWiki (чуть ранее писал о нем тут).

DeepGraph, например, не смог мне по репозиторию рассматриваемого проекта дать ответ на простой вопрос подскажи, какого агента лучше использовать для ревью кода? , хотя в проекте есть готовый суб-агент для решения такой задачи с говорящим названием code-reviewer
При этом DeepWiki на тот же вопрос сразу и достаточно быстро ответил что:

Рекомендуемый агент
code-reviewer - это специализированный агент для экспертного ревью кода, который проактивно проверяет качество, безопасность и поддерживаемость кода components.json:304 . Агент должен использоваться сразу после написания или модификации кода.

@llm_notes

#claudecode #templates #automation #vibecoding #mcp #agents #hooks

🔥4❤3👍2😐1

280 viewsedited 06:12

About

Blog

Apps

Platform