Newwhitepaper_Agents2.pdf
4.1 MB
#info #ai #agents #google #whitepaper
Google недавно опубликовали отличный обзорный материал по ИИ-агентам (см. вложенный файл).
ИИ-агенты принципиально отличаются от стандартных языковых моделей по трем ключевым параметрам:
1) Они комбинируют возможности больших языковых моделей с инструментами реального мира и уровнем оркестрации, который управляет сложными рассуждениями. Это позволяет им как обрабатывать информацию, так и выполнять какие-то полезные действия.
2) В отличие от традиционных моделей, которые могут ссылаться только на данные, на которых их обучали, агенты могут получать доступ к новой актуальной информации через:
- Расширения: Прямые соединения с внешними API
- Функции: Возможности выполнения кода/алгоритмов на стороне клиента
- Хранилища данных: Доступ к базам данных и внешним знаниям
3) Они используют сложные алгоритмы рассуждений (например, ReAct и Chain-of-Thought) для планирования и выполнения многоэтапных задач, подобно тому, как повар планирует и корректирует процесс приготовления сложного блюда.
В документе подчеркивается важное техническое различие между тем, что выдает модель (model outputs) на выходе и тем, что выдает агент в результате выполнения им поставленной задачи (agent execution). В то время как модель может генерировать ответы только на основе своего обучения, агент может проверять информацию, выполнять вызовы API и взаимодействовать с внешними системами для обеспечения точности и актуальности своих ответов.
Заглядывая в будущее, авторы предполагают, что «цепочка агентов» ("agent chaining") - объединение специализированных агентов для выполнения различных задач - может значительно расширить возможности ИИ.
Однако они также подчеркивают, что создание по-настоящему эффективно работающих полезных агентов требует тщательного итерационного подхода и оптимизации под конкретную область.
В общем, судя по всему, 2025 год будет годом "вертикальных" ИИ-агентов.
Google недавно опубликовали отличный обзорный материал по ИИ-агентам (см. вложенный файл).
ИИ-агенты принципиально отличаются от стандартных языковых моделей по трем ключевым параметрам:
1) Они комбинируют возможности больших языковых моделей с инструментами реального мира и уровнем оркестрации, который управляет сложными рассуждениями. Это позволяет им как обрабатывать информацию, так и выполнять какие-то полезные действия.
2) В отличие от традиционных моделей, которые могут ссылаться только на данные, на которых их обучали, агенты могут получать доступ к новой актуальной информации через:
- Расширения: Прямые соединения с внешними API
- Функции: Возможности выполнения кода/алгоритмов на стороне клиента
- Хранилища данных: Доступ к базам данных и внешним знаниям
3) Они используют сложные алгоритмы рассуждений (например, ReAct и Chain-of-Thought) для планирования и выполнения многоэтапных задач, подобно тому, как повар планирует и корректирует процесс приготовления сложного блюда.
В документе подчеркивается важное техническое различие между тем, что выдает модель (model outputs) на выходе и тем, что выдает агент в результате выполнения им поставленной задачи (agent execution). В то время как модель может генерировать ответы только на основе своего обучения, агент может проверять информацию, выполнять вызовы API и взаимодействовать с внешними системами для обеспечения точности и актуальности своих ответов.
Заглядывая в будущее, авторы предполагают, что «цепочка агентов» ("agent chaining") - объединение специализированных агентов для выполнения различных задач - может значительно расширить возможности ИИ.
Однако они также подчеркивают, что создание по-настоящему эффективно работающих полезных агентов требует тщательного итерационного подхода и оптимизации под конкретную область.
В общем, судя по всему, 2025 год будет годом "вертикальных" ИИ-агентов.
✍2👍1
#agents #google #анонс
Google представляет Agent2Agent: новая эра взаимодействия ИИ-агентов 🚀
Друзья, Google только что анонсировал революционный протокол Agent2Agent (A2A), который позволит ИИ-агентам общаться между собой независимо от платформы или разработчика! 🤖↔️🤖
A2A обеспечивает взаимодействие между "клиентскими" и "удаленными" агентами через четыре ключевые возможности:
• 🔒 Безопасное сотрудничество
• 📋 Управление задачами
• 👥 Согласование пользовательского опыта
• 🔍 Обнаружение возможностей
Всё это построено на популярных стандартах HTTP и JSON-RPC с корпоративной аутентификацией.
Почему это важно? 🤔
Представьте мир, где ваши ИИ-помощники могут:
• Автоматически взаимодействовать с другими системами
• Выполнять сложные задачи без вашего постоянного участия
• Обмениваться информацией безопасно и эффективно
Ключевые принципы A2A: 💡
• Простота: использование существующих стандартов
• Безопасность: корпоративная аутентификация и авторизация
• Асинхронность: поддержка длительных задач и участия человека
• Мультимодальность: работа с текстом, аудио, видео и другими форматами
• Непрозрачное выполнение: агенты не обязаны делиться своими мыслями, планами или инструментами
Реальный пример использования: 👨💼
Процесс найма инженера-программиста может быть значительно упрощен с помощью A2A. Менеджер по найму может поручить своему агенту найти кандидатов, соответствующих вакансии, местоположению и набору навыков. Агент взаимодействует с другими специализированными агентами для поиска потенциальных кандидатов, а затем может организовать собеседования и проверку биографии.
Кто поддерживает A2A? 🌐
Более 50 партнеров уже присоединились к инициативе, включая Atlassian, Box, Cohere, Intuit, Langchain, MongoDB, PayPal, Salesforce, SAP, ServiceNow и многих других.
Протокол открыт для всех, и Google активно приглашает сообщество к участию в его развитии.
Полная спецификация и примеры кода уже доступны на GitHub!
Оригинальный блог-пост с анонсом от гугла тут
Подробная техническая документация здесь
Мой конспект с фокусом на сходства/отличия от #mcp можно почитать по ссылке (спойлер:A2A дополняет MCP )
Что думаете о будущем взаимодействия ИИ-агентов? Делитесь в комментариях! 👇
#AI #GoogleCloud #AgentToAgent #ИскусственныйИнтеллект #ТехнологииБудущего
Google представляет Agent2Agent: новая эра взаимодействия ИИ-агентов 🚀
Друзья, Google только что анонсировал революционный протокол Agent2Agent (A2A), который позволит ИИ-агентам общаться между собой независимо от платформы или разработчика! 🤖↔️🤖
A2A обеспечивает взаимодействие между "клиентскими" и "удаленными" агентами через четыре ключевые возможности:
• 🔒 Безопасное сотрудничество
• 📋 Управление задачами
• 👥 Согласование пользовательского опыта
• 🔍 Обнаружение возможностей
Всё это построено на популярных стандартах HTTP и JSON-RPC с корпоративной аутентификацией.
Почему это важно? 🤔
Представьте мир, где ваши ИИ-помощники могут:
• Автоматически взаимодействовать с другими системами
• Выполнять сложные задачи без вашего постоянного участия
• Обмениваться информацией безопасно и эффективно
Ключевые принципы A2A: 💡
• Простота: использование существующих стандартов
• Безопасность: корпоративная аутентификация и авторизация
• Асинхронность: поддержка длительных задач и участия человека
• Мультимодальность: работа с текстом, аудио, видео и другими форматами
• Непрозрачное выполнение: агенты не обязаны делиться своими мыслями, планами или инструментами
Реальный пример использования: 👨💼
Процесс найма инженера-программиста может быть значительно упрощен с помощью A2A. Менеджер по найму может поручить своему агенту найти кандидатов, соответствующих вакансии, местоположению и набору навыков. Агент взаимодействует с другими специализированными агентами для поиска потенциальных кандидатов, а затем может организовать собеседования и проверку биографии.
Кто поддерживает A2A? 🌐
Более 50 партнеров уже присоединились к инициативе, включая Atlassian, Box, Cohere, Intuit, Langchain, MongoDB, PayPal, Salesforce, SAP, ServiceNow и многих других.
Протокол открыт для всех, и Google активно приглашает сообщество к участию в его развитии.
Полная спецификация и примеры кода уже доступны на GitHub!
Оригинальный блог-пост с анонсом от гугла тут
Подробная техническая документация здесь
Мой конспект с фокусом на сходства/отличия от #mcp можно почитать по ссылке (спойлер:
Что думаете о будущем взаимодействия ИИ-агентов? Делитесь в комментариях! 👇
#AI #GoogleCloud #AgentToAgent #ИскусственныйИнтеллект #ТехнологииБудущего
👍3🔥3❤2
#google #ai #dev #firebasestudio #анонс
🚀 Firebase Studio: Онлайн AI-кодер от Гугла
Похоже сегодня день значимых анонсов от гугла.
Вчера Google на конференции Cloud Next представили Firebase Studio. Это облачная среда разработки с поддержкой Gemini, которая объединяет всё необходимое для создания AI-приложений в одном месте.
Очень похоже на lovable + replit + bolt + v0 - всё в одном инструменте. И самое приятное — доступно бесплатно в превью!
✨ Что умеет Firebase Studio:
• 🧠 Агент-прототипирование — создавайте прототипы приложений с помощью обычного языка, изображений и набросков
• 💻 Рабочие пространства для кодинга — пишите код с помощью Gemini, который поможет с отладкой, тестированием и документацией
• 🔄 Полный стек — от AI-моделей и агентов до пользовательского интерфейса, бизнес-логики и базы данных
• 🛠 Знакомые инструменты — используйте свои конфигурации, расширения и тысячи плагинов из Open VSX Registry
• 🚀 Гибкое развертывание — запускайте в облаке с интеграцией Firebase или на собственной инфраструктуре
🤖 AI-агенты для всего рабочего процесса:
• 🔄 Агент миграции — поможет перенести код между версиями Java
• 🧪 Агент тестирования AI — проверит модели на потенциально вредные выводы
• 📝 Агент документации — создаст базу знаний о вашем коде
• 📱 Агент тестирования приложений — симулирует реальные взаимодействия пользователей с вашим приложением
🔥 Что еще нового:
• 🌐 Расширенная поддержка языков для Genkit — теперь с Python и Go
• 🖼 Новые модели через Vertex AI — включая Imagen 3 и Gemini 2.0 Multimodal Live API
• 📊 Firebase Data Connect — надежность Cloud SQL с мгновенными GraphQL API
• 🏠 Firebase App Hosting — развертывание полного стека приложений через git
Во время превью каждый получает 3 бесплатных рабочих пространства, а участники Google Developer Program — до 30!
Попробовать можно прямо сейчас на https://studio.firebase.google.com/
Официальный анонс здесь
Подробная техническая документация по инструменту тут
Среда разработки выглядит похоже на Github Codespaces, также можно поставить опенсорсные плагины для AI-кодинга (например, Cline или Roo Code) с поддержкой других языковых моделей платных или бесплатных (например, quasar alpha )
Я попробовал сделать трекер расходов из предлагаемых примеров - все прошло успешно, дефолтные цвета для "пирожковой" диаграммы правда были выбраны не очень, но по ходу разработки было только 3 ошибки, которые достаточно быстро gemini сам исправил (см. скриншот)
Кто уже успел заценить? Делитесь впечатлениями в комментариях! 👇
🚀 Firebase Studio: Онлайн AI-кодер от Гугла
Похоже сегодня день значимых анонсов от гугла.
Вчера Google на конференции Cloud Next представили Firebase Studio. Это облачная среда разработки с поддержкой Gemini, которая объединяет всё необходимое для создания AI-приложений в одном месте.
Очень похоже на lovable + replit + bolt + v0 - всё в одном инструменте. И самое приятное — доступно бесплатно в превью!
✨ Что умеет Firebase Studio:
• 🧠 Агент-прототипирование — создавайте прототипы приложений с помощью обычного языка, изображений и набросков
• 💻 Рабочие пространства для кодинга — пишите код с помощью Gemini, который поможет с отладкой, тестированием и документацией
• 🔄 Полный стек — от AI-моделей и агентов до пользовательского интерфейса, бизнес-логики и базы данных
• 🛠 Знакомые инструменты — используйте свои конфигурации, расширения и тысячи плагинов из Open VSX Registry
• 🚀 Гибкое развертывание — запускайте в облаке с интеграцией Firebase или на собственной инфраструктуре
🤖 AI-агенты для всего рабочего процесса:
• 🔄 Агент миграции — поможет перенести код между версиями Java
• 🧪 Агент тестирования AI — проверит модели на потенциально вредные выводы
• 📝 Агент документации — создаст базу знаний о вашем коде
• 📱 Агент тестирования приложений — симулирует реальные взаимодействия пользователей с вашим приложением
🔥 Что еще нового:
• 🌐 Расширенная поддержка языков для Genkit — теперь с Python и Go
• 🖼 Новые модели через Vertex AI — включая Imagen 3 и Gemini 2.0 Multimodal Live API
• 📊 Firebase Data Connect — надежность Cloud SQL с мгновенными GraphQL API
• 🏠 Firebase App Hosting — развертывание полного стека приложений через git
Во время превью каждый получает 3 бесплатных рабочих пространства, а участники Google Developer Program — до 30!
Попробовать можно прямо сейчас на https://studio.firebase.google.com/
Официальный анонс здесь
Подробная техническая документация по инструменту тут
Среда разработки выглядит похоже на Github Codespaces, также можно поставить опенсорсные плагины для AI-кодинга (например, Cline или Roo Code) с поддержкой других языковых моделей платных или бесплатных (например, quasar alpha )
Я попробовал сделать трекер расходов из предлагаемых примеров - все прошло успешно, дефолтные цвета для "пирожковой" диаграммы правда были выбраны не очень, но по ходу разработки было только 3 ошибки, которые достаточно быстро gemini сам исправил (см. скриншот)
Кто уже успел заценить? Делитесь впечатлениями в комментариях! 👇
🔥4👍2🙏1
🤖 Google выпустил open-source агента на базе Gemini 2.5
Компания Google представила полнофункциональный агент-исследователь с открытым исходным кодом, построенный на Gemini 2.5 и LangGraph.
Что умеет агент:
• Выполняет многоэтапный поиск в интернете
• Анализирует найденную информацию
• Синтезирует ответы с указанием источников
• Работает как человек-исследователь
Техническая архитектура:
1️⃣ Frontend на React
2️⃣ Backend на LangGraph
3️⃣ Интеграция с Google Search API
4️⃣ Рефлексивное мышление для улучшения поисковых запросов
5️⃣ Автоматическая генерация цитат
Проект интересен тем, что Google предоставил полный код как фронтенда, так и бэкенда. Это позволяет изучить весь пайплайн работы AI-агента от начала до конца.
🔗 Репозиторий: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
DeepWiki по проекту здесь
@llm_notes
#ai_agents #langgraph #google_gemini #open_source #research_ai
Компания Google представила полнофункциональный агент-исследователь с открытым исходным кодом, построенный на Gemini 2.5 и LangGraph.
Что умеет агент:
• Выполняет многоэтапный поиск в интернете
• Анализирует найденную информацию
• Синтезирует ответы с указанием источников
• Работает как человек-исследователь
Техническая архитектура:
1️⃣ Frontend на React
2️⃣ Backend на LangGraph
3️⃣ Интеграция с Google Search API
4️⃣ Рефлексивное мышление для улучшения поисковых запросов
5️⃣ Автоматическая генерация цитат
Проект интересен тем, что Google предоставил полный код как фронтенда, так и бэкенда. Это позволяет изучить весь пайплайн работы AI-агента от начала до конца.
🔗 Репозиторий: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
DeepWiki по проекту здесь
@llm_notes
#ai_agents #langgraph #google_gemini #open_source #research_ai
❤6🔥3✍2🤩1