Заметки LLM-энтузиаста
517 subscribers
144 photos
17 videos
1 file
175 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
Newwhitepaper_Agents2.pdf
4.1 MB
#info #ai #agents #google #whitepaper

Google недавно опубликовали отличный обзорный материал по ИИ-агентам (см. вложенный файл).

ИИ-агенты принципиально отличаются от стандартных языковых моделей по трем ключевым параметрам:

1) Они комбинируют возможности больших языковых моделей с инструментами реального мира и уровнем оркестрации, который управляет сложными рассуждениями. Это позволяет им как обрабатывать информацию, так и выполнять какие-то полезные действия.

2) В отличие от традиционных моделей, которые могут ссылаться только на данные, на которых их обучали, агенты могут получать доступ к новой актуальной информации через:

- Расширения: Прямые соединения с внешними API
- Функции: Возможности выполнения кода/алгоритмов на стороне клиента
- Хранилища данных: Доступ к базам данных и внешним знаниям

3) Они используют сложные алгоритмы рассуждений (например, ReAct и Chain-of-Thought) для планирования и выполнения многоэтапных задач, подобно тому, как повар планирует и корректирует процесс приготовления сложного блюда.

В документе подчеркивается важное техническое различие между тем, что выдает модель (model outputs) на выходе и тем, что выдает агент в результате выполнения им поставленной задачи (agent execution). В то время как модель может генерировать ответы только на основе своего обучения, агент может проверять информацию, выполнять вызовы API и взаимодействовать с внешними системами для обеспечения точности и актуальности своих ответов.

Заглядывая в будущее, авторы предполагают, что «цепочка агентов» ("agent chaining") - объединение специализированных агентов для выполнения различных задач - может значительно расширить возможности ИИ.
Однако они также подчеркивают, что создание по-настоящему эффективно работающих полезных агентов требует тщательного итерационного подхода и оптимизации под конкретную область.

В общем, судя по всему, 2025 год будет годом "вертикальных" ИИ-агентов.
2👍1
#agents #google #анонс

Google представляет Agent2Agent: новая эра взаимодействия ИИ-агентов 🚀

Друзья, Google только что анонсировал революционный протокол Agent2Agent (A2A), который позволит ИИ-агентам общаться между собой независимо от платформы или разработчика! 🤖↔️🤖

A2A обеспечивает взаимодействие между "клиентскими" и "удаленными" агентами через четыре ключевые возможности:

🔒 Безопасное сотрудничество
📋 Управление задачами
👥 Согласование пользовательского опыта
🔍 Обнаружение возможностей

Всё это построено на популярных стандартах HTTP и JSON-RPC с корпоративной аутентификацией.

Почему это важно? 🤔

Представьте мир, где ваши ИИ-помощники могут:
• Автоматически взаимодействовать с другими системами
• Выполнять сложные задачи без вашего постоянного участия
• Обмениваться информацией безопасно и эффективно

Ключевые принципы A2A: 💡

• Простота: использование существующих стандартов
• Безопасность: корпоративная аутентификация и авторизация
• Асинхронность: поддержка длительных задач и участия человека
• Мультимодальность: работа с текстом, аудио, видео и другими форматами
• Непрозрачное выполнение: агенты не обязаны делиться своими мыслями, планами или инструментами

Реальный пример использования: 👨‍💼

Процесс найма инженера-программиста может быть значительно упрощен с помощью A2A. Менеджер по найму может поручить своему агенту найти кандидатов, соответствующих вакансии, местоположению и набору навыков. Агент взаимодействует с другими специализированными агентами для поиска потенциальных кандидатов, а затем может организовать собеседования и проверку биографии.

Кто поддерживает A2A? 🌐

Более 50 партнеров уже присоединились к инициативе, включая Atlassian, Box, Cohere, Intuit, Langchain, MongoDB, PayPal, Salesforce, SAP, ServiceNow и многих других.

Протокол открыт для всех, и Google активно приглашает сообщество к участию в его развитии.
Полная спецификация и примеры кода уже доступны на GitHub!

Оригинальный блог-пост с анонсом от гугла тут
Подробная техническая документация здесь

Мой конспект с фокусом на сходства/отличия от #mcp можно почитать по ссылке (спойлер: A2A дополняет MCP)

Что думаете о будущем взаимодействия ИИ-агентов? Делитесь в комментариях! 👇

#AI #GoogleCloud #AgentToAgent #ИскусственныйИнтеллект #ТехнологииБудущего
👍3🔥32
#google #ai #dev #firebasestudio #анонс

🚀 Firebase Studio: Онлайн AI-кодер от Гугла

Похоже сегодня день значимых анонсов от гугла.

Вчера Google на конференции Cloud Next представили Firebase Studio. Это облачная среда разработки с поддержкой Gemini, которая объединяет всё необходимое для создания AI-приложений в одном месте.

Очень похоже на lovable + replit + bolt + v0 - всё в одном инструменте. И самое приятное — доступно бесплатно в превью!

Что умеет Firebase Studio:

🧠 Агент-прототипирование — создавайте прототипы приложений с помощью обычного языка, изображений и набросков

💻 Рабочие пространства для кодинга — пишите код с помощью Gemini, который поможет с отладкой, тестированием и документацией

🔄 Полный стек — от AI-моделей и агентов до пользовательского интерфейса, бизнес-логики и базы данных

🛠 Знакомые инструменты — используйте свои конфигурации, расширения и тысячи плагинов из Open VSX Registry

🚀 Гибкое развертывание — запускайте в облаке с интеграцией Firebase или на собственной инфраструктуре
🤖 AI-агенты для всего рабочего процесса:

🔄 Агент миграции — поможет перенести код между версиями Java

🧪 Агент тестирования AI — проверит модели на потенциально вредные выводы

📝 Агент документации — создаст базу знаний о вашем коде

📱 Агент тестирования приложений — симулирует реальные взаимодействия пользователей с вашим приложением
🔥 Что еще нового:

🌐 Расширенная поддержка языков для Genkit — теперь с Python и Go

🖼 Новые модели через Vertex AI — включая Imagen 3 и Gemini 2.0 Multimodal Live API

📊 Firebase Data Connect — надежность Cloud SQL с мгновенными GraphQL API

🏠 Firebase App Hosting — развертывание полного стека приложений через git

Во время превью каждый получает 3 бесплатных рабочих пространства, а участники Google Developer Program — до 30!

Попробовать можно прямо сейчас на https://studio.firebase.google.com/

Официальный анонс здесь
Подробная техническая документация по инструменту тут

Среда разработки выглядит похоже на Github Codespaces, также можно поставить опенсорсные плагины для AI-кодинга (например, Cline или Roo Code) с поддержкой других языковых моделей платных или бесплатных (например, quasar alpha )

Я попробовал сделать трекер расходов из предлагаемых примеров - все прошло успешно, дефолтные цвета для "пирожковой" диаграммы правда были выбраны не очень, но по ходу разработки было только 3 ошибки, которые достаточно быстро gemini сам исправил (см. скриншот)

Кто уже успел заценить? Делитесь впечатлениями в комментариях! 👇
🔥4👍2🙏1
🤖 Google выпустил open-source агента на базе Gemini 2.5

Компания Google представила полнофункциональный агент-исследователь с открытым исходным кодом, построенный на Gemini 2.5 и LangGraph.

Что умеет агент:
• Выполняет многоэтапный поиск в интернете
• Анализирует найденную информацию
• Синтезирует ответы с указанием источников
• Работает как человек-исследователь

Техническая архитектура:
1️⃣ Frontend на React
2️⃣ Backend на LangGraph
3️⃣ Интеграция с Google Search API
4️⃣ Рефлексивное мышление для улучшения поисковых запросов
5️⃣ Автоматическая генерация цитат

Проект интересен тем, что Google предоставил полный код как фронтенда, так и бэкенда. Это позволяет изучить весь пайплайн работы AI-агента от начала до конца.

🔗 Репозиторий: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
DeepWiki по проекту здесь

@llm_notes

#ai_agents #langgraph #google_gemini #open_source #research_ai
6🔥32🤩1