Заметки LLM-энтузиаста
596 subscribers
151 photos
18 videos
1 file
182 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#openai #news #agents #operator

Что произошло?
Опенаи вчера анонсировали своего первого агента под названием Operator.

Зачем это нужно?

Оператор - это что-то вроде виртуального ИИ-консъержа, может решать задачи по планированию поездки, бронированию номеров в гостинице, столика в ресторане, покупке продуктов по рукописному списку и т.д.

Как работает?
Все это он делает через закрытую "песочницу" с браузером, в котором вводит необходимые команды поиска и работает с выбранными при постановке задаче инструментами. То есть, даже если у выбранного сайта (например, по заказу продуктов) нет API-интерфейса, он просто воспользуется им как обычный пользователь и решит поставленную задачу.
Подробнее здесь: https://help.openai.com/en/articles/10421097-operator

Как потестировать?

Оператор доступен по ссылке https://operator.chatgpt.com/
Сейчас 2 условия для доступа:
- регион USA (поэтому VPN нужно подобрать соответствующий)
- подписка ChatGPT Pro. Это более существенное ограничение, т.к. стоит $200 в месяц (https://chatgpt.com/#pricing)

Планы на будущее?
В анонсе говорят, что планируют:
- расширять линейку инструментов Оператора
- добавлять новых агентов
- расширять список регионов, в которых доступен Оператор
- через какое-то время сделать Оператора доступным для тех, у кого подписка ChatGPT Plus (за $20 в месяц)

Есть ли что-то похожее?
Да. Опенаи не первые, кто делает агентов, использующих веб-браузер для решения поставленных задач.
2🔥2👍1
#news #vercel #agents #operator #free

Бесплатный Open Operator от Vercel - теперь не надо платить $200 в месяц за данную функциональность, как это предлагает нам сделать Openai :)

https://open-operator.vercel.app

Vercel только что выпустила Open Operator, и я его протестировал
Основные функции:
- Поддержка web scraping
- Поддержка автоматической публикации задач
- Поддержка самостоятельного управления браузером, в котором происходит поиск
🎉3👍1🔥1
Newwhitepaper_Agents2.pdf
4.1 MB
#info #ai #agents #google #whitepaper

Google недавно опубликовали отличный обзорный материал по ИИ-агентам (см. вложенный файл).

ИИ-агенты принципиально отличаются от стандартных языковых моделей по трем ключевым параметрам:

1) Они комбинируют возможности больших языковых моделей с инструментами реального мира и уровнем оркестрации, который управляет сложными рассуждениями. Это позволяет им как обрабатывать информацию, так и выполнять какие-то полезные действия.

2) В отличие от традиционных моделей, которые могут ссылаться только на данные, на которых их обучали, агенты могут получать доступ к новой актуальной информации через:

- Расширения: Прямые соединения с внешними API
- Функции: Возможности выполнения кода/алгоритмов на стороне клиента
- Хранилища данных: Доступ к базам данных и внешним знаниям

3) Они используют сложные алгоритмы рассуждений (например, ReAct и Chain-of-Thought) для планирования и выполнения многоэтапных задач, подобно тому, как повар планирует и корректирует процесс приготовления сложного блюда.

В документе подчеркивается важное техническое различие между тем, что выдает модель (model outputs) на выходе и тем, что выдает агент в результате выполнения им поставленной задачи (agent execution). В то время как модель может генерировать ответы только на основе своего обучения, агент может проверять информацию, выполнять вызовы API и взаимодействовать с внешними системами для обеспечения точности и актуальности своих ответов.

Заглядывая в будущее, авторы предполагают, что «цепочка агентов» ("agent chaining") - объединение специализированных агентов для выполнения различных задач - может значительно расширить возможности ИИ.
Однако они также подчеркивают, что создание по-настоящему эффективно работающих полезных агентов требует тщательного итерационного подхода и оптимизации под конкретную область.

В общем, судя по всему, 2025 год будет годом "вертикальных" ИИ-агентов.
2👍1
#nvidia #news #agents #llm

NVIDIA представляет семейство моделей Llama Nemotron для построения агентных AI-платформ 🚀

🔍 NVIDIA только что выпустила новое семейство моделей с открытым исходным кодом — Llama Nemotron, специально разработанных для создания продвинутых ИИ-агентов, способных решать сложные задачи самостоятельно или в команде.

Что в этом особенного? 🤔
Эти модели поставляются в трех размерах:
• Nano (8B) — идеально для ПК и устройств на периферии
• Super (49B) — лучшая точность и производительность на одном GPU
• Ultra (249B) — максимальная точность на мульти-GPU серверах

🔄 Самая интересная особенность — переключатель режима рассуждений. Можно включать/выключать режим глубокого рассуждения прямо во время работы, в зависимости от задачи!

Впечатляющие результаты 📊
• На 20% выше точность по сравнению с базовыми моделями Llama
• В 5 раз быстрее других открытых моделей рассуждения
• Превосходит Llama 3.3 и DeepSeek R1 в тестах по STEM и использованию инструментов

Кто уже использует? 🏢
Microsoft, SAP, ServiceNow, Accenture и другие технологические гиганты уже интегрируют эти модели в свои платформы.

Что дальше? 🔮
В апреле NVIDIA выпустит фреймворк "AI-Q Blueprint", который поможет компаниям соединить ИИ-агентов с существующими системами и источниками данных. Тулкит уже доступен на github.

Похоже, что NVIDIA строит полноценную экосистему для эры агентного ИИ — от железа до высококачественных reasoning-моделей.

#NVIDIA #LlamaNemotron #ИскусственныйИнтеллект #АгентныйИИ #ГлубокоеОбучение #ТехНовости #AI #MachineLearning
👍4🔥4
#agents #google #анонс

Google представляет Agent2Agent: новая эра взаимодействия ИИ-агентов 🚀

Друзья, Google только что анонсировал революционный протокол Agent2Agent (A2A), который позволит ИИ-агентам общаться между собой независимо от платформы или разработчика! 🤖↔️🤖

A2A обеспечивает взаимодействие между "клиентскими" и "удаленными" агентами через четыре ключевые возможности:

🔒 Безопасное сотрудничество
📋 Управление задачами
👥 Согласование пользовательского опыта
🔍 Обнаружение возможностей

Всё это построено на популярных стандартах HTTP и JSON-RPC с корпоративной аутентификацией.

Почему это важно? 🤔

Представьте мир, где ваши ИИ-помощники могут:
• Автоматически взаимодействовать с другими системами
• Выполнять сложные задачи без вашего постоянного участия
• Обмениваться информацией безопасно и эффективно

Ключевые принципы A2A: 💡

• Простота: использование существующих стандартов
• Безопасность: корпоративная аутентификация и авторизация
• Асинхронность: поддержка длительных задач и участия человека
• Мультимодальность: работа с текстом, аудио, видео и другими форматами
• Непрозрачное выполнение: агенты не обязаны делиться своими мыслями, планами или инструментами

Реальный пример использования: 👨‍💼

Процесс найма инженера-программиста может быть значительно упрощен с помощью A2A. Менеджер по найму может поручить своему агенту найти кандидатов, соответствующих вакансии, местоположению и набору навыков. Агент взаимодействует с другими специализированными агентами для поиска потенциальных кандидатов, а затем может организовать собеседования и проверку биографии.

Кто поддерживает A2A? 🌐

Более 50 партнеров уже присоединились к инициативе, включая Atlassian, Box, Cohere, Intuit, Langchain, MongoDB, PayPal, Salesforce, SAP, ServiceNow и многих других.

Протокол открыт для всех, и Google активно приглашает сообщество к участию в его развитии.
Полная спецификация и примеры кода уже доступны на GitHub!

Оригинальный блог-пост с анонсом от гугла тут
Подробная техническая документация здесь

Мой конспект с фокусом на сходства/отличия от #mcp можно почитать по ссылке (спойлер: A2A дополняет MCP)

Что думаете о будущем взаимодействия ИИ-агентов? Делитесь в комментариях! 👇

#AI #GoogleCloud #AgentToAgent #ИскусственныйИнтеллект #ТехнологииБудущего
👍3🔥32
#mcp #list #top #agents

Топ-10 MCP-серверов для ИИ-агентов, апрель 2025 года 🤖

В этом обзоре представлены наиболее интересные с моей точки зрения MCP-серверы, которые расширяют возможности ИИ-агентов.
Эти инструменты обеспечивают доступ к различным функциям через единый интерфейс — от SQL-запросов до анимации и видеоредактирования.

1. Anyquery: универсальные SQL-запросы с поддержкой ИИ 💾

Anyquery позволяет делать запросы к различным источникам данных с помощью SQL.

Функциональность:

• Работа с традиционными базами данных и локальными файлами
• Интеграция с приложениями (Apple Notes, Notion)
• Поддержка веб-браузеров, включая Chrome
• Интеграция с языковыми моделями (ChatGPT, Claude) через протокол MCP
• Функционирование в качестве MySQL-сервера
• Совместимость с MySQL-клиентами (TablePlus, Metabase)
• Архитектура на основе SQLite с поддержкой плагинов

2. PluggedInMCP Proxy Server: централизованное управление MCP-серверами 🔄

PluggedInMCP Proxy Server представляет собой универсальный интерфейс для управления MCP-серверами, запущенными локально или через веб с использованием WebSockets.

Функциональность:

• Совместимость с MCP-клиентами (Claude Desktop, Klein, Cursor)
• Автоматическая загрузка конфигураций, инструментов и ресурсов
• Изоляция пространств имен для организации разных наборов MCP
• Многорабочее пространство для переключения между конфигурациями

3. Manim MCP Server: математические анимации через MCP 📊

Manim MCP Server объединяет математические анимации с протоколом MCP, позволяя выполнять скрипты Manim Python и получать анимационное видео.

Функциональность:

• Программное создание математических визуализаций
• Рендеринг через стандартизированный протокол
• Интеграция с MCP-совместимыми инструментами
• Генерация анимаций через текстовые запросы
• Автоматическое сохранение анимаций в медиа-папке

4. Video Editor MCP Server: редактирование видео через MCP 🎬

Video Editor MCP Server интегрирует возможности редактирования видео в экосистему MCP, позволяя языковым моделям взаимодействовать с видеоконтентом.

Функциональность:

• Интерфейс для загрузки, редактирования, поиска и генерации видео
• Интеграция с платформой Video Jungle
• Схема URI vj:// для обращения к видео и проектам
• Поиск видео с использованием эмбеддингов
• Метаданные о содержании видео и временных метках
• Инструменты для добавления видео из URL
• Поиск локальных видеофайлов в приложении Photos на macOS

5. DaVinci Resolve MCP Server: управление видеоредактором через MCP 🎥

DaVinci Resolve MCP Server интегрирует ИИ-ассистентов с профессиональным видеоредактором DaVinci Resolve.

Функциональность:

• Управление DaVinci Resolve с помощью текстовых команд
• Перечисление проектов, создание таймлайнов, добавление маркеров
• API-подобное управление через ИИ
• Автоматизация рабочих процессов видеомонтажа

6. Anilist MCP Server: доступ к данным об аниме и манге 🎌

Anilist MCP Server обеспечивает доступ к API Anilist через MCP-клиенты, позволяя взаимодействовать с данными об аниме и манге через текстовые команды.

Функциональность:

• Поиск аниме, манги, персонажей, студий
• Получение подробной информации о контенте
• Доступ к профилям пользователей и спискам
• Специализированные инструменты для данных Anilist
• Доступ к пользовательским спискам с авторизацией

7. MetaMCP: управление MCP-серверами 🎛

MetaMCP представляет собой промежуточный слой для централизованного управления MCP-серверами.

Функциональность:

• Единый интерфейс для контроля MCP-интеграций
• Совместимость с различными MCP-клиентами
• Управление инструментами, подсказками и ресурсами
• Мультирабочее пространство для изоляции конфигураций
• Детальное управление инструментами
• Доступен в версии с открытым исходным кодом и в облачной версии (доступна бесплатно)
1👍1
#ai #agents #forlife #trip #planning #browser

🚀 Как я спланировал семейное путешествие с помощью ИИ-агентов

Привет, друзья! 🌍

Хочу поделиться лайфхаком, который сделал планирование семейного отпуска на майские праздники простым и интересным!

🤖 Этап 1: Планирование маршрута

Решил проверить, как современные ИИ-агенты справятся с задачей планирования семейного отдыха. У меня оставались кредиты на нескольких платформах, так что устроил небольшое соревнование:

genspark.ai 🏆 - составил подробную программу на 3 дня
perplexity.ai deep research 📝 - предложил план на 2 дня

Вот результаты:

https://www.genspark.ai/agents?id=02447c93-d4ba-45c9-a682-2a8bcc506cea

https://www.perplexity.ai/search/sostav-programmu-poseshcheniia-2He2wz1bRG2t0ucCxWy1BA

💡 Можно также использовать: gemini deep research, manus ai, suna.so, openai deep research, rtrvr.ai или AI-кодеры типа roo code/cline с MCP серверами (brave research, exa, perplexity, firecrawl и т.п.)

💻 Этап 2: Создание интерактивной версии плана поездки

Чтобы сделать наше путешествие еще удобнее, решил создать интерактивную веб-версию программы поездки, доступную всем членам семьи. Сравнил два ИИ веб-кодера:

bolt.new ⚡️ - сделал отличный сайт с первого раза без дополнительных пояснений
lovable.dev 🎨 - потребовал некоторых уточнений (хотя он лучше справляется со сложными проектами)

Результаты получились такие:

https://yar-trip.netlify.app/ (от bolt.new)

https://yaroslavl-family-adventure-guide.lovable.app/ (от lovable.dev)

🏆 Мой выбор для планирования семейных путешествий:

genspark.ai - как универсальный агент для составления плана поездки
bolt.new - для быстрой и красивой визуализации интерактивного плана поездки

Попробуйте сами - возможно это сэкономит и вам какое-то время и сделает подготовку к отпуску интересной! 🧳🌴

А вы уже использовали ИИ для планирования отдыха? Делитесь опытом в комментариях! 👇
🔥63👍3
This media is not supported in your browser
VIEW IN TELEGRAM
DeerFlow: Новый фреймворк для глубоких исследований от ByteDance

ByteDance, компания-создатель TikTok, выпустила новый опенсорсный инструмент под названием DeerFlow. Это фреймворк для проведения глубоких исследований, который уже набрал почти 5000 звезд на GitHub всего за несколько дней. Неплохо для очередного AI-проекта, не так ли? 🤔

Что такое DeerFlow?

DeerFlow представляет собой фреймворк для систематических глубоких исследований с использованием координированных LangGraph агентов. По сути, это еще один AI-ассистент, но с открытым исходным кодом и возможностью запуска локально.

Основные возможности:
• Комплексный анализ литературы
• Синтез данных
• Структурированное извлечение знаний
• Интеграция с веб-поиском и Python

Как это работает?

Система использует языковые модели (например, Qwen 2.5 14B) и может работать с различными инструментами:

- Веб-поиск (DuckDuckGo, Tavily, Brave Search)
- Веб-краулинг
- Выполнение Python-кода
- Генерация отчетов и даже подкастов 🎙

Интерфейс выглядит довольно приятно (см. демо), а процесс исследования отображается в реальном времени с активностями, выводами и ссылками на источники. Всё как у "больших мальчиков", только бесплатно.

Стоит ли пробовать?

Если вы устали от платных API и хотите иметь собственный инструмент для исследований — возможно. Установка не самая простая (требуется Node.js 22+, несколько зависимостей и настройка конфигурации), но для энтузиастов это не проблема.

Конечно, не стоит ожидать, что он заменит ChatGPT или Claude, но для специфических исследовательских задач может оказаться полезным. По крайней мере, не нужно платить за каждый токен. 💸

Источники
1) Официальный сайт проекта: https://deerflow.tech/
2) Репозиторий проекта: github.com/ByteDance/DeerFlow
3) Подробная документация со схемами по репозиторию здесь

#AI #opensource #ByteDance #deerflow #ИИ_инструменты #deepsearch #agents
🔥43👍3