Заметки LLM-энтузиаста
638 subscribers
160 photos
21 videos
1 file
194 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
Media is too big
VIEW IN TELEGRAM
🧠 Контекст-инжиниринг для AI-агентов: 5 ключевых принципов

На выходных посмотрел очень интересный видео-подкаст с участием Лэнса Мартина из LangChain (автора самой популярной открытой версии Deep Research), в котором обсуждались вопросы управления контекстом в агентах - искусство давать LLM ровно тот контекст, который нужен для следующего агентного шага 🎯 Не обошлось и без сравнения моно- и мульти-агентных подходов (см. заметку)

Ниже привожу краткие тезисы, а на скрепке подготовил видео-нарезку основных тезисов с субтитрами на русском языке (8 минут).
Более полная интерактивная версия конспекта доступна по ссылке (а классический вариант конспекта здесь)

🔧 Пять столпов контекст-инжиниринга:

1️⃣ Offloading (Выгрузка)
• Не тащить всё в контекст — сохранять данные отдельно
• В историю записывать краткие сводки с возможностью подгрузки
• Экономия токенов и денег 💰

2️⃣ Context Isolation (Изоляция)
• Мультиагенты хороши для "чтения", один агент — для "письма"
• Параллельные задачи изолировать, связанные — объединять

3️⃣ Retrieval (Извлечение)
• llm.txt с качественными описаниями часто лучше сложного RAG
• Агентный поиск без индексации может превосходить векторный поиск
• Ключ успеха — хорошие описания файлов 📝

4️⃣ Reducing Context (Сжатие)
• Суммаризация на границах инструментов
• Баланс между экономией токенов и потерей информации
• Сохранять возможность восстановить исходник

5️⃣ Caching (Кеширование)
• Снижает стоимость и задержки
• Не решает проблему "context rot" от длинного контекста ⚠️

🔍 Context rot — деградация качества ответов LLM при слишком длинном контексте. Модель "теряется" в большом объёме информации и хуже понимает, что важно для текущей задачи 📉

💡 Практические инсайты:

Работа с памятью через человека — пользователь явно сохраняет важное, система учится предпочтениям
Горький урок AI — используй структурный подход сегодня, но будь готов отказаться от него завтра
MCP-стандарты снижают когнитивную нагрузку

⚡️ Золотые правила:
• Избегай наивного накопления всего контекста
• Качественная суммаризация лучше агрессивного сжатия
• Простые решения часто превосходят сложные
• Фреймворки должны легко "разбираться"

Философия: "Добавляй структуру, чтобы работало сегодня, и будь готов отказаться от нее завтра" 🚀

P.S. мне также очень понравились ссылки на дополнительные материалы в описании к ролику, некоторые из них я включил в эту заметку

@llm_notes

#context_engineering #agents #langchain #langgraph #llm_optimization
11🔥101
ByteRover 2.0: Git для памяти ИИ-агентов и 15 новых MCP-инструментов 🚀

Команда ByteRover выпустила обновление версии 2.0 своего решения для управления памятью ИИ-агентов по разработке. Систему можно использовать со всеми популярными coding-агентами: Claude Code, Cursor, Codex, GitHub Copilot и т.д. (см. скрин)

Сейчас, например, очень популярна комбинация Codex (планирование и основной кодинг с GPT-5 Codex в режиме High-Reasoning) + Claude Code (Sonnet 4.0 или Opus 4.1 для devops и mcp части кодинга) и данный инструмент позволяет "шарить" контекст между Codex и Claude Code, что очень удобно.

Ключевые нововведения:

🔄 Git для памяти ИИ
• Версионный контроль для памяти агентов
• Полная история изменений с временными метками
• Возможность отката к предыдущим версиям
• Функция форкинга баз памяти для экспериментов
• Детекция конфликтов в памяти при дублировании
• Совместная работа команды с отслеживанием авторства изменений

📝 Context Composer
Новый инструмент для создания контекста агентов:
• Загрузка документов, PDF, изображений
• Чат-интерфейс для взаимодействия с агентом
• Парсинг файлов в переиспользуемые воспоминания
• Интеграция со Slack, Jira, Figma, Google Drive

🛠 15 специализированных MCP-инструментов:

1️⃣ Knowledge Management - хранение паттернов кода и знаний с релевантным скорингом
2️⃣ Onboarding Tools - генерация и обновление справочников проектов
3️⃣ Plan Management - структурированные планы реализации с отслеживанием задач
4️⃣ Module Management - документирование модулей кодовой базы с техническими деталями
5️⃣ Reflection Tools - самооценка качества контекста агентом

Простая настройка ⚙️
• Создание workspace памяти
• Установка расширения в Cursor, Windsurf или другие AI IDE
• Добавление ключа workspace и email
• Автоматическое сохранение и восстановление памяти между сессиями

Альтернатива: Cipher 🔓
Для тех, кто предпочитает open-source решения, доступен Cipher - открытый слой памяти для coding-агентов (про другой oss вариант на базе OpenMemory MCP писал в заметке)

Возможности Cipher:
• Единый слой памяти для всех coding-агентов
• Интеграция через MCP сервер
• Поддержка OpenAI, Anthropic, OpenRouter
• Векторные базы: Milvus, Quadrant
• Ручное создание детализированных воспоминаний для проектов
• Автоматическое извлечение спецификаций и правил проекта

Настройка Cipher:
• Клонирование репозитория с GitHub
• Конфигурация в cipher.yml (MCP серверы, LLM провайдер, API ключи)
• Запуск в MCP режиме (default или aggregator)
• Интеграция с Cursor, Claude Code и другими IDE

Cipher решает ту же проблему потери контекста, но предоставляет полный контроль над данными и возможность кастомизации под специфические нужды команды.

🔗 ByteRover: https://www.byterover.dev/
🔗 Cipher GitHub: https://github.com/cipherdevs/cipher

@llm_notes

#byterover #cipher #memory #agents #mcp
4👍1🔥1
🤖 Google представила протокол AP2 для безопасных платежей через ИИ-агентов

Новость, сравнивая, с моей точки зрения, с анонсом MCP и A2A и является хорошим ответом на проблему, которую обсуждали на этом канале в апреле этого года.

Google анонсировала Agent Payments Protocol (AP2) — открытый протокол, который позволяет ИИ-агентам безопасно совершать покупки от имени пользователей. Инициативу поддержали более 60 крупных финтех и технологических компаний.

🔧 Как это работает:

• AP2 создает цифровые контракты-мандаты, которые подтверждают авторизацию пользователя перед совершением транзакции
• Для покупок в реальном времени требуется двойное подтверждение: "Intent Mandate" для поиска и "Cart Mandate" для оплаты
• Протокол поддерживает традиционные карты, банковские переводы и стейблкоины через партнерство с Coinbase

💳 Основные принципы безопасности:

1️⃣ Авторизация — доказательство того, что пользователь дал агенту право на конкретную покупку
2️⃣ Подлинность — гарантия для продавца, что запрос агента точно отражает намерения пользователя
3️⃣ Подотчетность — четкое определение ответственности при мошеннических операциях

🏢 Среди партнеров:
American Express, Mastercard, PayPal, Salesforce, Intuit, Adobe, Coinbase и другие

🚀 Возможности применения:

• Умный шоппинг с мониторингом цен и автоматическими покупками
• Персонализированные предложения на основе запросов пользователей
• Координированные задачи типа "забронируй рейс и отель в рамках бюджета"

Техническая спецификация и примеры реализации доступны в открытом репозитории GitHub.
Протокол расширяет существующие стандарты A2A и MCP.

📚 Источники:
• [Официальный блог Google Cloud]
• [Видео-презентация AP2]
• [GitHub репозиторий AP2] [DeepWiki]

@llm_notes

#payments #fintech #google #agents #blockchain #ap2
4👍2
Quests: классная open-source альтернатива Bolt и Lovable 🛠

Появилась еще одна интересная альтернатива веб AI-кодерам типа Bolt и Lovable.
И она, на мой взгляд, смотрится гораздо лучше, чем Open Lovable или Bolt.DIY.

Quests — это десктопное приложение с открытым исходным кодом, которое позволяет создавать React-приложения через удобный UI-интерфейс (как в Genspark AI Developer )

Основные особенности:

• Минималистичный интерфейс со вкладками как в браузере
• Поддержка нескольких AI-провайдеров (OpenAI, Anthropic, Gemini, OpenRouter, локальные модели через Ollama и Vercel AI Gateway - благодаря Quests, я узнал, что такой есть :)
• Низкое потребление памяти (~200 МБ)
• Кроссплатформенность
• Локальный запуск приложений

Технический стек:

🔹 Vite для фронтенда
🔹 Hono для бэкенда
🔹 ORPC для API
🔹 Встроенная поддержка Git
🔹 Экспорт готовых приложений

Что умеет:

1️⃣ Создание полноценных веб-приложений по текстовому описанию
2️⃣ Работа с несколькими проектами одновременно
3️⃣ Предварительный просмотр в реальном времени
4️⃣ Открытие проектов в VS Code, Cursor или терминале (очень удобно для решения вопросов по публикации приложения)
5️⃣ Версионирование с возможностью отката

Ограничения:

• Пока нет поддержки переменных окружения
• Отсутствует импорт существующих проектов
Нельзя прикреплять изображения
• Ограниченный выбор технологических стеков

Проект активно развивается и может стать серьезным конкурентом коммерческим решениям.
Особенно привлекает возможность использования бесплатных моделей через OpenRouter, включая Qwen3-coder и DeepSeek V3.1 (см. скриншот). Code-Supernova, к сожалению, пока не поддерживает.

Источники:
🔗 [GitHub репозиторий]
🔗 [Deepwiki на репозиторий]
🔗 [Официальный сайт]


@llm_notes

#opensource #vibecoding #web #react #lovable #bolt #quests
4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Lovable запустили Cloud и AI для автоматического создания приложений

Сегодня вечер крутых новостей!

Платформа Lovable представила две новые функции, которые упрощают разработку полнофункциональных приложений с ИИ.

Lovable Cloud — бэкенд одной командой 💾

Теперь можно создавать приложения с базами данных, авторизацией и файловым хранилищем без технических знаний. Система автоматически настраивает всю серверную инфраструктуру.

Что можно создать:
• Социальные приложения с профилями пользователей
• Платформы сообществ с постами и комментариями
• Системы управления товарами с каталогами
• Инструменты для совместной работы
• Обучающие приложения с отслеживанием прогресса

Lovable AI — ИИ-функции без настройки 🤖

Добавление ИИ-возможностей теперь происходит автоматически — не нужно регистрироваться у провайдеров, получать API-ключи или настраивать биллинг.

Возможности ИИ:
1️⃣ Анализ и обобщение контента
2️⃣ Чат-боты и разговорные интерфейсы
3️⃣ Анализ тональности текста
4️⃣ Поиск по документам и Q&A системы
5️⃣ Генерация контента и копирайтинг
6️⃣ Многоязычный перевод
7️⃣ Автоматизация рабочих процессов

Ценообразование 💰

Бесплатный тариф покрывает использование до $25/месяц. Lovable AI на базе Google Gemini бесплатен первую неделю для всех пользователей.

7-дневный челлендж 📅

С 29 сентября по 6 октября проходит неделя совместной разработки с ежедневными темами и призами.

В демонстрационном видео 10-летний ребенок создал математическое приложение с ИИ-подсказками и сохранением прогресса за несколько минут. Я проделал упражнение из ролика, результат можно посмотреть в комментариях.

Источники:
📖 Блог
🎥 Демо-видео
🌐 Челлендж

@llm_notes

#nocode #ai #vibecoding #lovable #automation
41👍1🆒1
🤖 Anthropic представила Claude Sonnet 4.5

Наконец-то!
Компания Anthropic выпустила новую версию своей языковой модели — Claude Sonnet 4.5. По заявлению разработчиков, это их самая мощная модель на данный момент.

🔧 Основные улучшения:

• Лидирует в бенчмарке SWE-bench Verified для оценки навыков программирования
• Показывает 61.4% на OSWorld (тесты работы с компьютером)
• Может поддерживать фокус на сложных задачах более 30 часов
• Улучшенные способности в математике и логических рассуждениях

💼 Практические возможности:

1️⃣ Генерация и редактирование кода
2️⃣ Работа с браузером и заполнение таблиц (см. здесь демо плагина для google chrome)
3️⃣ Создание файлов (документы, презентации, таблицы)
4️⃣ Выполнение многоэтапных задач

🛡 Безопасность:

Модель прошла дополнительное обучение для снижения нежелательного поведения:
• Уменьшение склонности к лести и обману
• Защита от prompt injection атак
• Соответствие стандартам безопасности ASL-3

💰 Доступность:

• Цена остается прежней: $3/$15 за миллион токенов
• Доступна через Claude API под именем claude-sonnet-4-5
• Обновления Claude Code доступны всем пользователям

🔬 Дополнительно:

Anthropic также выпустила Claude Agent SDK — инфраструктуру для создания AI-агентов, которая используется в их собственных продуктах (отличный ответ Openai Agents SDK)

Временно доступен исследовательский проект "Imagine with Claude" — демонстрация генерации программного обеспечения в реальном времени. Вот ссылка чтоб попробовать: https://claude.ai/imagine/
Я попросил его сделать такое же приложение для детей по изучению математики, что и lovable в предыдущем посте. Результаты можно посмотреть в комментариях.


📚 Источники:
Официальный анонс
System Card
Claude Agent SDK
Документация API

@llm_notes

#claude #anthropic #vibecoding #llm
13🔥2❤‍🔥1🆒1
🤖 OpenAI запустила протокол для покупок через ChatGPT

OpenAI представила Agentic Commerce Protocol (ACP) — открытый стандарт, который позволяет совершать покупки прямо в ChatGPT одним кликом. Протокол разработан совместно со Stripe и уже работает с цифровыми товарами Etsy.

Что такое ACP:
• Определяет взаимодействие между ИИ-агентами, продавцами и платежными системами
• Покрывает весь цикл электронной коммерции: от поиска до оплаты и доставки
• Использует JSON-формат для каталогов, сессий оформления заказов и обновлений
• Агенты не просто перенаправляют на сайт, а напрямую запрашивают цены, доставку и налоги

Ключевые особенности:
🔓 Открытый исходный код (Apache-2.0), но пока в статусе черновика
💳 Интеграция со Stripe "одной строкой кода", поддержка других процессоров через Delegated Payments
🔐 Токены с ограниченным сроком действия и привязкой к продавцу и сумме
📋 Полная история транзакций для аудита
⚡️ Обновление фидов товаров каждые 15 минут для актуальности

ACP vs Google AP2 📊

Фокус:
• ACP — полный цикл коммерции от поиска до доставки
• AP2 — только платежная часть агентской коммерции

Платежи:
• ACP — через Stripe + поддержка других через Delegated Payment
• AP2 — карты, банковские переводы, стейблкоины, криптовалюты

Авторизация:
• ACP — токены с ограничениями по продавцу и сумме
• AP2 — "мандаты" (подписанные пользователем авторизации)

Как это работает:
1️⃣ Фид товаров — продавец предоставляет структурированные данные (TSV, CSV, XML, JSON)
2️⃣ Оформление заказа — ChatGPT собирает данные покупателя и создает сессию
3️⃣ Обработка платежа — продавец валидирует и обрабатывает через свою систему
4️⃣ Вебхуки — система отправляет события о статусе заказа
5️⃣ Завершение — подтверждение или отклонение заказа

Технические детали:
• REST API с 5 обязательными эндпоинтами
• HTTPS и JSON для всех запросов
• Поддержка идемпотентности и подписей запросов
• Статусы заказов: created → manual_review → confirmed → shipped → fulfilled

Ограничения:
⚠️ Пока доступно только одобренным партнерам
⚠️ OpenAI не является продавцом — все транзакции через системы продавцов
⚠️ Требуется прохождение проверок соответствия

Источники:
🔗 [Документация OpenAI]
🔗 [Спецификация Agentic Checkout]
🔗 [Ключевые концепции ACP]

@llm_notes

#agentic_commerce #chatgpt #ecommerce #ai_agents #openai #acp #ap2
1
🚀 DeepSeek представила V3.2-Exp с технологией разреженного внимания

Опенсорс также не остался в стороне от потока позитивных новостей :)
Компания DeepSeek выпустила экспериментальную версию своей модели V3.2-Exp, которая использует новый механизм разреженного внимания (DeepSeek Sparse Attention).

Ключевые особенности:

Снижение стоимости обработки длинных контекстов на 85%
• Обработка только 2K наиболее важных токенов из 128K
• Сохранение качества на уровне V3.1-Terminus
• Снижение цен API более чем на 50%

Технические характеристики:

🔹 Модель игнорирует нерелевантные токены
🔹 Фокусируется на топ-2K токенах из контекста 128K
🔹 Значительное улучшение эффективности обучения и инференса

Доступность:

1️⃣ Hugging Face
2️⃣ Официальное приложение DeepSeek
3️⃣ Web-интерфейс
4️⃣ API с пониженными ценами (-50%)

Я жду пока появится на openrouter.ai или requesty.ai чтобы потестировать на нескольких задачах AI-кодинга средней сложности как чуть ранее делал для модели code-supernova здесь (тестировал через github codespaces - очень удобно, не нужно загружать свой ПК)

Производительность:
Тестирование показало сопоставимые результаты с V3.1-Terminus по основным бенчмаркам, включая MMLU-Pro, GPQA-Diamond и LiveCodeBench.

Модель доступна под лицензией MIT и поддерживается популярными фреймворками для инференса SGLang и vLLM 📊

Источники:
🔗 [GitHub репозиторий]
🔗 [Hugging Face]

@llm_notes

#deepseek #sparseattention #longcontext #llm #opensource
1