Заметки LLM-энтузиаста
390 subscribers
125 photos
14 videos
1 file
150 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и LLM-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#news #windsurf #ai #dev #mcp

🎉 Коллеги, спешу поделиться крутыми новостями!

🌊 Вышел Windsurf 3!

Главная фишка релиза - поддержка MCP (Model Context Protocol), который Anthropic запустила в ноябре 2024.

Недавно писал про MCP в контексте Cursor здесь.

Настройка простая - через JSON конфиг указываете нужный MCP сервер.

Пример для git:
1) Заходим на https://github.com/modelcontextprotocol
2) Выбираем Git mcp https://github.com/modelcontextprotocol (см. скрин)
3) Выбираем uvx конфиг
"mcpServers": {
"git": {
"command": "uvx",
"args": ["mcp-server-git", "--repository", "path/to/git/repo"]
}
}


4) Добавляем этот конфиг в настройки MCP Windsurf (см. скриншот)


🚀 Какие еще обновления в Wave 3:

1) Полная поддержка новых моделей:

• DeepSeek V3
• DeepSeek R1
• O3 mini
• Gemini 2.0 Flash

2) Новые функции редактора:

• Tab to Jump: умное автодополнение
• Турбо режим для автоматизации (не спрашивает подтверждения на внесение изменений, это может быть опасно, но зато быстро :)
• Drag-and-drop изображений
• Кастомные иконки для самого windsurf

💰 Обновление тарифов:

1) Бесплатный план
• Базовый функционал
• Доступ к основной модели

2) Премиум ($10-15)
• 500 премиум-кредитов
• 1500 flow action кредитов

3) Pro ($60)
• Расширенный лимит
• Для активных пользователей

#Windsurf #Programming #AI #Development
#news #microsoft #omnitool #omniparser #agent #opensource #automation

🤖 Microsoft представила OmniParser V2 и OmniTool

👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.

🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.

📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов

🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды

💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face

🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК

⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.

🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем

🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.

Полный набор роликов со сценариями использования от разработчиков здесь.

#AI #Microsoft #Automation #Tech #Development #OpenAI
#mcp #thoughts #architecture

🔄 MCP: Текущие проблемы и варианты решения

Коллеги, добрый вечер! 👋

Я думаю, что многие уже успели попробовать подключение внешних инструментов к text2code агентам вроде Cursor/Windsurf/Cline/etc
Это достаточно удобно (даже для Windows уже появились вполне себе рабочие конфигурации на https://smithery.ai/), но в этой заметке я бы хотел подсветить существующие проблемы MCP, о которых стоит знать 🧐

🤔 В чем основная проблема MCP?
MCP — stateful протокол с долгоживущим соединением между клиентом и сервером. Это означает, что:

- 🔌 Требуется постоянное соединение между клиентом и сервером
- 🏗 Нельзя развернуть MCP в бессерверной (serverless) среде
- 🔄 Необходимо поддерживать SSE (Server-Sent Events) или WebSockets

Данный факт может стать серьезным барьером для разработчиков 😱
Вместо того, чтобы быстро развернуть функцию в AWS Lambda (у нас аналогом может выступать Yandex Cloud Functions) или Vercel, приходится разворачивать и настраивать выделенные серверы или кластеры Kubernetes (могут потребоваться DevOps скиллы).

🧩 Почему MCP спроектировали как stateful протокол?
Разработчики MCP выделяют несколько killer фич, ради которых MCP был спроектирован как statefull:

- 📢 Уведомления от сервера в сторону клиента об изменениях ресурсов или инструментов
- 🤖 Возможность сервера инициировать сэмплинг (sampling) в любой момент
- 📝 Передача логов сервера клиенту
- 🔮 Потенциальные будущие возможности

Одна из основных причин — сэмплинг (sampling), который позволяет серверу запрашивать у клиента выполнение запросов к LLM. Однако:

- ⚠️ Это создает потенциальные проблемы безопасности (сторонний MCP сервер, который вы подключили к своему агенту как инструмент, может получить доступ к приватным данным агента, например, к API-ключам)
- 🚫 Скорее всего поэтому сейчас ни один из клиентов MCP не поддерживает сэмплинг (см. здесь)
- 💰 Нет стимула для клиентов тратить свои токены на запросы от сервера

🛠 Возможные решения
В сообществе обсуждаются три основных варианта:

1️⃣ Добавить токены состояния/сессии
- Инкапсулировать состояние в токен, который передается между клиентом и сервером
- Простая эволюция текущего MCP
- Сложно для реализации серверами

2️⃣ Реализовать Stateless и Stateful варианты протокола
- Поддерживать оба варианта, позволяя разработчикам выбирать
- Простые серверы могут быть stateless
- Обратная совместимость
- Усложнение спецификации и SDK

3️⃣ Реализовать только stateless MCP
- Отказаться от функций, требующих режима stateful
- Простота для всех участников
- Потеря возможностей для агентных взаимодействий
- Несовместимость с текущей версией

🌟 Прогрессивное улучшение как компромисс
Интересный подход предложил инженер из Shopify — "MCP Lite" и прогрессивное улучшение:

1. 🔄 Базовый уровень: простой JSON-RPC для вызова инструментов
2. 📡 Опциональные уведомления через SSE/WebSockets для серверов, которые хотят их поддерживать
3. 🔄 Короткоживущие SSE-соединения только на время запуска инструмента

Это позволит:
- 🚀 Упростить внедрение MCP
- 🔧 Поддерживать сложные сценарии для тех, кто в них нуждается
- 📱 Работать в serverless-окружении

🔮 Альтернативы MCP
Существуют и более простые альтернативы, например, agents.json от Wild-Card-AI:

- 📄 Простой JSON поверх OpenAPI-спецификации
- 🔗 Использует существующие технологии
- 🧠 Не требует разворачивания выделенного сервера под AI tools

🔮 Будущее MCP
Для широкого принятия MCP необходимо:

- 🧪 Добавить поддержку stateless взаимодействий
- 🔄 Сделать stateful функции опциональными
- 🔑 Улучшить безопасность двунаправленной коммуникации при использовании sampling
- 📚 Решить проблему перегрузки контекстного окна при большом количестве инструментов

💭 Вывод
MCP имеет потенциал стать стандартом взаимодействия между AI-агентами и их инструментами, но нужно преодолеть существующие ограничения. Будем надеяться, что сообщество найдет компромисс между функциональностью и простотой использования! 🙏

А что вы думаете о том, в каком направлении должен развиваться MCP? Поделитесь в комментариях! 👇

#AI #MCP #ModelContextProtocol #Development
Новые возможности для разработки агентов на базе API Anthropic 🤖

Продолжение предыдущего поста на тему новых функций в API, которые усиливают "агентные" возможности новых моделей Anthropic. Функции офигительные и заслуживают отдельного внимания.

Anthropic представила четыре новые функции для своего API, которые расширяют возможности разработчиков по созданию интеллектуальных агентов.
Эти инструменты дополняют недавно выпущенные модели Claude Opus 4 и Sonnet 4.

Что нового? 📋

1️⃣ Инструмент выполнения кода
Теперь Claude может запускать Python-код в изолированной среде для выполнения вычислений и создания визуализаций данных. Это превращает модель из помощника по написанию кода в полноценного аналитика данных.
Здесь весь фокус, как я понимаю, именно в том, что данная функциональность доступна "из коробки" через API интерфейс модели, и нам как разработчикам теперь можно обойтись без дополнительных песочниц типа https://e2b.dev/ для запуска кода в своем приложении - как мы видим, все полезные и часто используемые инструменты со временем "проникают" внутрь LLM'ок.

Основные применения:
• Финансовое моделирование
• Научные вычисления
• Бизнес-аналитика
• Обработка документов
• Статистический анализ

Организации получают 50 бесплатных часов использования ежедневно, после чего стоимость составляет $0,05 за час работы контейнера.

2️⃣ MCP-коннектор
Позволяет подключать Claude к любому удаленному серверу Model Context Protocol (MCP) из списка без необходимости писать клиентский код. API Anthropic автоматически управляет соединениями, обнаружением инструментов и обработкой ошибок.

Когда Claude получает запрос с настроенными MCP-серверами, он:
• Подключается к указанным серверам
• Получает доступные инструменты
• Анализирует, какой инструмент вызвать и какие аргументы передать
• Выполняет вызовы инструментов до достижения результата
• Управляет аутентификацией и обработкой ошибок
• Возвращает ответ с интегрированными данными

3️⃣ Files API
Упрощает хранение и доступ к документам при работе с Claude. Вместо загрузки файлов в каждом запросе, разработчики могут загрузить документы один раз и многократно ссылаться на них в разных беседах.

Files API интегрируется с инструментом выполнения кода, позволяя Claude напрямую обрабатывать загруженные файлы и создавать графики как часть ответа.

4️⃣ Расширенное кэширование запросов
Разработчики теперь могут выбирать между стандартным 5-минутным временем жизни (TTL) для кэширования запросов или расширенным 1-часовым TTL за дополнительную плату. Это 12-кратное улучшение может снизить расходы для длительных рабочих процессов агентов.

С расширенным кэшированием затраты могут быть снижены до 90%, а задержки — до 85% для длинных запросов.

Практическое применение 💡

Представьте AI-агента для управления проектами, который может:
• Подключаться к Asana через MCP-коннектор для работы с задачами
• Загружать отчеты через Files API
• Анализировать прогресс с помощью инструмента выполнения кода
• Поддерживать полный контекст на протяжении всего взаимодействия
и все это "из коробки" через API самой модели!

Все эти функции уже доступны в публичной бета-версии API Anthropic и дополняют существующие возможности, такие как веб-поиск и цитирование.

Видео-запись демонстрации A Day with Claude можно посмотреть здесь
Также вы можете отдельно прочитать транскрипт и саммари демонстрации.

#ai #anthropic #claude #api #development
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance открыл исходный код FlowGram: инструмента для оркестрации рабочих процессов, который используется в Coze!

Компания ByteDance, известная как создатель TikTok, недавно сделала важный шаг для сообщества разработчиков — открыла исходный код своего инструмента FlowGram 🔄

Что такое FlowGram?

FlowGram — это движок для построения процессов на основе узлов, который позволяет разработчикам быстро создавать рабочие процессы с:

• фиксированными макетами
• произвольными соединениями между компонентами

Ключевые особенности

Инструмент предоставляет набор лучших практик для взаимодействия, что делает его особенно полезным для:

1️⃣ Визуализации рабочих процессов
2️⃣ Создания четких входных и выходных параметров
3️⃣ Упрощения сложных последовательностей действий

Если вы интересуетесь инструментами оркестрации или работаете с Coze, стоит обратить внимание на этот проект.
Кажется, что теперь сделать свое no-code решение стало еще проще :)

• Исходный код доступен на GitHub: https://github.com/bytedance/flowgram.ai
• Подробная документация со схемами архитектуры от deepwiki здесь

#workflow #bytedance #opensource #development #ai
Интеграция v0 с Cursor: новые возможности для разработки

Теперь можно использовать v0 напрямую в редакторе Cursor. Это позволяет превратить базовый UI-код в более профессиональный frontend.

Настройка интеграции 🔧

1️⃣ Откройте настройки Cursor:
⌘+Shift+P на macOS
Ctrl+Shift+P на Windows/Linux

2️⃣ Перейдите во вкладку Models

3️⃣ Найдите поле OpenAI API Key и вставьте ваш v0 API ключ

4️⃣ Нажмите Override OpenAI Base URL

5️⃣ Введите эндпоинт v0: https://api.v0.dev/v1

6️⃣ Сохраните настройки и проверьте соединение

Использование `v0-1.0-md` в Agent Mode 🤖

• Откройте новый чат
• Режим: Agent
• Модель: любая с пометкой OpenAI (gpt-4o, gpt-4-turbo и т.д.)
• Cursor автоматически будет использовать v0-1.0-md

Для проверки можете спросить: "кто ты?" (см. скриншот)

Обратите внимание, что на данный момент есть небольшой баг, связанный с тем, что если вы включили использование модели v0-1.0-md и в чате обращаетесь к какой-то другой модели (например, claude-3.5-sonnet), то будете получать ошибку (см. скриншот), поэтому если модель v0-1.0-md не нужна на данном этапе, то ее лучше просто отключить в настройках.

Возможности модели v0-1.0-md 📋

• Поддержка текста и изображений
• Совместимость с OpenAI Chat Completions API
• Быстрые потоковые ответы
• Оптимизация для современных стеков (Next.js, Vercel)
• Автоматическое исправление ошибок кода

Ограничения использования ⚠️


• Максимум 200 сообщений в день
• Контекстное окно: 128,000 токенов
• Максимальный вывод: 32,000 токенов
• Требуется Premium или Team план с оплатой по использованию

API находится в бета-версии. Для получения API ключа нужно зайти на v0.dev в настройки.

Пример использования

• Создаем в существующем next-js проекте Cursor главную страницу при помощи v0-1.0-md модели
Сделай красивое и стильное приложение календарь на базе моего уже настроенного проекта на Next.js.
Cначала создай главную страницу.

результат см. на скриншоте

• Переключаемся на claude-3.5-sonnet (или 4.0), продолжаем дизайнить фронтенд приложения этой моделью, и все остальные страницы будут сохранять стиль, который был задан на первой странице моделью v0-1.0-md
Похожего эффекта красивого фронтенда можно добиться, используя magic-ui MCP и постоянно к нему обращаясь в процессе написания кода для UI.

Источники:
https://vercel.com/docs/v0/cursor
https://vercel.com/docs/v0/api

#cursor #v0 #frontend #development #ai
This media is not supported in your browser
VIEW IN TELEGRAM
Stagewise: инструмент для точной настройки UI с помощью ИИ 🎯

Stagewise — это браузерная панель инструментов, которая соединяет веб-интерфейс с ИИ-агентами в редакторах кода. Основная идея: выбираете элементы на странице, оставляете комментарий и позволяете ИИ внести нужные изменения.

Как это работает:
🔸 Устанавливаете расширение в VS Code/Cursor
🔸 Добавляете компонент в веб-приложение
🔸 Выбираете элементы прямо в браузере
🔸 Описываете желаемые изменения
🔸 ИИ получает контекст и вносит правки в код

Основные возможности:
🔸 Работает с React, Next.js, Vue
🔸 Передает DOM-элементы, скриншоты и метаданные
🔸 Поддерживает выбор нескольких элементов
🔸 Настраивается через конфигурационный файл

Поддерживаемые ИИ-агенты:
1️⃣ Cursor
2️⃣ Windsurf
3️⃣ GitHub Copilot 🚧 (в разработке)
4️⃣ Остальные пока не поддерживаются

Архитектура системы:
🔸 Браузерная панель инструментов
🔸 Расширение для VS Code
🔸 Типобезопасная RPC-система для связи
🔸 MCP-сервер для интеграции с ИИ

Инструмент решает проблему точной настройки UI, когда ИИ делает 80% работы правильно, но остальные 20% требуют детальных правок. Вместо описания изменений текстом, предоствляя скриншот, вы просто показываете конкретные элементы. Такая функциональность обычно встроена во все AI веб-кодеры (lovable, bolt.new, replit и т.д.), а stagewise дает возможность получить ее в IDE-кодерах на своем ПК или mac'e.

Проект с открытым исходным кодом, активно развивается.
Монорепозиторий включает компоненты для разных фреймворков и систему сборки на базе pnpm и Turborepo.
Deepwiki документация со схемами по нему здесь.

#ai #frontend #cursor #ui #development
GitHub представил Copilot Spaces — новый инструмент для управления знаниями команды 🚀

Команды разработчиков часто сталкиваются с проблемой разрозненной информации: код разбросан по репозиториям, документация спрятана в файлах, а лучшие практики существуют только в головах опытных коллег. Это замедляет работу и усложняет сотрудничество.

GitHub выпустил Copilot Spaces — инструмент, который организует всю информацию в единые "пространства", устраняя разрыв между кодом и контекстом 📚

Как это работает

Copilot Spaces позволяет создавать тематические пространства, включающие:
• Репозитории с кодом
• API документацию
• Рабочие процессы
• Командные соглашения

Каждое пространство может иметь собственные команды для настройки поведения Copilot под конкретные задачи.

Ключевые особенности


🔗 Глубокая интеграция с GitHub — добавляйте код и документы прямо из репозиториев без копирования
⚡️ Автоматическое обновление — при изменении репозитория пространство обновляется автоматически
🎯 Контекстные ответы — Copilot дает рекомендации на основе актуального состояния проекта

Как создать пространство

1️⃣ Перейдите на github.com/copilot/spaces 2️⃣ Нажмите "Create space" 3️⃣ Укажите название и владельца (личный аккаунт или организация) 4️⃣ Добавьте описание (опционально) 5️⃣ Нажмите "Create"

Типы контента в Spaces 📝

1️⃣ Инструкции — описание того, на чем должен фокусироваться Copilot 2️⃣ Ссылки — код из GitHub репозиториев и текстовый контент

Сценарии применения 💡

• Онбординг — быстрое введение новых разработчиков в курс дела
• Системные знания — документирование сложных процессов (аутентификация, CI/CD)
• Стандарты кода — руководства по стилю и чек-листы для ревью
• Разработка фич — организация контекста для конкретных задач

💡 Для получения пользы от Spaces не нужна формальная документация — можно использовать заметки, резюме встреч или простые списки.

Функция находится в публичном превью и доступна всем пользователям с лицензией Copilot 🔧

Источники:
Анонс
• Документация

#github #copilot #development #knowledge #teamwork
Cursor 1.0: обзор ключевых обновлений 🚀

Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.

BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.

Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
Разработчики могут создавать кнопки "Add to Cursor" для своих проектов

Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).

Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.

Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.

Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре

Обновленный интерфейс

Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.

Подробнее здесь

#cursor #ai #coding #development #tools
Как отслеживать расходы на Claude Code 💰

Если вы пользователь Claude Max или Pro и задаетесь вопросом, стоит ли Claude Code своих денег — просто посмотрите на статистику расходов.

Без детального анализа сложно оценить эффективность затрат. Некоторые задачи могут обходиться в $5 за каждый запуск, что серьезно бьет по бюджету 💸

Есть два полезных инструмента для отслеживания использования Claude Code:

1️⃣ ccusage
• CLI-инструмент для анализа использования токенов Claude Code
• Помогает легко выявить ресурсозатратные задачи
• Работает с локальными JSONL файлами

2️⃣ claude-code-costs
• Предоставляет визуальную разбивку стоимости сессий Claude
• Показывает расходы в динамике по времени
• Полезен для контроля бюджета

Основные возможности:
🔹 Расчет общих затрат по всем диалогам
🔹 Ежедневная разбивка расходов за последние 30 дней
🔹 Топ-20 самых дорогих диалогов
🔹 Фильтрация по проектам
🔹 Интерактивные HTML-отчеты с графиками

Установка и использование:
npx ccusage@latest
npx claude-code-costs


Оба инструмента анализируют данные из ~/.claude/projects/ и не требуют дополнительной настройки 🛠

Определенно стоит попробовать, если регулярно используете Claude Code для работы.

@llm_notes

#claude #cost #budget #development #vibecoding