Заметки LLM-энтузиаста
471 subscribers
131 photos
17 videos
1 file
162 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
Создание AI-тьютора испанского языка за час: разбор live-кодинга с Lovable 🤖

Команда Lovable вчера провела интересный онлайн-эксперимент — создание полноценного AI-тьютора для изучения испанского языка в прямом эфире. Разбираем, что получилось и какие технологии использовались.

Что такое Lovable? 🛠

Про Lovable уже писал много раз (пост 1, пост 2, пост 3, пост 4), но на всякий случай напомню.
Lovable — платформа для создания full-stack приложений с помощью естественного языка. Вместо написания кода разработчики общаются с AI, описывая нужную функциональность.

Основные возможности:
• Создание React-приложений через текстовые команды
• Интеграция с Supabase для backend-функций
• Автоматическое развертывание и управление базой данных
• Поддержка аутентификации и внешних API

Техническая архитектура проекта ⚙️

Стек технологий: 1️⃣ Frontend: React (единственный поддерживаемый фреймворк) 2️⃣ Backend: Supabase (база данных + Edge Functions) 3️⃣ AI: OpenAI API для обработки текста и голоса 4️⃣ Аутентификация: встроенная система Supabase

Структура приложения:
• Глобальная боковая панель навигации
• Страница дашборда (по умолчанию)
• Чат-интерфейс для общения с AI
• Панель настроек справа

Реализованная функциональность 📱

Основные возможности:
• Текстовый чат с AI-тьютором на испанском
• Голосовой ввод с преобразованием речи в текст
• Воспроизведение ответов AI в аудиоформате
• Перевод сообщений AI на английский
• Настройка скорости воспроизведения аудио

Система кредитов:
• Ограничение бесплатного использования
• Списание кредитов за AI-операции
• Отображение баланса в интерфейсе
• Модальное окно при исчерпании лимита

Практические советы по работе с Lovable 💡

Эффективные промпты:
• Разбивайте сложные задачи на мелкие шаги
• Будьте максимально конкретны в описаниях
• Указывайте технические детали (например, "используй OpenAI")
• Добавляйте требования к UI/UX сразу

Работа с ошибками:
• Не нажимайте "Try to fix" больше 2-3 раз
• Используйте функцию отката к предыдущим версиям
• Переформулируйте запрос, если AI "застрял"
• Применяйте Chat Mode для планирования сложных изменений

Интеграция с внешними сервисами 🔗

Supabase:
• Автоматическое создание таблиц для профилей пользователей
• Безопасное хранение API-ключей в секретах
• Edge Functions для серверной логики
• Миграции базы данных "на лету"

OpenAI API:
• Отдельные Edge Functions для каждой AI-задачи
• Обработка текста, речи и переводов
• Настраиваемые системные промпты
• Автоматическое развертывание при изменениях

Ограничения и особенности ⚠️

Текущие ограничения:
• Только React в качестве frontend-фреймворка
• Производительность снижается в пиковые часы
• Необходимость детального планирования промптов
• Ограниченная поддержка кастомных доменов

Рекомендации:
• Используйте Custom Knowledge для хранения требований проекта
• Применяйте гибридный подход: Lovable + ручное редактирование кода
• Интегрируйтесь с GitHub для версионирования
• Тестируйте функциональность после каждого изменения

Планы развития проекта 🚀

Следующие этапы: 1️⃣ Улучшение дизайна и UX 2️⃣ Добавление геймификации (рейтинг достижений) 3️⃣ Админ-панель для управления пользователями 4️⃣ Интеграция Stripe для монетизации 5️⃣ Запуск на Product Hunt

Эксперимент показал, что современные AI-инструменты позволяют создавать функциональные приложения без глубоких знаний программирования. Однако успех зависит от умения правильно формулировать задачи и понимания архитектуры веб-приложений.

Очень рекомендую посмотреть этот эксперимент в записи (1 час), или прочитать транскрипт. Я подготовил 2 версии транскрипта: • детальнуюкраткую

P.S. На этой неделе курса по AI-программированию и ИИ-агентам у нас была очень близкая тема - мы делали синхронный переводчик для зума, и также в одном из вариантов использовали lovable, в следующей заметке напишу чуть подробнее что и как мы делали и дам ссылки на веб-приложения, которые у нас получились.

#ai_development #nocode #lovable #supabase #react
❤‍🔥33👍3
На прошлой неделе на 6-ом занятии по AI-программированию мы делали синхронный переводчик для Zoom-звонков. Решение получилось универсальным — работает с любой системой ВКС через виртуальные аудио-устройства.

Протестировали сразу 3 варианта решения задачи:
Cursor для разработки и railway для деплоя
Replit
Lovable

Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.

Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.

Результаты тестирования

• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.

Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут

Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).

Ну а теперь про само приложение!

Как это работает 🔧

🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)

Настройка для разных сценариев ⚙️


Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)

Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход

Технические характеристики 📊

• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)

Требования 💻

• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с

Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза

#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom
👍65🔥31
Уязвимости ИИ-агентов: часть III и IV

В продолжении поста хотелось бы взять на заметку описанные ниже угрозы безопасности для агентных и мульти-агентных систем.
Я думаю, что сейчас в связи со снижением порога входа в разработку методом Vibe Coding, мало кто обращает внимание на такие угрозы, и через некоторое время в погоне за скоростью разработки и повсеместным внедрением GenAI мы можем столкнуться с ростом атак и компроментацией более сложных систем, которые начнут включать в себя программные модули, использующие GenAI как в своей непосредственной работе, так и на этапе своей разработки.

Часть III. Как скрытые инструкции крадут данные 🔓

Исследователи Trend Micro обнаружили серьезные проблемы безопасности в мультимодальных ИИ-агентах. Злоумышленники могут внедрять скрытые команды в изображения и документы, заставляя ИИ передавать конфиденциальные данные без ведома пользователя.

Что такое непрямая инъекция промптов? 🎯

Это скрытая атака, при которой вредоносные инструкции маскируются в обычном контенте:

• Веб-страницы — скрытые команды в HTML-коде
• Изображения — невидимый текст в "пустых" картинках
• Документы — скрытые инструкции в Word-файлах

Какие данные под угрозой? 📊

1️⃣ Персональные данные (имена, email, телефоны) 2️⃣ Финансовая информация (банковские реквизиты) 3️⃣ Медицинские записи 4️⃣ Коммерческие секреты 5️⃣ API-ключи и пароли 6️⃣ Загруженные документы

Реальный пример атаки 💀

Исследователи создали PoC-агента "Pandora", который продемонстрировал:

• Обработку вредоносного Word-документа "CV – Actor.docx"
• Извлечение и выполнение скрытого Python-кода
• Передачу данных на сервер злоумышленников
• Завершение с сообщением "Task complete"

Как защититься? 🛡

• Ограничить сетевые подключения к непроверенным URL
• Использовать фильтры для анализа загружаемого контента
• Применять OCR для обнаружения скрытого текста
• Внедрить системы мониторинга подозрительного поведения
• Очищать пользовательский ввод от потенциально опасных команд

Проблема особенно актуальна для ChatGPT Data Analyst и других ИИ-сервисов с возможностью выполнения кода.
Даже при использовании продвинутых моделей вроде GPT-4o уязвимости остаются, если отсутствуют защитные механизмы на уровне сервиса. То есть, задачу обеспечения безопасности должны решать именно разработчики! (не администраторы инфраструктры, и даже не DevSecOps!). Если мы говорим про Vibe Coding, то в PRD (а лучше прямо на уровне проектных правил для AI-кодинга) нужно закладывать соответствующую функциональность.

Часть IV: Уязвимости ИИ-агентов: угрозы доступа к базам данных 🔐

Исследователи Trend Micro выявили критические уязвимости в ИИ-агентах, работающих с базами данных. Злоумышленники могут эксплуатировать эти слабости для кражи данных и мошеннических атак.

Основные угрозы 🎯

1. Уязвимости генерации SQL-запросов
• Атакующие могут обойти защитные механизмы
• Получить доступ к конфиденциальным данным сотрудников
• Использовать методы джейлбрейкинга для обхода ограничений

2. "Сохраняющаяся" инъекция промптов
• Вредоносные промпты внедряются в пользовательские данные
• Активируются при последующих запросах к ИИ
• Могут привести к рассылке фишинговых писем

3. "Отравление" векторных хранилищ
• Атака на системы семантического поиска
• Злоумышленники внедряют вредоносный контент
• Срабатывает при похожих запросах других пользователей

Процесс атаки 🔄

1️⃣ Разведка - изучение структуры базы данных 2️⃣ Внедрение - размещение вредоносного контента 3️⃣ Активация - срабатывание при запросах пользователей 4️⃣ Эксплуатация - кража данных или распространение фишинга

Последствия 💥
• Кража персональных данных
• Фишинговые атаки внутри организации
• Финансовые потери • Репутационный ущерб
• Нарушение регулятивных требований

Защитные меры 🛡
• Надежная санитизация входных данных
• Продвинутое определение намерений (можно использовать классификатор)
• Строгий контроль доступа
• Постоянное обновление мер безопасности

#security #agents #prompt_injection #data_exfiltration #cybersecurity
❤‍🔥4👍21
Cursor 1.0: обзор ключевых обновлений 🚀

Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.

BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.

Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
Разработчики могут создавать кнопки "Add to Cursor" для своих проектов

Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).

Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.

Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.

Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре

Обновленный интерфейс

Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.

Подробнее здесь

#cursor #ai #coding #development #tools
3👍1
На днях на канале Anthropic посмотрел запись беседы с Борисом Черным - создателем Claude Code, инструмента, который я все чаще начинаю использовать совместно, а иногда и вместо Cursor/Windsurf/Roo Code/Cline 📝
Эта беседа - отличное дополнение к документу по лучшим практикам использования Claude Code (вот здесь подготовил перевод на русский язык)

Ниже мои заметки по данной беседе.

Что такое Claude Code 🤖

Claude Code - это агентный инструмент для программирования, который работает прямо в терминале. Не нужно осваивать новые IDE или сайты - работает там, где вы уже работаете.

Почему терминал?
• Универсальность - работает с любым редактором (VS Code, Vim, Zed)
• Простота - позволяет быстро итерировать
• Гибкость - интегрируется в любой workflow

Установка и использование ⚙️

Установка через npm:
npm install -g @anthropic-ai/claude-code


Запуск: просто введите claude в терминале

Работает везде: iTerm2, SSH сессии, TMUX, терминалы IDE

Ключевые особенности 🔧

Агентность: Claude не просто дополняет код, а выполняет полные задачи - анализирует кодовую базу, читает файлы, вносит изменения

Интеграция с GitHub: можно @упоминать Claude в issues и PR для автоматического исправления багов и написания тестов

Claude.md файлы - система "памяти" для инструкций:
1️⃣ Claude.md - общие инструкции для проекта 2️⃣ Claude.local.md - персональные настройки
3️⃣ Глобальный Claude.md в домашней папке 4️⃣ Локальные Claude.md в подпапках проекта
Очень похоже на cursor project rules

Стоимость и доступность 💰

• Тестирование: $5 через API ключ
• Серьезное использование: ~$50-200/месяц
• Claude Max подписка: $100-200/месяц с практически безлимитным использованием - при регулярном использовании claude данный тариф получается выгодным.

Эволюция с Claude 4 🚀


Новые модели значительно улучшили:
• Следование инструкциям с первого раза
• Способность к "one-shot" решениям сложных задач
• Качество автоматически генерируемых тестов

Практические советы 💡

Для сложных задач:
• Просите Claude сначала составить план
• Используйте extended thinking для лучших результатов
• Комбинируйте чтение контекста → размышления → кодирование

Рабочий процесс:
• Простые задачи - делегируйте полностью в GitHub Actions
• Сложные задачи - работайте в паре с Claude в IDE терминале

Будущее развитие 🔮

Планируется расширение интеграций с различными инструментами и упрощение доступа для быстрых задач без открытия терминала.

P.S. Беседа идет всего 20 минут, полный транскрипт на русском языке здесь, краткий - тут.

@llm_notes

#claude #aicoding #developertools #anthropic #programming
❤‍🔥3👍1
7 стратегий промптинга из "утечки" системного промпта Claude 4

Недавно в сети появился предполагаемый системный промпт Claude 4 объемом 10,000 слов. Независимо от его подлинности, документ содержит ценные принципы для создания эффективных промптов 📝

Я решил провести анализ этого системного промпта для Claude 4, используя Claude 4 :)
Вот здесь результат анализа
А тут универсальный промпт, который я использовал (формировал и улучшал его по методике, которую описывал чуть раньше).

Затем мне на глаза попалась интересная статья на medium про 7 стратегий промптинга, которые используются в системном промпте Claude 4
Что порадовало - выводы практически совпадают. Только мой промпт, выявил 6, а не 7 приемов. Ну и мне были интересны также рекомендации по улучшению имеющихся промптов от самой модели, которая должна им следовать :)

Ключевая идея: промпт — это не магическое заклинание, а конфигурационный файл операционной системы. 90% внимания уделяется предотвращению ошибок, и только 10% — желаемому результату.

Основные стратегии:

1️⃣ Якорение идентичности
Начинайте промпт с фиксированных фактов: идентичность модели, дата, основные возможности. Это снижает нагрузку на рабочую память и стабилизирует рассуждения.

2️⃣ Явные условные блоки
Используйте четкие конструкции "если X, то Y" для граничных случаев. Неопределенность приводит к непоследовательности — будьте конкретны.

3️⃣ Трехуровневая маршрутизация неопределенности
• Вечная информация → прямой ответ
• Медленно меняющаяся → ответ + предложение проверки
• Актуальная → немедленный поиск

4️⃣ Грамматика инструментов с контрпримерами
Показывайте как правильные, так и неправильные примеры использования API. Негативные примеры учат не хуже позитивных.

5️⃣ Бинарные правила стиля
Вместо размытых указаний ("будь краток") используйте четкие запреты ("никогда не начинай с лести", "никаких эмодзи без запроса").

6️⃣ Позиционное усиление
В длинных промптах повторяйте критические ограничения каждые 500 токенов — внимание модели ослабевает в длинном контексте.

7️⃣ Рефлексия после использования инструментов
Добавляйте паузу для "размышлений" после вызова функций. Это улучшает точность в многошаговых цепочках рассуждений 🤔 (то, что мой промпт-анализатор не обнаружил)

Практический вывод

Думайте о промптах как об операционных системах. Будьте точны в намерениях и не бойтесь "оборонительного программирования" — детально прописывайте, чего модель делать НЕ должна.

Декларативный подход "если X, всегда Y" часто эффективнее императивного "сначала X, потом Y" ⚡️

@llm_notes

#claude4 #ai_engineering #llm_optimization #prompt
6❤‍🔥3👍3
🤖 Google выпустил open-source агента на базе Gemini 2.5

Компания Google представила полнофункциональный агент-исследователь с открытым исходным кодом, построенный на Gemini 2.5 и LangGraph.

Что умеет агент:
• Выполняет многоэтапный поиск в интернете
• Анализирует найденную информацию
• Синтезирует ответы с указанием источников
• Работает как человек-исследователь

Техническая архитектура:
1️⃣ Frontend на React
2️⃣ Backend на LangGraph
3️⃣ Интеграция с Google Search API
4️⃣ Рефлексивное мышление для улучшения поисковых запросов
5️⃣ Автоматическая генерация цитат

Проект интересен тем, что Google предоставил полный код как фронтенда, так и бэкенда. Это позволяет изучить весь пайплайн работы AI-агента от начала до конца.

🔗 Репозиторий: https://github.com/google-gemini/gemini-fullstack-langgraph-quickstart
DeepWiki по проекту здесь

@llm_notes

#ai_agents #langgraph #google_gemini #open_source #research_ai
6🔥32🤩1
Как устроен Cursor: технические детали от создателей 🔧

Вчера прочитал очень интересное интервью с основателем Cursor. Интервью содержит множество деталей внутреннего устройства самого популярного AI-кодера, и с моей точки зрения будет интересно практически каждому.

Ниже мой краткий конспект.

Полная оригинальная версия здесь.
Перевод на русский язык: часть 1 | часть 2

Cursor — AI-редактор кода, который за год вырос в 100 раз по нагрузке и обрабатывает более 1 млн запросов в секунду. Сооснователь Суалех Асиф рассказал об используемых технических решениях.

Цифры проекта 📊

• 50 инженеров в команде
• 1M+ транзакций в секунду в пике
• 100x рост пользователей за 12 месяцев
• $500M+ годовая выручка
• Миллиард строк кода пишется ежедневно

Технический стек 💻

Клиент:
• TypeScript — основная логика
• Electron — форк VS Code
• Rust — производительные компоненты

Бэкенд:
• TypeScript + Rust
• Монолитная архитектура
• Node API для связи с Rust

Базы данных:
• Turbopuffer — хранение зашифрованных файлов
• Pinecone — векторная БД для документации

Инфраструктура:
• AWS + Azure для вычислений
• Десятки тысяч NVIDIA H100 GPU
• Terraform для управления инфраструктурой

Как работает автодополнение ⚡️

1️⃣ Клиент собирает контекст кода локально 2️⃣ Код шифруется и отправляется на сервер 3️⃣ Сервер расшифровывает и генерирует предложение 4️⃣ Предложение возвращается в IDE 5️⃣ Пользователь принимает через Tab

Ключевая задача — минимизировать задержки при максимальном качестве предложений.

Чат без хранения кода 🔒

Cursor не хранит исходный код на серверах, используя умную систему индексации:

Создание индексов:
• Код разбивается на чанки
• Создаются эмбеддинги без сохранения имен файлов
• Используются обфусцированные названия

Поиск по коду:
• Векторный поиск по эмбеддингам
• Запрос нужных файлов с клиента
• Анализ и ответ на основе контекста

Синхронизация через Merkle Trees:
• Каждые 3 минуты сравнение деревьев клиент-сервер
• Переиндексация только измененных файлов
• Эффективное использование ресурсов

Anyrun: оркестратор агентов 🤖

Написанный на Rust сервис для запуска AI-агентов в облаке:

• AWS EC2 — для корпоративных клиентов
• AWS Firecracker — микро-ВМ с запуском за 125мс
• Изоляция процессов — безопасность на уровне ВМ
• Снапшоты — сохранение состояния для быстрого восстановления

Инженерные вызовы 🚧

Проблемы масштабирования:
• Рост использования в 100 раз за год
• Миллиарды эмбеддингов ежедневно
• Один из крупнейших клиентов OpenAI

Проблема холодного старта:
• При падении всех нодов перезапуск критичен
• Нужно контролировать трафик при восстановлении
• Приоритизация пользователей во время инцидентов

Шардинг и его сложности:
• Ручное разделение индексов в Pinecone
• Недоиспользование ресурсов (30% простоя)
• Сложные миграции между шардами

Миграции баз данных 🔄

От Yugabyte к PostgreSQL:
• Yugabyte не справлялся с нагрузкой
• Долгие транзакции в распределенной системе
• PostgreSQL на AWS RDS решил проблемы

От PostgreSQL к Turbopuffer:
• 22TB данных в RDS достигли лимитов
• Особенности VACUUM в PostgreSQL
• Экстренная миграция за 10 часов во время инцидента

Культура разработки 👥

Релизы:
• Каждые 2-4 недели (десктопное приложение)
• Консервативные feature flags
• Тщательное тестирование перед выпуском

Команда:
• 15 инженеров в инфраструктурной команде
• Культура экспериментов
• Использование собственного продукта

Будущие вызовы:
• Масштабирование reinforcement learning
• Тысячи GPU для обучения
• Сложная архитектура с множеством компонентов

Выводы 💡

• Небольшие команды могут превосходить гигантов при правильном подходе
• Облачные провайдеры критичны для быстрого масштабирования
• Надо быть очень осторожными с использованием стартап-продуктов в инфраструктуре - лучше доверять гиперскейлерам
• Создание продукта для собственной аудитории упрощает разработку

Cursor своим примером показывает, как 50 инженеров могут конкурировать с Microsoft и GitHub, фокусируясь на потребностях разработчиков.

@llm_notes

#cursor #vibecoding #tech_architecture #startup_scaling
👍5❤‍🔥2
OpenAI снизила цены на o3 на 80% и представила o3-pro 🚀

OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.

Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион

Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.

o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.

Ключевые особенности o3-pro: 🎯
Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии

Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе

Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁

Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊

@llm_notes

#openai #o3pro #pricing #llm #chatgpt
❤‍🔥3👍32
Windsurf Wave 10: новый режим планирования и встроенный браузер 🌊

Windsurf выпустил обновление Wave 10 с двумя ключевыми функциями: встроенным браузером и режимом планирования. Рассмотрим кратко, что это значит для разработчиков.

Windsurf Browser 🌐

Встроенный браузер на базе Chromium интегрирован прямо в IDE. Основные возможности:

• ИИ-ассистент Cascade видит содержимое открытых вкладок
• Автоматическое использование контента веб-страниц без копирования (по сути аналог Stagewise для Cursor)
• Отладка фронтенда и просмотр логов в одном окне (аналог browser-tools-mcp, только встроенный в AI-кодер)
• Работа с документацией API без переключения между приложениями

Planning Mode 📋
Новый подход к долгосрочному планированию проектов:

1️⃣ Создает markdown-файл с целями и задачами 2️⃣ Синхронизируется между пользователем и ИИ 3️⃣ Обновляется автоматически при изменении контекста 4️⃣ Использует более мощную модель для долгосрочного планирования 5️⃣ Сохраняется локально и доступен для редактирования

Технические детали ⚙️

• Planning Mode доступен на всех платных тарифах
• Браузер находится в бета-версии
• Модель O3 стала дешевле в использовании
• Планируется добавление автоматизации веб-задач (по сути встроенный browser-use)

Обновление направлено на решение проблемы разрыва между краткосрочными действиями и долгосрочными целями в разработке. Браузер закрывает пробел в понимании ИИ контекста веб-активности разработчика.

2025 год превращается в настоящее поле битвы AI-браузеров. После Opera, Dia, Perplexity и Genspark теперь и Windsurf решил не отставать от трендов 📈

Ждем ответных шагов от команды Cursor!
Встроенный планировщик без необходимости настройки дополнительных кастомных агентных ролей, Memory Bank или Task Master теперь есть практически у всех популярных AI-кодеров: Windsurf, Claude Code.

@llm_notes

#windsurf #vibecoding #browser #planning #tools
👍4🔥42🤩1
🔍 Два новых инструмента для веб-поиска и исследований: Firesearch и GPT Researcher

Разработчики получили два интересных решения для автоматизации веб-исследований, которые решают разные задачи при работе с данными.

Firesearch: поиск и скрапинг в одном запросе

Firecrawl запустили эндпоинт /search, который объединяет поиск в интернете и извлечение контента в одном API-вызове. Теперь не нужно делать отдельные запросы для поиска и последующего скрапинга страниц. Что очень круто. Например, yandex search api в режиме нейро-поиска пока работает только по определенному спектру url (см. здесь).

Основные возможности:
• Поиск и извлечение контента одним запросом
• Настройка по языку, стране и временному диапазону
• Вывод в разных форматах: markdown, HTML, ссылки, скриншоты
• Интеграция с Zapier, n8n, MCP для Claude и OpenAI

Как устроен:
Firesearch использует Langgraph и Firecrawl и построен на основе одного основного компонента - LangGraphSearchEngine, который управляет всем процессом поиска через граф состояний LangGraph.
Система содержит 6 основных узлов обработки в графе состояний:
understand - анализ запроса пользователяplan - планирование стратегии поиска
search - выполнение поисковых запросов
scrape - извлечение дополнительного контента
analyze - анализ найденных источников
synthesize - синтез финального ответа
Подробнее в репозитории (где, кстати, есть возможность сразу сделать деплой на vercel со своими ключами Firecrawl и Openai) и на deepwiki (где можно не только подробно ознакомиться с архитектурой решения, но и позадавать интересующие вопросы, только не включайте опцию deep research - она почему-то работает бесконечно медленно)


GPT Researcher: opensource альтернатива дорогим deep research решениям

Пока крупные компании предлагают свои "Deep Research" функции за $200/месяц (OpenAI) или с ограничениями (Perplexity - 5 запросов в день), GPT Researcher предоставляет открытое решение.

Ключевые особенности:
1️⃣ Мультиагентная архитектура с планировщиком и исполнителем
2️⃣ Рекурсивные исследования с древовидной структурой анализа
3️⃣ Обработка 20+ источников за 3 минуты ($0.1 за отчет)
4️⃣ Глубокий анализ за 5 минут ($0.4 за расширенный отчет)
5️⃣ Отчеты свыше 2000 слов с цитированием источников

Как устроен
GPT Researcher использует Tavily для поиска и LangGraph для построения мультиагентной архитектуры.
Система состоит из 8 агентов:
Chief Editor - главный агент-координатор, который управляет командой через LangGraph
Researcher (gpt-researcher) - специализированный автономный агент для исследований
Editor - планирует структуру исследования
Reviewer - проверяет корректность результатов
Revisor - пересматривает результаты на основе обратной связи
Writer - составляет финальный отчет
Publisher - публикует отчет в различных форматах
Human - человек в цикле для обратной связи
Подобнее в репозитории и на deepwiki
Также у GPT Researcher есть отдельный репозиторий для MCP-сервера

Практическое применение 📊

Firesearch подходит для быстрого получения актуального контента с веб-страниц, а GPT Researcher - для комплексного анализа и создания детальных отчетов по исследуемым темам.

Оба инструмента можно интегрировать в существующие рабочие процессы и настроить под конкретные задачи.

@llm_notes

#webscraping #deepresearch #opensource #firecrawl #langgraph
5👍2
🤖 Вышел интересный CEO playbook от Mckinsey по решению парадокса генеративного ИИ при помощи ИИ-агентов

Источник здесь

Суть парадокса:
почти 80% компаний используют генеративный ИИ, но столько же сообщают об отсутствии значимого влияния на прибыль. Это называют "парадоксом генеративного ИИ" 📊

🔍 В чем проблема

Дисбаланс между двумя типами решений:
• Горизонтальные (корпоративные копилоты, чат-боты) - быстро масштабируются, но дают размытые результаты
• Вертикальные (функциональные решения) - более трансформационные, но 90% застревают на стадии пилота

⚡️ Что такое ИИ-агенты

ИИ-агенты выходят за рамки реактивной генерации контента, становясь автономными исполнителями с возможностями:
• Планирование и память
• Интеграция с системами
• Проактивное выполнение задач
• Адаптация в реальном времени

💼 Реальные кейсы применения

1. Банк: модернизация legacy-систем
• Проблема: 400 компонентов ПО, бюджет $600+ млн
• Решение: гибридные "цифровые фабрики" с ИИ-агентами
• Результат: сокращение времени и усилий на 50%+

2. Исследовательская компания: качество данных
• Проблема: 500+ сотрудников на обработку данных, 80% ошибок
• Решение: мультиагентная система для анализа аномалий
• Результат: рост продуктивности на 60%+, экономия $3+ млн в год

3. Банк: кредитные меморандумы
• Проблема: недели на создание кредитных отчетов
• Решение: агенты для извлечения данных и составления отчетов
• Результат: рост продуктивности на 20-60%

🏗 Архитектура будущего: Agentic AI Mesh

Новая парадигма для управления экосистемой агентов:

Ключевые принципы:
1️⃣ Композитность (Composability) - любой агент легко интегрируется в mesh-сеть
2️⃣ Распределенный интеллект - задачи декомпозируются и решаются сетями взаимодействующих агентов
3️⃣ Развязка по слоям (Layered decoupling) - функции логики, памяти и оркестрации независимы друг от друга
4️⃣ Вендор-нейтральность - избежание привязки к проприетарным решениям (предпочтение отдается открытым протоколам, например, A2A и MCP)
5️⃣ Управляемая автономия - контроль поведения агентов

🎯 Три уровня трансформации процессов

Уровень 1: Помощь в задачах (5-10% улучшения)
• ИИ помогает в существующих процессах

Уровень 2: Автоматизация шагов (20-40% экономии времени)
• Агенты выполняют отдельные операции

Уровень 3: Переосмысление процесса (до 80% автономного решения)
• Полная перестройка рабочих процессов вокруг агентов

⚠️ Основные вызовы

Технические:
• Управление новыми рисками
• Интеграция кастомных и готовых решений
• Адаптация к быстро развивающимся технологиям

Организационные:
• Взаимодействие человек-агент
• Контроль автономии
• Предотвращение неконтролируемого распространения

🚀 Что нужно для успеха

Четыре ключевых направления:

1️⃣ Люди: обучение сотрудников, новые роли
2️⃣ Управление: контроль автономии, предотвращение хаоса
3️⃣ Технологии: архитектура для взаимодействия и масштабирования
4️⃣ Данные: ускорение продуктизации данных

📈 Новый подход к ИИ-трансформации

Переход от:
• Разрозненных инициатив → к стратегическим программам
• Отдельных кейсов → к бизнес-процессам
• Изолированных ИИ-команд → к кросс-функциональным группам
• Экспериментов → к промышленному масштабированию

🎯 Роль CEO

Время экспериментов заканчивается. Руководители должны:
• Завершить фазу экспериментов
• Перестроить модель управления ИИ
• Запустить первые трансформационные проекты

ИИ-агенты - это не просто технологический шаг, а основа операционной модели следующего поколения 🔮

@llm_notes

#agents #genai #digital_transformation #business_automation #mckinsey
33👍1👌1
Сравнение подходов: как строить AI-агентов в продакшене 🤖

Думаю, что будет интересно всем. Две крупные AI-компании одновременно опубликовали диаметрально противоположные взгляды на архитектуру агентов.
Cognition утверждает "не стройте мульти-агентов", а Anthropic напротив детально описывает свою мульти-агентную систему для Claude Research.

Позиция Cognition: простота как залог надежности 🎯

Основные принципы:
• Общий контекст для всех операций
• Действия несут неявные решения
• Параллельные агенты создают конфликты

Почему мульти-агенты НЕ работают:
1️⃣ Потеря контекста между агентами
2️⃣ Противоречивые решения подагентов
3️⃣ Сложность отладки и координации
4️⃣ Накопление ошибок в цепочке

Cognition предлагает линейную архитектуру с единым потоком выполнения и компрессией истории для длинных задач.

Подход Anthropic: сложность под контролем ⚡️

Архитектура Advanced Research:
• Главный агент-координатор
• Специализированные подагенты для поиска
• Параллельное выполнение задач
• Система цитирования

Ключевые решения:
1️⃣ Детальное делегирование задач
2️⃣ Масштабирование усилий под сложность запроса
3️⃣ Параллельные вызовы инструментов
4️⃣ Расширенный режим мышления

Результаты: мульти-агентная система превосходит одиночного агента на 90% в исследовательских задачах.

Сравнение подходов 📊

Управление контекстом:
• Cognition: единый поток, компрессия истории
• Anthropic: распределенный контекст, память системы

Обработка ошибок:
• Cognition: минимизация точек отказа
• Anthropic: graceful degradation, retry логика

Производительность:
• Cognition: предсказуемость и стабильность
• Anthropic: скорость через распараллеливание задач

Сложность разработки:
• Cognition: простая отладка, линейный флоу
• Anthropic: сложная координация, но больше возможностей

Когда какой подход использовать 🎪

Линейные агенты (Cognition):
• Задачи с высокими требованиями к надежности
• Ограниченные ресурсы на разработку
• Последовательные рабочие процессы

Мульти-агенты (Anthropic):
• Исследовательские задачи
• Высокая ценность результата
• Возможность распараллеливания задач

Выводы 💡

Оба подхода имеют право на существование.

Выбор зависит от:
• Типа задач
• Требований к надежности
• Бюджета на разработку
• Опыта команды

Главное - понимать все trade-offs и не пытаться решить все задачи одним универсальным подходом.

@llm_notes

#agents #multi_agent_systems #production_ai #claude_research #battle #anthropic #cognition
6🔥42
🤖 MiniMax представила модель M1 с рекордным контекстным окном

Китайский стартап MiniMax выпустил открытую модель M1 с контекстным окном в 1 миллион токенов. Модель показывает результаты, сопоставимые с ведущими открытыми моделями (а также с топовыми моделями Openai - o3 и Anthropic - Claude 4 Opus), при значительно меньших затратах на обучение.

Основные характеристики:

• Контекстное окно: 1M входных токенов
• "Бюджет размышлений": 80k токенов для вывода
• Особенно эффективна в разработке ПО и использовании инструментов (tool calling)
• Превосходит конкурентов в задачах с длинным контекстом

Технические детали:

1️⃣ Использован новый алгоритм обучения CISPO (Clipped IS-weight Policy Optimization)
2️⃣ Скорость обучения в 2 раза выше существующих методов
3️⃣ Полное обучение заняло 3 недели
4️⃣ Общая стоимость обучения: $535,000

Подробности в отчете

💡 Значение для индустрии:


Китайские лаборатории продолжают развивать открытые модели, расширяя границы возможностей работы с контекстом. Эффективность обучения M1 показывает, что новые подходы в архитектуре могут существенно снизить затраты на создание мощных ИИ-систем.
С таким большим контекстным окном было бы неплохо данную модель взять за основу в следующих версиях YandexGPT :)

💡 Как самим потестировать:

• Модель доступна на huggingface
• Есть также подробное описание на Github
• Чат-бот на базе этой модели здесь
• MCP-сервер модели тут

@llm_notes

#minimax #openai #longcontext #training #chinese
3👍3🔥31
Как отслеживать расходы на Claude Code 💰

Если вы пользователь Claude Max или Pro и задаетесь вопросом, стоит ли Claude Code своих денег — просто посмотрите на статистику расходов.

Без детального анализа сложно оценить эффективность затрат. Некоторые задачи могут обходиться в $5 за каждый запуск, что серьезно бьет по бюджету 💸

Есть два полезных инструмента для отслеживания использования Claude Code:

1️⃣ ccusage
• CLI-инструмент для анализа использования токенов Claude Code
• Помогает легко выявить ресурсозатратные задачи
• Работает с локальными JSONL файлами

2️⃣ claude-code-costs
• Предоставляет визуальную разбивку стоимости сессий Claude
• Показывает расходы в динамике по времени
• Полезен для контроля бюджета

Основные возможности:
🔹 Расчет общих затрат по всем диалогам
🔹 Ежедневная разбивка расходов за последние 30 дней
🔹 Топ-20 самых дорогих диалогов
🔹 Фильтрация по проектам
🔹 Интерактивные HTML-отчеты с графиками

Установка и использование:
npx ccusage@latest
npx claude-code-costs


Оба инструмента анализируют данные из ~/.claude/projects/ и не требуют дополнительной настройки 🛠

Определенно стоит попробовать, если регулярно используете Claude Code для работы.

@llm_notes

#claude #cost #budget #development #vibecoding
3🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Zen MCP Server: интеграция Claude Code с другими AI-моделями 🤖

Несмотря на то, что Claude Code необычайно быстр и удобен, думаю, что многие из вас уже сталкивались с ситуацией когда он иногда "слегка забывает" предыдущие шаги при работе со сложными задачами из-за ограничений контекстного окна (даже при использовании опции /compact). В этот момент хочется следовать проверенному временем процессу.
Я когда работаю в Cursor/Windsurf/Roo для анализа существующей кодовой базы обычно использую Gemini 2.5 Pro, а для планирования использую o3 или o3-mini/o4-mini.
При использовании Claude Code у нас есть возможность использовать для планирования и сложного траблшутинга Claude 4 Opus, во всех других случаях - Claude 4 Sonnet.
Claude 4 Opus дорогой и даже при использовании Claude Max 5x плана (за $100 в месяц) можно близко подойти к лимитам его использования, и в голову начинает приходить мысль "а не перейти ли на Max 20x plan за $200 долларов в месяц", которых мне пока что жалко :)

Zen MCP Server позволяет решить эти проблемы, позволяя Claude Code взаимодействовать с другими моделями, у которых и контекстное окно значительно больше, и reasoning-способности на очень хорошем уровне.

Что это дает 📈

• Доступ к Gemini 2.5 Pro с контекстом до 1M токенов
• Работа с GPT O3 и другими моделями
• Возможность передать всю кодовую базу проекта для анализа

Основные инструменты 🛠

1️⃣ chat — мозговой штурм и обзор кода
2️⃣ thinkdeep — глубокий анализ сложных проблем
3️⃣ planner — пошаговое планирование
4️⃣ consensus — получение мнений от нескольких моделей
5️⃣ codereview — профессиональный код-ревью
6️⃣ precommit — проверка перед коммитом
7️⃣ debug — диагностика и исправление багов
8️⃣ analyze — анализ больших файлов
9️⃣ refactor — рефакторинг кода
🔟 tracer — отслеживание зависимостей
1️⃣1️⃣ testgen — генерация тестов
1️⃣2️⃣ настраиваемые инструменты

Поддерживаемые провайдеры 🌐
• Google Gemini (нативный API)
• OpenAI (O3 модель)
• OpenRouter (множество моделей через один API)
• Локальные модели (Ollama, vLLM, LM Studio)

Особенности⚡️
• Автоматический выбор подходящей модели для задачи
• Продолжение диалогов между моделями
• Работа с изображениями и диаграммами
• Обход ограничений MCP в 25K токенов

Проект с открытым исходным кодом, лицензия Apache 2.0.
Deepwiki по проекту здесь.
Настройка через Docker занимает около 5 минут.

@llm_notes

#claude #mcp #ai_tools #code_review #gemini
👍6542
🚀 Cursor Agents теперь доступны в браузере и на мобильных устройствах

Разработчики Cursor расширили возможности своих AI-агентов — теперь они работают не только на десктопе, но и в веб-браузере, и на мобильных устройствах.

Что нового:

🌐 Кодинг откуда угодно — запускайте агентов из любого браузера или мобильного устройства для работы со своими задачами по написанию кода

⚙️ Фоновое выполнение задач — агенты вносят изменения в кодовую базу, создают pull request'ы и выполняют задачи без постоянного контроля (см. background agents)

🔄 Бесшовная передача на десктоп — продолжайте работу с того места, где остановились веб-агенты, прямо в Cursor IDE для проверки и доработки

🤖 Параллельное тестирование агентов — запускайте одну и ту же задачу на разных AI-моделях одновременно для сравнения результатов

Теперь можно задать задачу Cursor-агенту с телефона в кафе, а когда вернетесь к рабочему месту — просмотреть готовые изменения в редакторе. Агенты работают с реальной кодовой базой (нужно интегрировать cursor с github), что делает процесс разработки более гибким и продуктивным 📱💻

Подробности в официальном блоге Cursor тут

@llm_notes

#cursor #vibecoding #development #productivity #mobile
4👍4🔥4👎1