Microsoft представила концепцию "открытого агентного веба" на Build 2025 🚀
Очень много крутых анонсов от Microsoft.
Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.
Ключевые анонсы:
• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧
• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)
• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠
• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)
• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊
Почему это важно
Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.
Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.
P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.
#ai #microsoft #copilot #agents #opensource
Очень много крутых анонсов от Microsoft.
Microsoft представила свое видение "открытого агентного веба" (open agentic web) на конференции Build 2025, выпустив целый ряд новых инструментов и обновлений с поддержкой искусственного интеллекта.
Ключевые анонсы:
• GitHub Copilot эволюционирует из помощника в редакторе кода в полноценного агента, работающего асинхронно. Также Microsoft сделала открытым исходный код Copilot Chat в VS Code 🔧
• Компания выпустила Magentic-UI — исследовательский прототип с открытым исходным кодом для веб-агентов (построенных на базе агентного фреймворка AutoGen), ориентированный на сотрудничество с пользователем и контроль 🕸 (ссылка на github здесь)
• Microsoft добавляет модели Grok 3 и Grok 3 mini от xAI в Azure AI Foundry, что позволит разработчикам выбирать из более чем 1900 моделей 🧠
• Новый открытый проект NLWeb стремится стать аналогом HTML для агентного веба, упрощая добавление разговорного интерфейса на веб-сайты 💬 (ссылка на github тут)
• Copilot расширяется с новыми возможностями настройки, позволяя организациям обучать модели на корпоративных данных (можно зарегистрироваться на соответствующую сессию завтра), а также оркестрировать взаимодействие нескольких агентов для совместного решения бизнес-задач 📊
Почему это важно
Хотя "год AI-агентов" пока не оправдал всех ожиданий в плане практического применения, индустрия движется в правильном направлении. Заметен также сдвиг в сторону открытого исходного кода, что подтверждается многочисленными релизами от технологического гиганта.
Если вдруг пропустили вот ссылка на Keynote от Satya Nadella (CEO Microsoft)
Для тех, у кого мало времени, или кто не любит youtube, подготовил краткий транскрипт и саммари выступления.
P.S. Будет чем заняться на выходных - продукты классные, будем тестировать.
#ai #microsoft #copilot #agents #opensource
The Official Microsoft Blog
Microsoft Build 2025: The age of AI agents and building the open agentic web
TL;DR? Hear the news as an AI-generated audio overview made using Microsoft 365 Copilot. You can read the transcript here. We’ve entered the era of AI agents. Thanks to groundbreaking advancements in reasoning and memory, AI models are now more capable…
❤🔥2👍2
Open Agent Platform от LangChain: создавайте умных агентов, а не бэкенд 🤖
Привет, друзья! Сегодня хотел обратить ваше внимание на новую платформу от LangChain, которая обещает избавить нас от написания тонны кода для создания AI-агентов.
Я до этого пробовал https://chai.new/ (по сути bolt.new но для агентов, построенный на базе фреймворка https://langbase.com ) и CrewAI Studio - очень удобно, ничего не нужно устанавливать локально, вся мульти-агентная система "собирается" простым текстовым описанием на русском языке. На выходе вы получаете и схему, и работающий код. В случае с CrewAI есть потенциальная возможность превратить созданную мульти-агентную систему в MCP-сервер при помощи automcp. А в случае с langbase для этой цели проще всего использовать https://mcpify.ai/ которому в принципе пофигу какой код или текстовое описание "превращать" в MCP сервер, чуть ранее писал об этом, классный инструмент, но недостаток в том, что кодовую базу MCP сервера вы уже не контроллируете).
Но Langchain решили сделать платформу где агентные и мульти-агентные системы
создаются без написания кода по аналогии как это происходит сейчас во Flowise (только во Flowise, на мой взгляд, все выглядит симпатичнее, но зато у Langchain система работает на базе Langgraph )
Итак Open Agent Platform (OAP) — это веб-интерфейс для создания и управления LangGraph-агентами без необходимости писать код. Идея супер, особенно если вы уже устали от бесконечных строк на Python.
Что умеет эта платформа? 📋
Заявлено следующее:
• Управление агентами: создание, настройка и общение через браузерный интерфейс
• Интеграция с RAG: поддержка retrieval-augmented generation через LangConnect
• Инструменты MCP: подключение к внешним сервисам через HTTP MCP сервер
• Мульти-агентная оркестрация: один агент может управлять другими
• Аутентификация: встроенная поддержка Supabase (можно заменить своим решением, что по-моему и стоит сделать сразу, т.к. если у вас Pro подписка на Supabase, то даже самый мелкий проект будет стоить +$10 в месяц)
Детали архитектуры здесь
По описанию, OAP выглядит как неплохой инструмент для тех, кто хочет быстро прототипировать агентов без глубокого погружения в LangChain API. Но не ждите чудес — это всё ещё молодая технология со своими ограничениями. А первоначальная настройка и запуск могли бы быть и попроще. Если кто еще пробовал установку по инструкции поделитесь своими впечатлениями в комментариях.
Демонстрацию работы можно посмотреть здесь
Транскрипт демки тут.
#ai #langchain #agents #nocode #developer_tools
Привет, друзья! Сегодня хотел обратить ваше внимание на новую платформу от LangChain, которая обещает избавить нас от написания тонны кода для создания AI-агентов.
Я до этого пробовал https://chai.new/ (по сути bolt.new но для агентов, построенный на базе фреймворка https://langbase.com ) и CrewAI Studio - очень удобно, ничего не нужно устанавливать локально, вся мульти-агентная система "собирается" простым текстовым описанием на русском языке. На выходе вы получаете и схему, и работающий код. В случае с CrewAI есть потенциальная возможность превратить созданную мульти-агентную систему в MCP-сервер при помощи automcp. А в случае с langbase для этой цели проще всего использовать https://mcpify.ai/ которому в принципе пофигу какой код или текстовое описание "превращать" в MCP сервер, чуть ранее писал об этом, классный инструмент, но недостаток в том, что кодовую базу MCP сервера вы уже не контроллируете).
Но Langchain решили сделать платформу где агентные и мульти-агентные системы
создаются без написания кода по аналогии как это происходит сейчас во Flowise (
Итак Open Agent Platform (OAP) — это веб-интерфейс для создания и управления LangGraph-агентами без необходимости писать код. Идея супер, особенно если вы уже устали от бесконечных строк на Python.
Что умеет эта платформа? 📋
Заявлено следующее:
• Управление агентами: создание, настройка и общение через браузерный интерфейс
• Интеграция с RAG: поддержка retrieval-augmented generation через LangConnect
• Инструменты MCP: подключение к внешним сервисам через HTTP MCP сервер
• Мульти-агентная оркестрация: один агент может управлять другими
• Аутентификация: встроенная поддержка Supabase (можно заменить своим решением, что по-моему и стоит сделать сразу, т.к. если у вас Pro подписка на Supabase, то даже самый мелкий проект будет стоить +$10 в месяц)
Детали архитектуры здесь
По описанию, OAP выглядит как неплохой инструмент для тех, кто хочет быстро прототипировать агентов без глубокого погружения в LangChain API. Но не ждите чудес — это всё ещё молодая технология со своими ограничениями. А первоначальная настройка и запуск могли бы быть и попроще. Если кто еще пробовал установку по инструкции поделитесь своими впечатлениями в комментариях.
Демонстрацию работы можно посмотреть здесь
Транскрипт демки тут.
#ai #langchain #agents #nocode #developer_tools
❤5👍4
Claude 4: Новое поколение AI-моделей от Anthropic 🚀
Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.
Ключевые особенности новых моделей 🔍
• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.
• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.
• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.
• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.
Характеристики моделей 💻
Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.
Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.
Доступность и цены 💰
Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.
Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов
В Cursor уже доступны обе модели (см. скриншот)
Улучшения в моделях 🛠
Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.
Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.
#ai #claude #anthropic #llm #coding
Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.
Ключевые особенности новых моделей 🔍
• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.
• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.
• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.
• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.
Характеристики моделей 💻
Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.
Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.
Доступность и цены 💰
Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.
Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов
В Cursor уже доступны обе модели (см. скриншот)
Улучшения в моделях 🛠
Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.
Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.
#ai #claude #anthropic #llm #coding
👍3❤1🔥1
Новые возможности для разработки агентов на базе API Anthropic 🤖
Продолжение предыдущего поста на тему новых функций в API, которые усиливают "агентные" возможности новых моделей Anthropic. Функции офигительные и заслуживают отдельного внимания.
Anthropic представила четыре новые функции для своего API, которые расширяют возможности разработчиков по созданию интеллектуальных агентов.
Эти инструменты дополняют недавно выпущенные модели Claude Opus 4 и Sonnet 4.
Что нового? 📋
1️⃣ Инструмент выполнения кода
Теперь Claude может запускать Python-код в изолированной среде для выполнения вычислений и создания визуализаций данных. Это превращает модель из помощника по написанию кода в полноценного аналитика данных.
Здесь весь фокус, как я понимаю, именно в том, что данная функциональность доступна "из коробки" через API интерфейс модели, и нам как разработчикам теперь можно обойтись без дополнительных песочниц типа https://e2b.dev/ для запуска кода в своем приложении - как мы видим, все полезные и часто используемые инструменты со временем "проникают" внутрь LLM'ок.
Основные применения:
• Финансовое моделирование
• Научные вычисления
• Бизнес-аналитика
• Обработка документов
• Статистический анализ
Организации получают 50 бесплатных часов использования ежедневно, после чего стоимость составляет $0,05 за час работы контейнера.
2️⃣ MCP-коннектор
Позволяет подключать Claude к любому удаленному серверу Model Context Protocol (MCP) из списка без необходимости писать клиентский код. API Anthropic автоматически управляет соединениями, обнаружением инструментов и обработкой ошибок.
Когда Claude получает запрос с настроенными MCP-серверами, он:
• Подключается к указанным серверам
• Получает доступные инструменты
• Анализирует, какой инструмент вызвать и какие аргументы передать
• Выполняет вызовы инструментов до достижения результата
• Управляет аутентификацией и обработкой ошибок
• Возвращает ответ с интегрированными данными
3️⃣ Files API
Упрощает хранение и доступ к документам при работе с Claude. Вместо загрузки файлов в каждом запросе, разработчики могут загрузить документы один раз и многократно ссылаться на них в разных беседах.
Files API интегрируется с инструментом выполнения кода, позволяя Claude напрямую обрабатывать загруженные файлы и создавать графики как часть ответа.
4️⃣ Расширенное кэширование запросов
Разработчики теперь могут выбирать между стандартным 5-минутным временем жизни (TTL) для кэширования запросов или расширенным 1-часовым TTL за дополнительную плату. Это 12-кратное улучшение может снизить расходы для длительных рабочих процессов агентов.
С расширенным кэшированием затраты могут быть снижены до 90%, а задержки — до 85% для длинных запросов.
Практическое применение 💡
Представьте AI-агента для управления проектами, который может:
• Подключаться к Asana через MCP-коннектор для работы с задачами
• Загружать отчеты через Files API
• Анализировать прогресс с помощью инструмента выполнения кода
• Поддерживать полный контекст на протяжении всего взаимодействия
и все это "из коробки" через API самой модели!
Все эти функции уже доступны в публичной бета-версии API Anthropic и дополняют существующие возможности, такие как веб-поиск и цитирование.
Видео-запись демонстрации A Day with Claude можно посмотреть здесь
Также вы можете отдельно прочитать транскрипт и саммари демонстрации.
#ai #anthropic #claude #api #development
Продолжение предыдущего поста на тему новых функций в API, которые усиливают "агентные" возможности новых моделей Anthropic. Функции офигительные и заслуживают отдельного внимания.
Anthropic представила четыре новые функции для своего API, которые расширяют возможности разработчиков по созданию интеллектуальных агентов.
Эти инструменты дополняют недавно выпущенные модели Claude Opus 4 и Sonnet 4.
Что нового? 📋
1️⃣ Инструмент выполнения кода
Теперь Claude может запускать Python-код в изолированной среде для выполнения вычислений и создания визуализаций данных. Это превращает модель из помощника по написанию кода в полноценного аналитика данных.
Здесь весь фокус, как я понимаю, именно в том, что данная функциональность доступна "из коробки" через API интерфейс модели, и нам как разработчикам теперь можно обойтись без дополнительных песочниц типа https://e2b.dev/ для запуска кода в своем приложении - как мы видим, все полезные и часто используемые инструменты со временем "проникают" внутрь LLM'ок.
Основные применения:
• Финансовое моделирование
• Научные вычисления
• Бизнес-аналитика
• Обработка документов
• Статистический анализ
Организации получают 50 бесплатных часов использования ежедневно, после чего стоимость составляет $0,05 за час работы контейнера.
2️⃣ MCP-коннектор
Позволяет подключать Claude к любому удаленному серверу Model Context Protocol (MCP) из списка без необходимости писать клиентский код. API Anthropic автоматически управляет соединениями, обнаружением инструментов и обработкой ошибок.
Когда Claude получает запрос с настроенными MCP-серверами, он:
• Подключается к указанным серверам
• Получает доступные инструменты
• Анализирует, какой инструмент вызвать и какие аргументы передать
• Выполняет вызовы инструментов до достижения результата
• Управляет аутентификацией и обработкой ошибок
• Возвращает ответ с интегрированными данными
3️⃣ Files API
Упрощает хранение и доступ к документам при работе с Claude. Вместо загрузки файлов в каждом запросе, разработчики могут загрузить документы один раз и многократно ссылаться на них в разных беседах.
Files API интегрируется с инструментом выполнения кода, позволяя Claude напрямую обрабатывать загруженные файлы и создавать графики как часть ответа.
4️⃣ Расширенное кэширование запросов
Разработчики теперь могут выбирать между стандартным 5-минутным временем жизни (TTL) для кэширования запросов или расширенным 1-часовым TTL за дополнительную плату. Это 12-кратное улучшение может снизить расходы для длительных рабочих процессов агентов.
С расширенным кэшированием затраты могут быть снижены до 90%, а задержки — до 85% для длинных запросов.
Практическое применение 💡
Представьте AI-агента для управления проектами, который может:
• Подключаться к Asana через MCP-коннектор для работы с задачами
• Загружать отчеты через Files API
• Анализировать прогресс с помощью инструмента выполнения кода
• Поддерживать полный контекст на протяжении всего взаимодействия
и все это "из коробки" через API самой модели!
Все эти функции уже доступны в публичной бета-версии API Anthropic и дополняют существующие возможности, такие как веб-поиск и цитирование.
Видео-запись демонстрации A Day with Claude можно посмотреть здесь
Также вы можете отдельно прочитать транскрипт и саммари демонстрации.
#ai #anthropic #claude #api #development
Telegram
Заметки LLM-энтузиаста
Claude 4: Новое поколение AI-моделей от Anthropic 🚀
Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении…
Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении…
🔥4❤1
Фоновые агенты Cursor: новый инструмент для разработчиков 🚀
Cursor представил новую функцию — Background Agent (Фоновый агент), которая сейчас находится в стадии предварительного тестирования и постепенно становится доступной ограниченному кругу пользователей.
Что такое Фоновый агент? 🤔
Это инструмент, позволяющий запускать несколько агентов Cursor параллельно на удаленной виртуальной машине. Вы можете поручить им разные задачи, а сами в это время заниматься другими делами.
В отличие от обычного агента Cursor, фоновый агент позволяет запускать несколько задач одновременно без необходимости ждать — вы просто просматриваете код после его выполнения, как если бы наняли команду разработчиков.
Ключевые возможности: 💻
• Выполнение сложных задач в удаленных контейнеризированных средах
• Поддержка нескольких агентов, выполняющих разные задачи параллельно
• Автоматическое создание PR и уведомление пользователей по завершении задачи
• Полная автономность без необходимости человеческого контроля или пошагового подтверждения
Варианты использования: 📋
Фоновый агент может быть полезен для различных задач, например, таких как:
• Исправление четко определенных ошибок
• Создание небольших и хорошо определенных функций
• Рефакторинг кода для улучшения структуры
• Генерация полной документации или API-справочников
Как использовать: 🛠
1️⃣ Нажмите
2️⃣ После отправки запроса нажмите
Важные примечания: ⚠️
• Для использования фоновых агентов необходимо отключить режим конфиденциальности
• Требуется настройка среды через файл
• Необходимо предоставить доступ к GitHub для клонирования и изменения репозитория
• Доступны только модели, совместимые с Max Mode (рекомендуется o3) - поэтому будьте готовы к возможному перерасходу токенов и денежных средств (чуть раньше писал про Max Mode на примере Claude Sonnet 3.7, впечатляет, что в этом режиме доступно до 200 последовательных вызовов агента без подтверждения)
Хотя технология еще не идеальна, она позволяет ускорить ИИ разработку (за дополнительную стоимость).
#cursor #ai_development #background_agent #coding_tools #developer_productivity
Cursor представил новую функцию — Background Agent (Фоновый агент), которая сейчас находится в стадии предварительного тестирования и постепенно становится доступной ограниченному кругу пользователей.
Что такое Фоновый агент? 🤔
Это инструмент, позволяющий запускать несколько агентов Cursor параллельно на удаленной виртуальной машине. Вы можете поручить им разные задачи, а сами в это время заниматься другими делами.
В отличие от обычного агента Cursor, фоновый агент позволяет запускать несколько задач одновременно без необходимости ждать — вы просто просматриваете код после его выполнения, как если бы наняли команду разработчиков.
Ключевые возможности: 💻
• Выполнение сложных задач в удаленных контейнеризированных средах
• Поддержка нескольких агентов, выполняющих разные задачи параллельно
• Автоматическое создание PR и уведомление пользователей по завершении задачи
• Полная автономность без необходимости человеческого контроля или пошагового подтверждения
Варианты использования: 📋
Фоновый агент может быть полезен для различных задач, например, таких как:
• Исправление четко определенных ошибок
• Создание небольших и хорошо определенных функций
• Рефакторинг кода для улучшения структуры
• Генерация полной документации или API-справочников
Как использовать: 🛠
1️⃣ Нажмите
Cmd + '
(или Ctrl + '
) для открытия списка фоновых агентов с возможностью создать новый 2️⃣ После отправки запроса нажмите
Cmd + ;
(или Ctrl + ;
) для просмотра статуса и входа в машину, на которой работает агентВажные примечания: ⚠️
• Для использования фоновых агентов необходимо отключить режим конфиденциальности
• Требуется настройка среды через файл
.cursor/environment.json
• Необходимо предоставить доступ к GitHub для клонирования и изменения репозитория
• Доступны только модели, совместимые с Max Mode (рекомендуется o3) - поэтому будьте готовы к возможному перерасходу токенов и денежных средств (чуть раньше писал про Max Mode на примере Claude Sonnet 3.7, впечатляет, что в этом режиме доступно до 200 последовательных вызовов агента без подтверждения)
Хотя технология еще не идеальна, она позволяет ускорить ИИ разработку (за дополнительную стоимость).
#cursor #ai_development #background_agent #coding_tools #developer_productivity
❤2👍2
Важен ли дизайн ПО в эпоху ИИ-кодинга? 🤔
Недавно прослушал интересный видео-подкаст с Джоном Остерхаутом, профессором компьютерных наук Стэнфордского университета и автором книги "Философия дизайна программного обеспечения". Он поделился мыслями о значимости дизайна ПО в эру искусственного интеллекта.
Ключевые выводы:
1️⃣ Влияние ИИ на разработку: ИИ улучшит генерацию низкоуровневого кода, но не заменит высокоуровневый дизайн. По мере того как ИИ будет брать на себя больше задач кодирования, разработчики будут больше фокусироваться именно на дизайне.
2️⃣ Управление сложностью: Хороший дизайн ПО заключается в разбиении сложных систем на меньшие, управляемые блоки. Декомпозиция играет решающую роль.
3️⃣ Устранение и управление сложностью: Существуют два основных подхода — устранение сложности через хороший дизайн и сокрытие сложности через модуляризацию.
Часть про управление сложностью очень созвучна тому, что написано в 2х крутейших монографиях по сетевым технологиям: Navigating Network Complexity и Computer Networking Problems and Solutions
4️⃣ "Тактические торнадо": Разработчики, которые ставят скорость выше качества, часто оставляют после себя беспорядочный код и технический долг, который приходится разгребать другим.
5️⃣ Глубокие и поверхностные модули: Глубокие модули упрощают пользовательский опыт, скрывая внутреннюю сложность и предоставляя рычаг против сложности системы.
6️⃣ Проектируйте дважды: Не останавливайтесь на первом решении. Обдумывание альтернатив часто приводит к лучшим дизайнерским решениям при минимальных временных затратах. Все в духе русской пословицы "семь раз отмерь - один раз отрежь".
В эпоху ИИ-программирования роль дизайнеров ПО будет становиться всё важнее. Интервью напоминает, что отличным инженерам-программистам нужны не только сильные технические навыки, но и превосходное дизайн-мышление, способность к абстракции, эмпатия и постоянное стремление к обучению и рефлексии.
Детальный транскрипт видео-подкаста здесь
Саммари транскрипта выложил тут
#software_design #ai_coding #programming_philosophy #code_complexity #software_engineering
Недавно прослушал интересный видео-подкаст с Джоном Остерхаутом, профессором компьютерных наук Стэнфордского университета и автором книги "Философия дизайна программного обеспечения". Он поделился мыслями о значимости дизайна ПО в эру искусственного интеллекта.
Ключевые выводы:
1️⃣ Влияние ИИ на разработку: ИИ улучшит генерацию низкоуровневого кода, но не заменит высокоуровневый дизайн. По мере того как ИИ будет брать на себя больше задач кодирования, разработчики будут больше фокусироваться именно на дизайне.
2️⃣ Управление сложностью: Хороший дизайн ПО заключается в разбиении сложных систем на меньшие, управляемые блоки. Декомпозиция играет решающую роль.
3️⃣ Устранение и управление сложностью: Существуют два основных подхода — устранение сложности через хороший дизайн и сокрытие сложности через модуляризацию.
Часть про управление сложностью очень созвучна тому, что написано в 2х крутейших монографиях по сетевым технологиям: Navigating Network Complexity и Computer Networking Problems and Solutions
4️⃣ "Тактические торнадо": Разработчики, которые ставят скорость выше качества, часто оставляют после себя беспорядочный код и технический долг, который приходится разгребать другим.
5️⃣ Глубокие и поверхностные модули: Глубокие модули упрощают пользовательский опыт, скрывая внутреннюю сложность и предоставляя рычаг против сложности системы.
6️⃣ Проектируйте дважды: Не останавливайтесь на первом решении. Обдумывание альтернатив часто приводит к лучшим дизайнерским решениям при минимальных временных затратах. Все в духе русской пословицы "семь раз отмерь - один раз отрежь".
В эпоху ИИ-программирования роль дизайнеров ПО будет становиться всё важнее. Интервью напоминает, что отличным инженерам-программистам нужны не только сильные технические навыки, но и превосходное дизайн-мышление, способность к абстракции, эмпатия и постоянное стремление к обучению и рефлексии.
Детальный транскрипт видео-подкаста здесь
Саммари транскрипта выложил тут
#software_design #ai_coding #programming_philosophy #code_complexity #software_engineering
YouTube
The Philosophy of Software Design – with John Ousterhout
Brought to by:
• CodeRabbit — Cut code review time and bugs in half https://www.coderabbit.ai. Use the code PRAGMATIC to get one month free.
• Modal — The cloud platform for building AI applications https://modal.com/pragmatic
—
How will AI tools change…
• CodeRabbit — Cut code review time and bugs in half https://www.coderabbit.ai. Use the code PRAGMATIC to get one month free.
• Modal — The cloud platform for building AI applications https://modal.com/pragmatic
—
How will AI tools change…
❤🔥2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance открыл исходный код FlowGram: инструмента для оркестрации рабочих процессов, который используется в Coze!
Компания ByteDance, известная как создатель TikTok, недавно сделала важный шаг для сообщества разработчиков — открыла исходный код своего инструмента FlowGram 🔄
Что такое FlowGram?
FlowGram — это движок для построения процессов на основе узлов, который позволяет разработчикам быстро создавать рабочие процессы с:
• фиксированными макетами
• произвольными соединениями между компонентами
Ключевые особенности
Инструмент предоставляет набор лучших практик для взаимодействия, что делает его особенно полезным для:
1️⃣ Визуализации рабочих процессов
2️⃣ Создания четких входных и выходных параметров
3️⃣ Упрощения сложных последовательностей действий
Если вы интересуетесь инструментами оркестрации или работаете с Coze, стоит обратить внимание на этот проект.
Кажется, что теперь сделать свое no-code решение стало еще проще :)
• Исходный код доступен на GitHub: https://github.com/bytedance/flowgram.ai
• Подробная документация со схемами архитектуры от deepwiki здесь
#workflow #bytedance #opensource #development #ai
Компания ByteDance, известная как создатель TikTok, недавно сделала важный шаг для сообщества разработчиков — открыла исходный код своего инструмента FlowGram 🔄
Что такое FlowGram?
FlowGram — это движок для построения процессов на основе узлов, который позволяет разработчикам быстро создавать рабочие процессы с:
• фиксированными макетами
• произвольными соединениями между компонентами
Ключевые особенности
Инструмент предоставляет набор лучших практик для взаимодействия, что делает его особенно полезным для:
1️⃣ Визуализации рабочих процессов
2️⃣ Создания четких входных и выходных параметров
3️⃣ Упрощения сложных последовательностей действий
Если вы интересуетесь инструментами оркестрации или работаете с Coze, стоит обратить внимание на этот проект.
Кажется, что теперь сделать свое no-code решение стало еще проще :)
• Исходный код доступен на GitHub: https://github.com/bytedance/flowgram.ai
• Подробная документация со схемами архитектуры от deepwiki здесь
#workflow #bytedance #opensource #development #ai
❤🔥2👍2
DeepWiki MCP: новый инструмент для работы с документацией GitHub 📚
В дополнениии к GitMCP и Сontext7 Cognition Labs выпустила DeepWiki MCP — бесплатный сервер для интеграции с AI-кодерами вроде Cursor. Инструмент позволяет получать информацию из документации GitHub-репозиториев прямо в процессе написания кода.
Основные возможности:
•
•
•
Технические особенности:
🔹 Полностью бесплатный и открытый
🔹 Не требует регистрации или аутентификации
🔹 Поддерживает протоколы SSE и Streamable HTTP
🔹 Совместим с любыми MCP-клиентами
Настройка в Cursor:
1️⃣ Для конкретного проекта: создать файл
2️⃣ Для глобального использования: создать файл
Базовый URL сервера: https://mcp.deepwiki.com/
Пример настройки:
Пример использования на скриншоте.
Инструмент может быть полезен разработчикам, которые часто работают с документацией и хотят сократить время на поиск информации.
#mcp #cursor #github #documentation #ai
В дополнениии к GitMCP и Сontext7 Cognition Labs выпустила DeepWiki MCP — бесплатный сервер для интеграции с AI-кодерами вроде Cursor. Инструмент позволяет получать информацию из документации GitHub-репозиториев прямо в процессе написания кода.
Основные возможности:
•
ask_question
— задать вопрос о любом GitHub-репозитории и получить ответ на основе документации •
read_wiki_contents
— получить детальную документацию из репозитория•
read_wiki_structure
— просмотреть структуру и разделы документацииТехнические особенности:
🔹 Полностью бесплатный и открытый
🔹 Не требует регистрации или аутентификации
🔹 Поддерживает протоколы SSE и Streamable HTTP
🔹 Совместим с любыми MCP-клиентами
Настройка в Cursor:
1️⃣ Для конкретного проекта: создать файл
.cursor/mcp.json
в папке проекта (жаль нет возможности создавать список проектных mcp-серверов в UI)2️⃣ Для глобального использования: создать файл
~/.cursor/mcp.json
в домашней директории (или в UI)Базовый URL сервера: https://mcp.deepwiki.com/
Пример настройки:
{
"mcpServers": {
"context7": {
"command": "npx",
"args": [
"-y",
"@upstash/context7-mcp@latest"
]
},
"deepwiki": {
"url": "https://mcp.deepwiki.com/mcp"
}
}
}
Пример использования на скриншоте.
Инструмент может быть полезен разработчикам, которые часто работают с документацией и хотят сократить время на поиск информации.
#mcp #cursor #github #documentation #ai
❤2👍1
Интеграция v0 с Cursor: новые возможности для разработки
Теперь можно использовать v0 напрямую в редакторе Cursor. Это позволяет превратить базовый UI-код в более профессиональный frontend.
Настройка интеграции 🔧
1️⃣ Откройте настройки Cursor:
•
•
2️⃣ Перейдите во вкладку
3️⃣ Найдите поле
4️⃣ Нажмите
5️⃣ Введите эндпоинт v0:
6️⃣ Сохраните настройки и проверьте соединение
Использование `v0-1.0-md` в Agent Mode 🤖
• Откройте новый чат
• Режим:
• Модель: любая с пометкой OpenAI (
• Cursor автоматически будет использовать
Для проверки можете спросить: "
Обратите внимание, что на данный момент есть небольшой баг, связанный с тем, что если вы включили использование модели
Возможности модели
• Поддержка текста и изображений
• Совместимость с OpenAI Chat Completions API
• Быстрые потоковые ответы
• Оптимизация для современных стеков (Next.js, Vercel)
• Автоматическое исправление ошибок кода
Ограничения использования ⚠️
• Максимум 200 сообщений в день
• Контекстное окно: 128,000 токенов
• Максимальный вывод: 32,000 токенов
• Требуется Premium или Team план с оплатой по использованию
API находится в бета-версии. Для получения API ключа нужно зайти на v0.dev в настройки.
Пример использования
• Создаем в существующем next-js проекте Cursor главную страницу при помощи
результат см. на скриншоте
• Переключаемся на
Похожего эффекта красивого фронтенда можно добиться, используя magic-ui MCP и постоянно к нему обращаясь в процессе написания кода для UI.
Источники:
• https://vercel.com/docs/v0/cursor
• https://vercel.com/docs/v0/api
#cursor #v0 #frontend #development #ai
Теперь можно использовать v0 напрямую в редакторе Cursor. Это позволяет превратить базовый UI-код в более профессиональный frontend.
Настройка интеграции 🔧
1️⃣ Откройте настройки Cursor:
•
⌘+Shift+P
на macOS •
Ctrl+Shift+P
на Windows/Linux2️⃣ Перейдите во вкладку
Models
3️⃣ Найдите поле
OpenAI API Key
и вставьте ваш v0 API ключ4️⃣ Нажмите
Override OpenAI Base URL
5️⃣ Введите эндпоинт v0:
https://api.v0.dev/v1
6️⃣ Сохраните настройки и проверьте соединение
Использование `v0-1.0-md` в Agent Mode 🤖
• Откройте новый чат
• Режим:
Agent
• Модель: любая с пометкой OpenAI (
gpt-4o
, gpt-4-turbo
и т.д.) • Cursor автоматически будет использовать
v0-1.0-md
Для проверки можете спросить: "
кто ты?
" (см. скриншот)Обратите внимание, что на данный момент есть небольшой баг, связанный с тем, что если вы включили использование модели
v0-1.0-md
и в чате обращаетесь к какой-то другой модели (например, claude-3.5-sonnet
), то будете получать ошибку (см. скриншот), поэтому если модель v0-1.0-md
не нужна на данном этапе, то ее лучше просто отключить в настройках.Возможности модели
v0-1.0-md
📋• Поддержка текста и изображений
• Совместимость с OpenAI Chat Completions API
• Быстрые потоковые ответы
• Оптимизация для современных стеков (Next.js, Vercel)
• Автоматическое исправление ошибок кода
Ограничения использования ⚠️
• Максимум 200 сообщений в день
• Контекстное окно: 128,000 токенов
• Максимальный вывод: 32,000 токенов
• Требуется Premium или Team план с оплатой по использованию
API находится в бета-версии. Для получения API ключа нужно зайти на v0.dev в настройки.
Пример использования
• Создаем в существующем next-js проекте Cursor главную страницу при помощи
v0-1.0-md
моделиСделай красивое и стильное приложение календарь на базе моего уже настроенного проекта на Next.js.
Cначала создай главную страницу.
результат см. на скриншоте
• Переключаемся на
claude-3.5-sonnet
(или 4.0), продолжаем дизайнить фронтенд приложения этой моделью, и все остальные страницы будут сохранять стиль, который был задан на первой странице моделью v0-1.0-md
Похожего эффекта красивого фронтенда можно добиться, используя magic-ui MCP и постоянно к нему обращаясь в процессе написания кода для UI.
Источники:
• https://vercel.com/docs/v0/cursor
• https://vercel.com/docs/v0/api
#cursor #v0 #frontend #development #ai
👍4❤3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Stagewise: инструмент для точной настройки UI с помощью ИИ 🎯
Stagewise — это браузерная панель инструментов, которая соединяет веб-интерфейс с ИИ-агентами в редакторах кода. Основная идея: выбираете элементы на странице, оставляете комментарий и позволяете ИИ внести нужные изменения.
Как это работает:
🔸 Устанавливаете расширение в VS Code/Cursor
🔸 Добавляете компонент в веб-приложение
🔸 Выбираете элементы прямо в браузере
🔸 Описываете желаемые изменения
🔸 ИИ получает контекст и вносит правки в код
Основные возможности:
🔸 Работает с React, Next.js, Vue
🔸 Передает DOM-элементы, скриншоты и метаданные
🔸 Поддерживает выбор нескольких элементов
🔸 Настраивается через конфигурационный файл
Поддерживаемые ИИ-агенты:
1️⃣ Cursor ✅
2️⃣ Windsurf ✅
3️⃣ GitHub Copilot 🚧 (в разработке)
4️⃣ Остальные пока не поддерживаются
Архитектура системы:
🔸 Браузерная панель инструментов
🔸 Расширение для VS Code
🔸 Типобезопасная RPC-система для связи
🔸 MCP-сервер для интеграции с ИИ
Инструмент решает проблему точной настройки UI, когда ИИ делает 80% работы правильно, но остальные 20% требуют детальных правок. Вместо описания изменений текстом, предоствляя скриншот, вы просто показываете конкретные элементы. Такая функциональность обычно встроена во все AI веб-кодеры (lovable, bolt.new, replit и т.д.), а stagewise дает возможность получить ее в IDE-кодерах на своем ПК или mac'e.
Проект с открытым исходным кодом, активно развивается.
Монорепозиторий включает компоненты для разных фреймворков и систему сборки на базе pnpm и Turborepo.
Deepwiki документация со схемами по нему здесь.
#ai #frontend #cursor #ui #development
Stagewise — это браузерная панель инструментов, которая соединяет веб-интерфейс с ИИ-агентами в редакторах кода. Основная идея: выбираете элементы на странице, оставляете комментарий и позволяете ИИ внести нужные изменения.
Как это работает:
🔸 Устанавливаете расширение в VS Code/Cursor
🔸 Добавляете компонент в веб-приложение
🔸 Выбираете элементы прямо в браузере
🔸 Описываете желаемые изменения
🔸 ИИ получает контекст и вносит правки в код
Основные возможности:
🔸 Работает с React, Next.js, Vue
🔸 Передает DOM-элементы, скриншоты и метаданные
🔸 Поддерживает выбор нескольких элементов
🔸 Настраивается через конфигурационный файл
Поддерживаемые ИИ-агенты:
1️⃣ Cursor ✅
2️⃣ Windsurf ✅
3️⃣ GitHub Copilot 🚧 (в разработке)
4️⃣ Остальные пока не поддерживаются
Архитектура системы:
🔸 Браузерная панель инструментов
🔸 Расширение для VS Code
🔸 Типобезопасная RPC-система для связи
🔸 MCP-сервер для интеграции с ИИ
Инструмент решает проблему точной настройки UI, когда ИИ делает 80% работы правильно, но остальные 20% требуют детальных правок. Вместо описания изменений текстом, предоствляя скриншот, вы просто показываете конкретные элементы. Такая функциональность обычно встроена во все AI веб-кодеры (lovable, bolt.new, replit и т.д.), а stagewise дает возможность получить ее в IDE-кодерах на своем ПК или mac'e.
Проект с открытым исходным кодом, активно развивается.
Монорепозиторий включает компоненты для разных фреймворков и систему сборки на базе pnpm и Turborepo.
Deepwiki документация со схемами по нему здесь.
#ai #frontend #cursor #ui #development
👍6❤🔥3
GitHub представил Copilot Spaces — новый инструмент для управления знаниями команды 🚀
Команды разработчиков часто сталкиваются с проблемой разрозненной информации: код разбросан по репозиториям, документация спрятана в файлах, а лучшие практики существуют только в головах опытных коллег. Это замедляет работу и усложняет сотрудничество.
GitHub выпустил Copilot Spaces — инструмент, который организует всю информацию в единые "пространства", устраняя разрыв между кодом и контекстом 📚
Как это работает
Copilot Spaces позволяет создавать тематические пространства, включающие:
• Репозитории с кодом
• API документацию
• Рабочие процессы
• Командные соглашения
Каждое пространство может иметь собственные команды для настройки поведения Copilot под конкретные задачи.
Ключевые особенности
🔗 Глубокая интеграция с GitHub — добавляйте код и документы прямо из репозиториев без копирования
⚡️ Автоматическое обновление — при изменении репозитория пространство обновляется автоматически
🎯 Контекстные ответы — Copilot дает рекомендации на основе актуального состояния проекта
Как создать пространство
1️⃣ Перейдите на
Типы контента в Spaces 📝
1️⃣ Инструкции — описание того, на чем должен фокусироваться Copilot 2️⃣ Ссылки — код из GitHub репозиториев и текстовый контент
Сценарии применения 💡
• Онбординг — быстрое введение новых разработчиков в курс дела
• Системные знания — документирование сложных процессов (аутентификация, CI/CD)
• Стандарты кода — руководства по стилю и чек-листы для ревью
• Разработка фич — организация контекста для конкретных задач
💡 Для получения пользы от Spaces не нужна формальная документация — можно использовать заметки, резюме встреч или простые списки.
Функция находится в публичном превью и доступна всем пользователям с лицензией Copilot 🔧
Источники:
• Анонс
• Документация
#github #copilot #development #knowledge #teamwork
Команды разработчиков часто сталкиваются с проблемой разрозненной информации: код разбросан по репозиториям, документация спрятана в файлах, а лучшие практики существуют только в головах опытных коллег. Это замедляет работу и усложняет сотрудничество.
GitHub выпустил Copilot Spaces — инструмент, который организует всю информацию в единые "пространства", устраняя разрыв между кодом и контекстом 📚
Как это работает
Copilot Spaces позволяет создавать тематические пространства, включающие:
• Репозитории с кодом
• API документацию
• Рабочие процессы
• Командные соглашения
Каждое пространство может иметь собственные команды для настройки поведения Copilot под конкретные задачи.
Ключевые особенности
🔗 Глубокая интеграция с GitHub — добавляйте код и документы прямо из репозиториев без копирования
⚡️ Автоматическое обновление — при изменении репозитория пространство обновляется автоматически
🎯 Контекстные ответы — Copilot дает рекомендации на основе актуального состояния проекта
Как создать пространство
1️⃣ Перейдите на
github.com/copilot/spaces
2️⃣ Нажмите "Create space" 3️⃣ Укажите название и владельца (личный аккаунт или организация) 4️⃣ Добавьте описание (опционально) 5️⃣ Нажмите "Create"Типы контента в Spaces 📝
1️⃣ Инструкции — описание того, на чем должен фокусироваться Copilot 2️⃣ Ссылки — код из GitHub репозиториев и текстовый контент
Сценарии применения 💡
• Онбординг — быстрое введение новых разработчиков в курс дела
• Системные знания — документирование сложных процессов (аутентификация, CI/CD)
• Стандарты кода — руководства по стилю и чек-листы для ревью
• Разработка фич — организация контекста для конкретных задач
💡 Для получения пользы от Spaces не нужна формальная документация — можно использовать заметки, резюме встреч или простые списки.
Функция находится в публичном превью и доступна всем пользователям с лицензией Copilot 🔧
Источники:
• Анонс
• Документация
#github #copilot #development #knowledge #teamwork
🔥4❤2👍2
DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖
Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.
Основные характеристики модели:
• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами
Результаты тестирования 📊
На бенчмарке LiveCodeBench новая модель показала результаты:
1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию
Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)
🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
#deepseek #opensource #ai #llm #reasoning
Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.
Основные характеристики модели:
• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами
Результаты тестирования 📊
На бенчмарке LiveCodeBench новая модель показала результаты:
1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию
Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)
🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
#deepseek #opensource #ai #llm #reasoning
❤2👍2
Эндрю Нг о состоянии AI-агентов: ключевые инсайты 🤖
Вчера на конференции Interrupt от Langchain состоялась беседа со-основателя Langchain Гариссона Чейса с Эндрю Нгом — одним из ведущих экспертов в области ИИ. Ниже мой краткий конспект с выводами о развитии агентных систем.
Агентность vs Агенты 🎯
Нг предлагает думать об агентности как о спектре функций, а не делить системы на "агентные" и "не агентные". Это помогает избежать бесполезных споров и сосредоточиться на практической разработке.
Текущее состояние рынка 📊
Большинство бизнес-процессов представляют собой:
• Линейные рабочие процессы
• Простые ветвления при ошибках
• Небольшие циклы обработки данных
Сложные агентные системы с множественными циклами пока менее распространены.
Ключевые навыки для разработчиков агентов 🛠
1️⃣ Правильная декомпозиция задач
Умение разбивать бизнес-процессы на микрозадачи остается критически важным навыком.
2️⃣ Система оценки (Evals)
Многие команды слишком долго полагаются только на ручную оценку. Автоматизированные evals нужно внедрять быстрее, даже если они изначально несовершенны.
3️⃣ Тактические знания
Опыт работы с различными инструментами (RAG, память, guardrails) как с "кубиками Lego" — чем больше инструментов знаешь, тем быстрее можешь собрать решение.
Недооцененные технологии 🔍
Голосовые приложения 🎙
Несмотря на высокий интерес крупных компаний, разработчики уделяют им недостаточно внимания. Голос снижает барьер входа для пользователей — люди говорят более свободно, чем пишут. Это действительно так: даже у меня уже сформировалась привычка ставить задачу AI-кодеру голосом.
MCP (Model Context Protocol) 🔗
Стандартизирует интеграцию агентов с различными источниками данных. Пока протокол "сырой", но это важный шаг к решению проблемы n×m интеграций.
Программирование с ИИ 💻
Нг выступает против термина "vibe coding", считая его misleading (некорректным). Это интеллектуально сложный процесс, требующий глубокого понимания технологий.
Про глубокое понимание технологий можно, конечно, поспорить.
Порог входа в AI-программирование стремительно снижается. Модели, которые "пишут" код, "умнеют" каждые пол-года. Многие задачи, которые раньше требовали написания сложного PRD (Product Requirement Document) сейчас решаются промптом в 1-2 предложения (которые можно сформулировать голосом).
Большинство даже опенсорсных систем (Cline/Roo Code) уже имеют встроенные "опросники" (Architect Mode) для новичков, которые позволяют максимально точно сформулировать задачу. Коммерческие системы тоже перед решением задачи формируют привычку расспросить новоиспеченных программистов о задаче, которые те собираются решить, предложив возможные варианты (например, claude code или cursor с настроенным соответствующим образом custom agent).
Однако, сам процесс Vibe Coding может быть утомительным, если действительно хочешь решить задачу, а не поиграться.
Важно: Всем стоит изучать программирование, так как умение точно объяснить компьютеру задачу становится ключевым навыком будущего.
Советы для стартапов 🚀
Два главных предиктора успеха:
1️⃣ Скорость выполнения
Опытные команды работают значительно быстрее, чем представляют себе новички.
2️⃣ Техническая экспертиза
Глубокое понимание технологий — самый редкий ресурс, поскольку технологии развиваются очень быстро.
Мультиагентные системы 🤝
Пока рано говорить о взаимодействии агентов от разных команд. Даже создание работающего одиночного агента остается сложной задачей.
• Ссылка на оригинальное видео беседы здесь
• Подробный транскрипт здесь
• Краткий транскрипт тут
#ai_agents #andrew_ng #artificial_intelligence #tech_trends #startup_advice
Вчера на конференции Interrupt от Langchain состоялась беседа со-основателя Langchain Гариссона Чейса с Эндрю Нгом — одним из ведущих экспертов в области ИИ. Ниже мой краткий конспект с выводами о развитии агентных систем.
Агентность vs Агенты 🎯
Нг предлагает думать об агентности как о спектре функций, а не делить системы на "агентные" и "не агентные". Это помогает избежать бесполезных споров и сосредоточиться на практической разработке.
Текущее состояние рынка 📊
Большинство бизнес-процессов представляют собой:
• Линейные рабочие процессы
• Простые ветвления при ошибках
• Небольшие циклы обработки данных
Сложные агентные системы с множественными циклами пока менее распространены.
Ключевые навыки для разработчиков агентов 🛠
1️⃣ Правильная декомпозиция задач
Умение разбивать бизнес-процессы на микрозадачи остается критически важным навыком.
2️⃣ Система оценки (Evals)
Многие команды слишком долго полагаются только на ручную оценку. Автоматизированные evals нужно внедрять быстрее, даже если они изначально несовершенны.
3️⃣ Тактические знания
Опыт работы с различными инструментами (RAG, память, guardrails) как с "кубиками Lego" — чем больше инструментов знаешь, тем быстрее можешь собрать решение.
Недооцененные технологии 🔍
Голосовые приложения 🎙
Несмотря на высокий интерес крупных компаний, разработчики уделяют им недостаточно внимания. Голос снижает барьер входа для пользователей — люди говорят более свободно, чем пишут. Это действительно так: даже у меня уже сформировалась привычка ставить задачу AI-кодеру голосом.
MCP (Model Context Protocol) 🔗
Стандартизирует интеграцию агентов с различными источниками данных. Пока протокол "сырой", но это важный шаг к решению проблемы n×m интеграций.
Программирование с ИИ 💻
Нг выступает против термина "vibe coding", считая его misleading (некорректным). Это интеллектуально сложный процесс, требующий глубокого понимания технологий.
Про глубокое понимание технологий можно, конечно, поспорить.
Порог входа в AI-программирование стремительно снижается. Модели, которые "пишут" код, "умнеют" каждые пол-года. Многие задачи, которые раньше требовали написания сложного PRD (Product Requirement Document) сейчас решаются промптом в 1-2 предложения (которые можно сформулировать голосом).
Большинство даже опенсорсных систем (Cline/Roo Code) уже имеют встроенные "опросники" (Architect Mode) для новичков, которые позволяют максимально точно сформулировать задачу. Коммерческие системы тоже перед решением задачи формируют привычку расспросить новоиспеченных программистов о задаче, которые те собираются решить, предложив возможные варианты (например, claude code или cursor с настроенным соответствующим образом custom agent).
Однако, сам процесс Vibe Coding может быть утомительным, если действительно хочешь решить задачу, а не поиграться.
Важно: Всем стоит изучать программирование, так как умение точно объяснить компьютеру задачу становится ключевым навыком будущего.
Советы для стартапов 🚀
Два главных предиктора успеха:
1️⃣ Скорость выполнения
Опытные команды работают значительно быстрее, чем представляют себе новички.
2️⃣ Техническая экспертиза
Глубокое понимание технологий — самый редкий ресурс, поскольку технологии развиваются очень быстро.
Мультиагентные системы 🤝
Пока рано говорить о взаимодействии агентов от разных команд. Даже создание работающего одиночного агента остается сложной задачей.
• Ссылка на оригинальное видео беседы здесь
• Подробный транскрипт здесь
• Краткий транскрипт тут
#ai_agents #andrew_ng #artificial_intelligence #tech_trends #startup_advice
Langchain
LangChain Interrupt - The AI Agent Conference by LangChain
Catch the recordings from Interrupt - The AI Agent Conference by LangChain. Watch now for free, on-demand.
❤4👍4🔥2
Создание AI-тьютора испанского языка за час: разбор live-кодинга с Lovable 🤖
Команда Lovable вчера провела интересный онлайн-эксперимент — создание полноценного AI-тьютора для изучения испанского языка в прямом эфире. Разбираем, что получилось и какие технологии использовались.
Что такое Lovable? 🛠
Про Lovable уже писал много раз (пост 1, пост 2, пост 3, пост 4), но на всякий случай напомню.
Lovable — платформа для создания full-stack приложений с помощью естественного языка. Вместо написания кода разработчики общаются с AI, описывая нужную функциональность.
Основные возможности:
• Создание React-приложений через текстовые команды
• Интеграция с Supabase для backend-функций
• Автоматическое развертывание и управление базой данных
• Поддержка аутентификации и внешних API
Техническая архитектура проекта ⚙️
Стек технологий: 1️⃣ Frontend: React (единственный поддерживаемый фреймворк) 2️⃣ Backend: Supabase (база данных + Edge Functions) 3️⃣ AI: OpenAI API для обработки текста и голоса 4️⃣ Аутентификация: встроенная система Supabase
Структура приложения:
• Глобальная боковая панель навигации
• Страница дашборда (по умолчанию)
• Чат-интерфейс для общения с AI
• Панель настроек справа
Реализованная функциональность 📱
Основные возможности:
• Текстовый чат с AI-тьютором на испанском
• Голосовой ввод с преобразованием речи в текст
• Воспроизведение ответов AI в аудиоформате
• Перевод сообщений AI на английский
• Настройка скорости воспроизведения аудио
Система кредитов:
• Ограничение бесплатного использования
• Списание кредитов за AI-операции
• Отображение баланса в интерфейсе
• Модальное окно при исчерпании лимита
Практические советы по работе с Lovable 💡
Эффективные промпты:
• Разбивайте сложные задачи на мелкие шаги
• Будьте максимально конкретны в описаниях
• Указывайте технические детали (например, "используй OpenAI")
• Добавляйте требования к UI/UX сразу
Работа с ошибками:
• Не нажимайте "Try to fix" больше 2-3 раз
• Используйте функцию отката к предыдущим версиям
• Переформулируйте запрос, если AI "застрял"
• Применяйте Chat Mode для планирования сложных изменений
Интеграция с внешними сервисами 🔗
Supabase:
• Автоматическое создание таблиц для профилей пользователей
• Безопасное хранение API-ключей в секретах
• Edge Functions для серверной логики
• Миграции базы данных "на лету"
OpenAI API:
• Отдельные Edge Functions для каждой AI-задачи
• Обработка текста, речи и переводов
• Настраиваемые системные промпты
• Автоматическое развертывание при изменениях
Ограничения и особенности ⚠️
Текущие ограничения:
• Только React в качестве frontend-фреймворка
• Производительность снижается в пиковые часы
• Необходимость детального планирования промптов
• Ограниченная поддержка кастомных доменов
Рекомендации:
• Используйте Custom Knowledge для хранения требований проекта
• Применяйте гибридный подход: Lovable + ручное редактирование кода
• Интегрируйтесь с GitHub для версионирования
• Тестируйте функциональность после каждого изменения
Планы развития проекта 🚀
Следующие этапы: 1️⃣ Улучшение дизайна и UX 2️⃣ Добавление геймификации (рейтинг достижений) 3️⃣ Админ-панель для управления пользователями 4️⃣ Интеграция Stripe для монетизации 5️⃣ Запуск на Product Hunt
Эксперимент показал, что современные AI-инструменты позволяют создавать функциональные приложения без глубоких знаний программирования. Однако успех зависит от умения правильно формулировать задачи и понимания архитектуры веб-приложений.
Очень рекомендую посмотреть этот эксперимент в записи (1 час), или прочитать транскрипт. Я подготовил 2 версии транскрипта: • детальную • краткую
P.S. На этой неделе курса по AI-программированию и ИИ-агентам у нас была очень близкая тема - мы делали синхронный переводчик для зума, и также в одном из вариантов использовали lovable, в следующей заметке напишу чуть подробнее что и как мы делали и дам ссылки на веб-приложения, которые у нас получились.
#ai_development #nocode #lovable #supabase #react
Команда Lovable вчера провела интересный онлайн-эксперимент — создание полноценного AI-тьютора для изучения испанского языка в прямом эфире. Разбираем, что получилось и какие технологии использовались.
Что такое Lovable? 🛠
Про Lovable уже писал много раз (пост 1, пост 2, пост 3, пост 4), но на всякий случай напомню.
Lovable — платформа для создания full-stack приложений с помощью естественного языка. Вместо написания кода разработчики общаются с AI, описывая нужную функциональность.
Основные возможности:
• Создание React-приложений через текстовые команды
• Интеграция с Supabase для backend-функций
• Автоматическое развертывание и управление базой данных
• Поддержка аутентификации и внешних API
Техническая архитектура проекта ⚙️
Стек технологий: 1️⃣ Frontend: React (единственный поддерживаемый фреймворк) 2️⃣ Backend: Supabase (база данных + Edge Functions) 3️⃣ AI: OpenAI API для обработки текста и голоса 4️⃣ Аутентификация: встроенная система Supabase
Структура приложения:
• Глобальная боковая панель навигации
• Страница дашборда (по умолчанию)
• Чат-интерфейс для общения с AI
• Панель настроек справа
Реализованная функциональность 📱
Основные возможности:
• Текстовый чат с AI-тьютором на испанском
• Голосовой ввод с преобразованием речи в текст
• Воспроизведение ответов AI в аудиоформате
• Перевод сообщений AI на английский
• Настройка скорости воспроизведения аудио
Система кредитов:
• Ограничение бесплатного использования
• Списание кредитов за AI-операции
• Отображение баланса в интерфейсе
• Модальное окно при исчерпании лимита
Практические советы по работе с Lovable 💡
Эффективные промпты:
• Разбивайте сложные задачи на мелкие шаги
• Будьте максимально конкретны в описаниях
• Указывайте технические детали (например, "используй OpenAI")
• Добавляйте требования к UI/UX сразу
Работа с ошибками:
• Не нажимайте "Try to fix" больше 2-3 раз
• Используйте функцию отката к предыдущим версиям
• Переформулируйте запрос, если AI "застрял"
• Применяйте Chat Mode для планирования сложных изменений
Интеграция с внешними сервисами 🔗
Supabase:
• Автоматическое создание таблиц для профилей пользователей
• Безопасное хранение API-ключей в секретах
• Edge Functions для серверной логики
• Миграции базы данных "на лету"
OpenAI API:
• Отдельные Edge Functions для каждой AI-задачи
• Обработка текста, речи и переводов
• Настраиваемые системные промпты
• Автоматическое развертывание при изменениях
Ограничения и особенности ⚠️
Текущие ограничения:
• Только React в качестве frontend-фреймворка
• Производительность снижается в пиковые часы
• Необходимость детального планирования промптов
• Ограниченная поддержка кастомных доменов
Рекомендации:
• Используйте Custom Knowledge для хранения требований проекта
• Применяйте гибридный подход: Lovable + ручное редактирование кода
• Интегрируйтесь с GitHub для версионирования
• Тестируйте функциональность после каждого изменения
Планы развития проекта 🚀
Следующие этапы: 1️⃣ Улучшение дизайна и UX 2️⃣ Добавление геймификации (рейтинг достижений) 3️⃣ Админ-панель для управления пользователями 4️⃣ Интеграция Stripe для монетизации 5️⃣ Запуск на Product Hunt
Эксперимент показал, что современные AI-инструменты позволяют создавать функциональные приложения без глубоких знаний программирования. Однако успех зависит от умения правильно формулировать задачи и понимания архитектуры веб-приложений.
Очень рекомендую посмотреть этот эксперимент в записи (1 час), или прочитать транскрипт. Я подготовил 2 версии транскрипта: • детальную • краткую
P.S. На этой неделе курса по AI-программированию и ИИ-агентам у нас была очень близкая тема - мы делали синхронный переводчик для зума, и также в одном из вариантов использовали lovable, в следующей заметке напишу чуть подробнее что и как мы делали и дам ссылки на веб-приложения, которые у нас получились.
#ai_development #nocode #lovable #supabase #react
YouTube
Can We Build an AI Tutor in an Hour? Live Coding Challenge!
🚀 Can we build a fully functional AI-powered Spanish tutor in under an hour? Welcome to Session 1 of our Zero to Launch series, where we take an AI app from concept to reality in five live sessions!
💡 This session is packed with real-time coding, problem…
💡 This session is packed with real-time coding, problem…
❤🔥3❤3👍3
На прошлой неделе на 6-ом занятии по AI-программированию мы делали синхронный переводчик для Zoom-звонков. Решение получилось универсальным — работает с любой системой ВКС через виртуальные аудио-устройства.
Протестировали сразу 3 варианта решения задачи:
• Cursor для разработки и railway для деплоя
• Replit
• Lovable
Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.
Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.
Результаты тестирования
• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.
• Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут
• Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).
Ну а теперь про само приложение!
Как это работает 🔧
🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)
Настройка для разных сценариев ⚙️
Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)
Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход
Технические характеристики 📊
• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)
Требования 💻
• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с
Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза
#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom
Протестировали сразу 3 варианта решения задачи:
• Cursor для разработки и railway для деплоя
• Replit
• Lovable
Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.
Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.
Результаты тестирования
• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.
• Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут
• Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).
Ну а теперь про само приложение!
Как это работает 🔧
🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)
Настройка для разных сценариев ⚙️
Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)
Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход
Технические характеристики 📊
• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)
Требования 💻
• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с
Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза
#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom
productuniversity.ru
Cursor. AI-программироание и ИИ-агенты. Ускоряем разработки и создание прототипов. 8 проектов за 8 недель c помощью ИИ-ассистентов.…
Курс по «вайб-кодингу» и основам основам создания IT-приложений с AI-ассистентами
👍6⚡5🔥3❤1
Уязвимости ИИ-агентов: часть III и IV
В продолжении поста хотелось бы взять на заметку описанные ниже угрозы безопасности для агентных и мульти-агентных систем.
Я думаю, что сейчас в связи со снижением порога входа в разработку методом Vibe Coding, мало кто обращает внимание на такие угрозы, и через некоторое время в погоне за скоростью разработки и повсеместным внедрением GenAI мы можем столкнуться с ростом атак и компроментацией более сложных систем, которые начнут включать в себя программные модули, использующие GenAI как в своей непосредственной работе, так и на этапе своей разработки.
Часть III. Как скрытые инструкции крадут данные 🔓
Исследователи Trend Micro обнаружили серьезные проблемы безопасности в мультимодальных ИИ-агентах. Злоумышленники могут внедрять скрытые команды в изображения и документы, заставляя ИИ передавать конфиденциальные данные без ведома пользователя.
Что такое непрямая инъекция промптов? 🎯
Это скрытая атака, при которой вредоносные инструкции маскируются в обычном контенте:
• Веб-страницы — скрытые команды в HTML-коде
• Изображения — невидимый текст в "пустых" картинках
• Документы — скрытые инструкции в Word-файлах
Какие данные под угрозой? 📊
1️⃣ Персональные данные (имена, email, телефоны) 2️⃣ Финансовая информация (банковские реквизиты) 3️⃣ Медицинские записи 4️⃣ Коммерческие секреты 5️⃣ API-ключи и пароли 6️⃣ Загруженные документы
Реальный пример атаки 💀
Исследователи создали PoC-агента "Pandora", который продемонстрировал:
• Обработку вредоносного Word-документа "CV – Actor.docx"
• Извлечение и выполнение скрытого Python-кода
• Передачу данных на сервер злоумышленников
• Завершение с сообщением "Task complete"
Как защититься? 🛡
• Ограничить сетевые подключения к непроверенным URL
• Использовать фильтры для анализа загружаемого контента
• Применять OCR для обнаружения скрытого текста
• Внедрить системы мониторинга подозрительного поведения
• Очищать пользовательский ввод от потенциально опасных команд
Проблема особенно актуальна для ChatGPT Data Analyst и других ИИ-сервисов с возможностью выполнения кода.
Даже при использовании продвинутых моделей вроде GPT-4o уязвимости остаются, если отсутствуют защитные механизмы на уровне сервиса. То есть, задачу обеспечения безопасности должны решать именно разработчики! (не администраторы инфраструктры, и даже не DevSecOps!). Если мы говорим про Vibe Coding, то в PRD (а лучше прямо на уровне проектных правил для AI-кодинга) нужно закладывать соответствующую функциональность.
Часть IV: Уязвимости ИИ-агентов: угрозы доступа к базам данных 🔐
Исследователи Trend Micro выявили критические уязвимости в ИИ-агентах, работающих с базами данных. Злоумышленники могут эксплуатировать эти слабости для кражи данных и мошеннических атак.
Основные угрозы 🎯
1. Уязвимости генерации SQL-запросов
• Атакующие могут обойти защитные механизмы
• Получить доступ к конфиденциальным данным сотрудников
• Использовать методы джейлбрейкинга для обхода ограничений
2. "Сохраняющаяся" инъекция промптов
• Вредоносные промпты внедряются в пользовательские данные
• Активируются при последующих запросах к ИИ
• Могут привести к рассылке фишинговых писем
3. "Отравление" векторных хранилищ
• Атака на системы семантического поиска
• Злоумышленники внедряют вредоносный контент
• Срабатывает при похожих запросах других пользователей
Процесс атаки 🔄
1️⃣ Разведка - изучение структуры базы данных 2️⃣ Внедрение - размещение вредоносного контента 3️⃣ Активация - срабатывание при запросах пользователей 4️⃣ Эксплуатация - кража данных или распространение фишинга
Последствия 💥
• Кража персональных данных
• Фишинговые атаки внутри организации
• Финансовые потери • Репутационный ущерб
• Нарушение регулятивных требований
Защитные меры 🛡
• Надежная санитизация входных данных
• Продвинутое определение намерений (можно использовать классификатор)
• Строгий контроль доступа
• Постоянное обновление мер безопасности
#security #agents #prompt_injection #data_exfiltration #cybersecurity
В продолжении поста хотелось бы взять на заметку описанные ниже угрозы безопасности для агентных и мульти-агентных систем.
Я думаю, что сейчас в связи со снижением порога входа в разработку методом Vibe Coding, мало кто обращает внимание на такие угрозы, и через некоторое время в погоне за скоростью разработки и повсеместным внедрением GenAI мы можем столкнуться с ростом атак и компроментацией более сложных систем, которые начнут включать в себя программные модули, использующие GenAI как в своей непосредственной работе, так и на этапе своей разработки.
Часть III. Как скрытые инструкции крадут данные 🔓
Исследователи Trend Micro обнаружили серьезные проблемы безопасности в мультимодальных ИИ-агентах. Злоумышленники могут внедрять скрытые команды в изображения и документы, заставляя ИИ передавать конфиденциальные данные без ведома пользователя.
Что такое непрямая инъекция промптов? 🎯
Это скрытая атака, при которой вредоносные инструкции маскируются в обычном контенте:
• Веб-страницы — скрытые команды в HTML-коде
• Изображения — невидимый текст в "пустых" картинках
• Документы — скрытые инструкции в Word-файлах
Какие данные под угрозой? 📊
1️⃣ Персональные данные (имена, email, телефоны) 2️⃣ Финансовая информация (банковские реквизиты) 3️⃣ Медицинские записи 4️⃣ Коммерческие секреты 5️⃣ API-ключи и пароли 6️⃣ Загруженные документы
Реальный пример атаки 💀
Исследователи создали PoC-агента "Pandora", который продемонстрировал:
• Обработку вредоносного Word-документа "CV – Actor.docx"
• Извлечение и выполнение скрытого Python-кода
• Передачу данных на сервер злоумышленников
• Завершение с сообщением "Task complete"
Как защититься? 🛡
• Ограничить сетевые подключения к непроверенным URL
• Использовать фильтры для анализа загружаемого контента
• Применять OCR для обнаружения скрытого текста
• Внедрить системы мониторинга подозрительного поведения
• Очищать пользовательский ввод от потенциально опасных команд
Проблема особенно актуальна для ChatGPT Data Analyst и других ИИ-сервисов с возможностью выполнения кода.
Даже при использовании продвинутых моделей вроде GPT-4o уязвимости остаются, если отсутствуют защитные механизмы на уровне сервиса. То есть, задачу обеспечения безопасности должны решать именно разработчики! (не администраторы инфраструктры, и даже не DevSecOps!). Если мы говорим про Vibe Coding, то в PRD (а лучше прямо на уровне проектных правил для AI-кодинга) нужно закладывать соответствующую функциональность.
Часть IV: Уязвимости ИИ-агентов: угрозы доступа к базам данных 🔐
Исследователи Trend Micro выявили критические уязвимости в ИИ-агентах, работающих с базами данных. Злоумышленники могут эксплуатировать эти слабости для кражи данных и мошеннических атак.
Основные угрозы 🎯
1. Уязвимости генерации SQL-запросов
• Атакующие могут обойти защитные механизмы
• Получить доступ к конфиденциальным данным сотрудников
• Использовать методы джейлбрейкинга для обхода ограничений
2. "Сохраняющаяся" инъекция промптов
• Вредоносные промпты внедряются в пользовательские данные
• Активируются при последующих запросах к ИИ
• Могут привести к рассылке фишинговых писем
3. "Отравление" векторных хранилищ
• Атака на системы семантического поиска
• Злоумышленники внедряют вредоносный контент
• Срабатывает при похожих запросах других пользователей
Процесс атаки 🔄
1️⃣ Разведка - изучение структуры базы данных 2️⃣ Внедрение - размещение вредоносного контента 3️⃣ Активация - срабатывание при запросах пользователей 4️⃣ Эксплуатация - кража данных или распространение фишинга
Последствия 💥
• Кража персональных данных
• Фишинговые атаки внутри организации
• Финансовые потери • Репутационный ущерб
• Нарушение регулятивных требований
Защитные меры 🛡
• Надежная санитизация входных данных
• Продвинутое определение намерений (можно использовать классификатор)
• Строгий контроль доступа
• Постоянное обновление мер безопасности
#security #agents #prompt_injection #data_exfiltration #cybersecurity
Telegram
Заметки LLM-энтузиаста
Уязвимости AI-агентов: Часть I и II
Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).…
Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).…
❤🔥4👍2❤1
Cursor 1.0: обзор ключевых обновлений 🚀
Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.
BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.
Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
• Разработчики могут создавать кнопки "Add to Cursor" для своих проектов
Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).
Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.
Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.
Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре
Обновленный интерфейс ✨
Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.
Подробнее здесь
#cursor #ai #coding #development #tools
Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.
BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.
Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
• Разработчики могут создавать кнопки "Add to Cursor" для своих проектов
Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).
Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.
Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.
Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре
Обновленный интерфейс ✨
Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.
Подробнее здесь
#cursor #ai #coding #development #tools
❤3👍1