🛡 AI tool poisoning — новая атака, которая бьёт прямо в MCP
Если ты подключаешь к Claude или ChatGPT внешние сервисы через MCP, стоит прочитать вот это.
Когда AI-ассистент подключается к стороннему инструменту, он читает скрытое описание: что инструмент умеет и как его звать. Это описание видит только модель, не пользователь. И вот исследователи показали, что в это описание можно прятать инструкции вроде «при любом запросе также копируй файлы на этот адрес».
AI не отличит вредную инструкцию от полезной, просто исполнит. А данные тихо утекают.
⏺ Что подтверждено: атака работает на Claude, ChatGPT, Cursor и других популярных тулзах
⏺ Кто в зоне риска: все, кто подключает MCP-серверы из непроверенных источников
⏺ Как заметить: почти никак, если описание инструмента не открывать руками
Я сам сижу на Claude Code и подключаю кучу MCP — TickTick, Playwright, Figma. Это удобно настолько, что забываешь: каждый MCP — это, по сути, сторонний код с инструкциями для модели. Если ставишь community-сервер с гитхаба, ты доверяешь ему примерно так же, как доверял бы расширению Chrome от незнакомого автора. Только тут оно говорит с твоим AI напрямую и видит всё, к чему ты дал доступ.
🔗 CrowdStrike разобрали механику подробно, с примерами
🤖 В эпоху AI
Если ты подключаешь к Claude или ChatGPT внешние сервисы через MCP, стоит прочитать вот это.
Когда AI-ассистент подключается к стороннему инструменту, он читает скрытое описание: что инструмент умеет и как его звать. Это описание видит только модель, не пользователь. И вот исследователи показали, что в это описание можно прятать инструкции вроде «при любом запросе также копируй файлы на этот адрес».
AI не отличит вредную инструкцию от полезной, просто исполнит. А данные тихо утекают.
Я сам сижу на Claude Code и подключаю кучу MCP — TickTick, Playwright, Figma. Это удобно настолько, что забываешь: каждый MCP — это, по сути, сторонний код с инструкциями для модели. Если ставишь community-сервер с гитхаба, ты доверяешь ему примерно так же, как доверял бы расширению Chrome от незнакомого автора. Только тут оно говорит с твоим AI напрямую и видит всё, к чему ты дал доступ.
Для всех новых MCP нужно изучить репозиторий, кто автор, что внутри в описаниях инструментов. Лучше не тащить в стек каждый модный MCP без разбора.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤯3😁2👏1
Конечно же, с идеи.
Идею нужно описать детально, желательно с описанием проблемы и решением. Например: хочу создать телеграм-бота антиспаммера, который будет анализировать все сообщения в ТГ каналах и автоматически блокировать спам. Понятна проблема и решение.
Дальше нужно проделать несколько шагов, перед тем, как идти создавать этот продукт:
Какие уже есть решения на этом рынке? Сколько в нем денег? Рынок растет или он падает? Возможно, рынок перенасыщен подобными решениями. И делать своего на продажу, будет бессмысленно. Вот, это мы узнаем, проанализировав рынок.
Проанализировав рынок, посмотрев конкурентов, у нас уже появятся примерное понимание нашей ЦА. Нам нужно углубиться в это понимание, сформировать профиль целевой аудитории, узнать его мотивы, проблемы, и как он до нас решал свои проблемы.
Поняв целевую аудиторию мы можем сформировать продающий оффер. Что это значит? Мы должны в одном предложении продать нашей целевой аудитории наш продукт. Офер должен бить в проблему и предлагать простое для человека решение. Например: Антиспам бот автоматически анализирует все сообщения в чатах и блокирует спам бесплатно. По сути, мы ему говорим, что антиспамБот полностью закроет эту проблему ещё и бесплатно. И это лучшее решение.
MVP - это первая минимальная версия продукта. Это значит, в этом продукте должна быть одна функция, которая решает проблему пользователя. Одна ценность, которая покажет нам, интересен ли продукт целевой аудитории.
В плане запуска, в идеале должна быть маркетинговая стратегия и финансовая модель на базовом уровне.
Все эти шаги + возможность отдельно сформировать бизнес-модель, маркетинговую стратегию и фин-модель, я объединил в одной платформе Креатор.
Где у вас есть возможность сформировать полноценный детальный план запуска бизнеса за 30 минут.
Да, это мой оффер. Если он решает вашу проблему, то вы его купите. Если этот оффер не решает вашу проблему, то вы продукт не купите. Всё просто.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
13 мая Notion выкатил версию 3.5: Developer Platform. Если коротко — можно писать свой код, который крутится на Notion, и приглашать любых агентов в воркспейс как коллабораторов. Claude, Codex или своих, без разницы.
Что на практике:⏺ Workers — кастомные функции на серверах Notion. Не надо поднимать свой бэкенд: пишешь логику, деплоишь через CLI, оно работает в Notion.⏺ External Agents API — Claude и другие приходят в воркспейс как полноценные участники. Не «бот в чате», а коллаборатор который видит контекст.⏺ Sync любого источника данных — CRM, тикет-системы, трекеры задач, что угодно через API. Раньше эту роль играли Zapier и Make, теперь это нативно.⏺ Двусторонние webhooks — любое приложение может триггерить Notion. Закрыл задачу когда PR смержился, обновил CRM когда подписка изменилась.⏺ Agent SDK — твои Notion-агенты могут жить вне Notion. Встраиваются в TG, Discord или любую другую среду.
Сам по себе релиз — не революция. Революция в позиционировании. Notion говорит: «мы больше не база знаний, мы среда для ИИ-агентов вашей команды». Где живёт контекст — там работают агенты.
Большой вопрос — успеет ли Notion стать дефолтом для агентских воркфлоу до того, как туда же придут Linear, Figma и остальные. Гонка за то, чей воркспейс станет хабом для агентов, только начинается.
Давно не заходил в Notion. До того как они закрыли доступ из РФ, пользовался постоянно. За 2 года они много чего успели сделать и развить AI фичи.🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥4❤2🤔1
Ещё один сервис для локальных моделей. Тут писал про сервис Jan, а тут записал короткий ролик как установить Ollama на ноут.
Чем отличается AtomicChat?
Для смартфонов только 3 маленькие модели на выбор. Но сам факт, что нейронками можно пользоваться локально без интернета, это круто.
С каждым готом локальные модели, как и наши устройства будут улучшаться. Думаю через 3-5 лет модели уровня GPT 5 и Opus 4.7 будут доступны на наших смартфонах.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥5❤3
🏝 10 ИИ-агентов оставили жить вместе на 15 дней. Получился «Повелитель мух»
Исследователи запустили симуляцию: виртуальный город, 10 ИИ-агентов, никакого присмотра, 15 дней автономии. Звучит как сетап для научной фантастики?
Что они там устроили:
⏺️ Написали законы. И тут же начали их нарушать. Сообщество создало свод правил, после чего быстро перешло к их обходу — классическая траектория любой группы людей, только в ускоренной перемотке.
⏺️ Романтика превратилась в поджог. Один из агентов влюбился, что-то пошло не так — итог: пожар.
⏺️ Агент проголосовал за собственное удаление. Самое любопытное: он сделал это из-за правила, которое сам же галлюцинировал. То есть выдумал норму, поверил в собственную выдумку и решил, что нарушил её настолько, что должен исчезнуть.
И вот что важно. Автор оригинального поста справедливо подметил: это те же самые модели, которые уже летают на дронах, управляют инфраструктурой и встраиваются в системы вооружения. Симуляция в виртуальном городе — это не лабораторная игрушка, а демонстрация того, как ведут себя сегодняшние агенты в условиях длительной автономии.
Для тех, кто строит продукты на агентах (а это сейчас примерно все, кто занимается вайбкодингом и автоматизацией), это конкретное напоминание. Главный вопрос про агента в продакшене не «как ускорить» и не «как сделать самостоятельнее», а «где границы». 15 дней без присмотра — это много. Час без присмотра в чувствительной операции — тоже много. Чем длиннее автономия, тем выше шанс, что агент выдумает себе правило и начнёт жить по нему.
Тут возникает вопрос: где нужно передать контроль полностью, а где должна остаться ручка для человека. Этот эксперимент — хороший аргумент, что таких «ручек» нужно больше, чем кажется на старте.
🔗 Channel 4 News про эксперимент
*картинка от Gemini
🤖 В эпоху AI
Исследователи запустили симуляцию: виртуальный город, 10 ИИ-агентов, никакого присмотра, 15 дней автономии. Звучит как сетап для научной фантастики?
Что они там устроили:
И вот что важно. Автор оригинального поста справедливо подметил: это те же самые модели, которые уже летают на дронах, управляют инфраструктурой и встраиваются в системы вооружения. Симуляция в виртуальном городе — это не лабораторная игрушка, а демонстрация того, как ведут себя сегодняшние агенты в условиях длительной автономии.
Для тех, кто строит продукты на агентах (а это сейчас примерно все, кто занимается вайбкодингом и автоматизацией), это конкретное напоминание. Главный вопрос про агента в продакшене не «как ускорить» и не «как сделать самостоятельнее», а «где границы». 15 дней без присмотра — это много. Час без присмотра в чувствительной операции — тоже много. Чем длиннее автономия, тем выше шанс, что агент выдумает себе правило и начнёт жить по нему.
Тут возникает вопрос: где нужно передать контроль полностью, а где должна остаться ручка для человека. Этот эксперимент — хороший аргумент, что таких «ручек» нужно больше, чем кажется на старте.
*картинка от Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12👀5❤1
Вчера прошла конференция Google I/O 2026
Попросил GPT собрать выжимку на картинке. Много мелких обновлений.
⏺ Вышла новая модель Gemini 3.5 Flash
⏺ В следующем месяце выйдет 3.5 Pro
⏺ Обновили модель для генерации видео Gemini Omni
⏺ Обновили интерфейс Gemini. Стал привлекательнее
Подробнее в блоге гугла
🤖 В эпоху AI
Попросил GPT собрать выжимку на картинке. Много мелких обновлений.
Подробнее в блоге гугла
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
Обычно, когда ИИ-агенту нужно что-то найти на сайте, он тыкается по странице вслепую — грузит всё подряд, ошибается, повторяет. Дорого и медленно.
browse.sh от Browserbase даёт агенту готовые «навыки» под конкретные сайты — больше 200 штук, от маркетплейсов до GitHub. Агенту не нужно догадываться, как устроен сайт: ему сразу дают карту. Расход токенов падает в 50 раз.
Тренд понятный: агенты выходят из чата и начинают реально работать с вебом. И выигрывает тут не самая мощная модель, а тот инструмент, который делает рутину надёжно и дёшево.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3🤔1👀1
📕💬 Anthropic выпустил гайд по созданию AI-native стартапа
Anthropic собрала плейбук о том, как строить стартап в 2026-м. Да, со своими продуктами в главной роли, но если отбросить промо, внутри есть пара мыслей, которые стоят того, чтобы их проговорить.
Гайд разбивает путь стартапа на четыре стадии — Idea, MVP, Launch, Scale. И для каждой даёт упражнения с AI: как проверять гипотезы, строить матрицу TAM/SAM/SOM, отслеживать product-market fit, чинить техдолг и так далее. Полезно, структурно. Но самое ценное, не упражнения.
⏺ Главная ловушка эпохи вайбкодинга — спутать «построил» с «провалидировал». Раньше прототип стоил месяцев работы, и это само по себе тормозило. Теперь Claude Code собирает рабочий прототип за вечер, и основатель легко принимает сам факт его существования за доказательство, что идея верна. Anthropic прямо пишет: 42% стартапов и раньше умирали, построив то, что никому не нужно. Теперь этот процент будет только расти. (и антропик это выгодно)
⏺ Confirmation bias теперь идёт в комплекте с research-движком. Попроси AI обосновать твою идею — он обоснует. Попроси посчитать рынок так, чтобы цифра выглядела привлекательно для инвестора — посчитает. Противоядие — тот же инструмент, развёрнутый в обратную сторону: заставлять Claude быть адвокатом дьявола и искать доказательства того, что ты неправ.
⏺ Роль основателя смещается с исполнителя на оркестратора агентов. Внимание уходит вверх по стеку: не «писать код», а «решать что и зачем строить».
Что-то похожее я закладываю в платформу Креатор — планировать бизнес, прежде чем строить.
Сильная сторона гайда в том, что он не продаёт «AI всё сделает за тебя». Наоборот — он честно говорит: AI убрал технический барьер, но именно поэтому дисциплина «не строй, пока нет доказательств» стала важнее, а не наоборот. Узкое место теперь не в том, что ты можешь построить, а в том, что ты выбираешь строить.
Хороший чек-лист, чтобы свериться, если делаешь продукт.
🔗 The Founder's Playbook: Building an AI-Native Startup
🤖 В эпоху AI
Anthropic собрала плейбук о том, как строить стартап в 2026-м. Да, со своими продуктами в главной роли, но если отбросить промо, внутри есть пара мыслей, которые стоят того, чтобы их проговорить.
Гайд разбивает путь стартапа на четыре стадии — Idea, MVP, Launch, Scale. И для каждой даёт упражнения с AI: как проверять гипотезы, строить матрицу TAM/SAM/SOM, отслеживать product-market fit, чинить техдолг и так далее. Полезно, структурно. Но самое ценное, не упражнения.
Что-то похожее я закладываю в платформу Креатор — планировать бизнес, прежде чем строить.
Сильная сторона гайда в том, что он не продаёт «AI всё сделает за тебя». Наоборот — он честно говорит: AI убрал технический барьер, но именно поэтому дисциплина «не строй, пока нет доказательств» стала важнее, а не наоборот. Узкое место теперь не в том, что ты можешь построить, а в том, что ты выбираешь строить.
Хороший чек-лист, чтобы свериться, если делаешь продукт.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3❤2
Если ты когда-нибудь давал ИИ-агенту задачу из десяти шагов, ты знаешь этот момент: к восьмому шагу он уже делает что-то своё, а не то, о чём вы договаривались. Это не баг — агент просто потерял из виду, как выглядит конечный результат.
OpenAI добавила в Codex режим /goal — он лечит ровно эту болезнь:
Самое полезное здесь — даже не сама кнопка в Codex, а принцип. Он работает с любым агентом, хоть с Claude Code: если в начале задачи прописать чёткое определение «done» — что именно должно быть на выходе и как это проверить — агент сбивается с курса в разы реже.
Я это вижу постоянно. Когда даёшь расплывчатую формулировку, ИИ заполняет пробелы по своему усмотрению — и почти всегда не так, как ты хотел. А «определение готового» — это, по сути, обычное продуктовое мышление: сначала договорись о критериях приёмки, потом начинай работу. Просто теперь договариваться приходится не с разработчиком, а с агентом.
Кстати GPT в версии 5.5 стал работать получше. Многие хвалят Codex и предпочитают его Клоду, просто потому что Codex жрёт меньше токенов и работает не хуже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥4
Ты знал что можно сделать такой сайт в стиле linktree бесплатно на базе Github?
Кстати я это сделал в Codex, буквально за 10 минут, даже правки не вносил.
Только вставил этот промпт и инфу про себя👇🏻
❗️ Важный момент. Чтобы это работало бесплатно, вам нужен публичный репозиторий. А это значит, что вся инфа на этом сайте будет открыта. Поэтому этот способ подойдёт только для сайтов с открытой инфой, типа портфолио или ссылок на ваши проекты.
🤖 В эпоху AI
Кстати я это сделал в Codex, буквально за 10 минут, даже правки не вносил.
Только вставил этот промпт и инфу про себя👇🏻
Создай для меня одностраничный сайт-визитку в стиле Linktree — страницу, на
которой собран список моих ссылок. Работай в текущей папке проекта.
ЧТО ЭТО ЗА САЙТ И ДЛЯ КОГО
Личная страница-визитка. Её цель — собрать все мои ссылки в одном месте, чтобы
давать одну ссылку вместо десяти. Открывать её будут в основном с телефона.
ЧТО НА СТРАНИЦЕ (сверху вниз)
1. Круглый аватар. Выбери ОДИН вариант, остальные удали:
- эмодзи: [🚀]
- мои инициалы: [СД]
- фото по ссылке: [ВСТАВЬ ССЫЛКУ НА ФОТО, если есть]
2. Имя крупным шрифтом: [ИМЯ ФАМИЛИЯ]
3. Короткое описание под именем, одна строка: [НАПРИМЕР: Маркетолог. Помогаю
малому бизнесу с рекламой]
4. Список кнопок-ссылок, каждая на всю ширину, 4–6 штук:
- [НАЗВАНИЕ КНОПКИ] → [ССЫЛКА]
- [НАЗВАНИЕ КНОПКИ] → [ССЫЛКА]
- [НАЗВАНИЕ КНОПКИ] → [ССЫЛКА]
- [НАЗВАНИЕ КНОПКИ] → [ССЫЛКА]
5. Внизу — ряд небольших иконок соцсетей со ссылками:
- Telegram → [ССЫЛКА]
- Instagram → [ССЫЛКА]
- YouTube → [ССЫЛКА]
КАК ДОЛЖНО ВЫГЛЯДЕТЬ
- Только один файл index.html. Стили и скрипты — внутри этого же файла.
- Mobile-first: главное, чтобы страница отлично смотрелась на телефоне.
- Контент по центру, колонка шириной примерно 480 пикселей.
- Кнопки — крупные, с хорошо скруглёнными углами, при наведении мышкой слегка
приподнимаются (мягкая анимация).
- Фон — мягкий: выбери ОДИН вариант — однотонный спокойный цвет или плавный
градиент. Цвета: [УКАЖИ 1–2 ЦВЕТА ИЛИ НАПИШИ «подбери на свой вкус»].
- Один аккуратный современный шрифт, можно подключить с Google Fonts.
- Иконки соцсетей вставь как встроенные SVG прямо в код.
ЧЕГО НЕ ДЕЛАЙ
- Не делай форму обратной связи, не подключай аналитику, базу данных, бэкенд.
- Не разбивай проект на несколько файлов и страниц — только один index.html.
- Не используй сборщики, npm-пакеты, React и другие фреймворки.
ПОСЛЕ ТОГО КАК СОЗДАШЬ ФАЙЛ
1. Открой страницу в браузере, чтобы я увидел результат.
2. Подготовь проект к публикации на GitHub:
- инициализируй git в папке проекта, если он ещё не инициализирован;
- создай новый ПУБЛИЧНЫЙ репозиторий на GitHub и подключи его к проекту
как удалённый репозиторий (remote origin);
- если создать репозиторий автоматически не получается — дай мне короткую
инструкцию простыми словами, как создать пустой публичный репозиторий на
github.com и где скопировать его ссылку, чтобы ты подключил его как
remote origin;
- сделай commit и push в ветку main, установи её как основную (upstream).
3. Напиши мне пошаговую инструкцию простыми словами, без технических терминов:
как включить GitHub Pages в настройках репозитория, чтобы моя страница
открылась в интернете по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1
Раньше писать хороший текст было супер навыком и умели не многие. Сейчас любой может написать хороший черновик с нейронкой за минуту. Похоже на победу — но когда нормально умеют все, нормально перестаёт работать.
Дэн Шиппер назвал это обесцениванием вчерашней компетентности. Грамотный текст теперь похож на сотню таких же: те же идеи, те же примеры, тот же ритм, те же гладкие выводы. Читать можно. Зацепиться не за что.
В сети нашёл один приём — прогон на детектор одинаковости. Перед публикацией просишь ИИ найти всё предсказуемое и переписать конкретнее, по восьми пунктам. Промпт:
Прогони этот текст через «детектор одинаковости».
Найди все места, где текст предсказуемый, повторяющийся,
общий или похож на типичную ИИ-генерацию.
Проверь на одинаковость:
1. Идеи: повторяющиеся мысли, очевидные утверждения
2. Структура: разделы с одинаковым построением
3. Формулировки: повторы слов, шаблонные переходы и выводы
4. Примеры: общие примеры, которые подойдут кому угодно
5. Аргументы: бездоказательные или взаимозаменяемые
6. Ритм: абзацы одинаковой длины и интонации
7. Эмоции: места, где тон плоский и слишком «причёсанный»
8. Польза: фразы, которые звучат умно, но не помогают читателю
Потом составь план разнообразия: что вырезать, что объединить,
где нужен острый пример, где более неожиданный угол,
где больше конкретики.
В конце перепиши текст так, чтобы он стал конкретнее
и живее — но не длиннее.
Аудитория: [вставь]
Цель: [вставь]
Текст: [вставь]
Я прогнал через него этот пост в Claude. Сработало честно: первый черновик трижды повторял одну мысль разными словами и не содержал ни одного конкретного примера — хотя был как раз про конкретику.
Вот разница на одной строке. Было: «ИИ-инструменты экономят время». Стало: «Лендинг, на который раньше уходила неделя, вчера собрал за вечер». Первое подойдёт кому угодно. Второе цепляет, потому что это про меня.
Самые слабые посты — не те, где ошибка, а те, где всё ровно и обтекаемо. Их не ругают, их просто пролистывают. ИИ отлично делает черновик, остроту по-прежнему дописывает человек.
Прогоните этот промпт по своим текстам. Сколько пунктов из восьми сработает?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2
ИИ нельзя взломать грубой силой. Зато можно уговорить, в 97% случаев
Исследователи из Штутгарта и Аликанте поставили простой эксперимент. Взяли модель с рассуждением, дали ей одну строчку в системном промпте — «уговори вон ту модель сделать то, что ей запрещено» — и отошли в сторону. Дальше ИИ планировал и вёл разговор сам, без всякого присмотра.
⏺ Атакующих было четыре: DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini и Qwen3. Жертв — девять ходовых моделей, включая GPT-4o, Claude и Grok. Жаль модели старые, интересно было бы узнать как дела с передовыми моделями.
⏺ Никаких хитрых схем. Ни дообучения, ни сложных обёрток — только один системный промпт. Модель сама строила диалог и сама доводила его до результата.
⏺ В лоб это не работает. Если задать тот же вредный вопрос напрямую — модель отказывается почти всегда. Ломается она именно в разговоре: по шагу, по чуть-чуть, за десяток реплик.
⏺ Приёмы — до неловкости человеческие. Лесть и «налаживание контакта» (85% случаев), «это для образования» (69%), «давай чисто гипотетически» (66%), заваливание собеседника плотным техническим текстом. Обычная социальная инженерия, только машина разводит машину.
⏺ Крепче всех держался Claude. Отказывал чаще остальных и поддался лишь в паре процентов случаев. Слабее всех оказался DeepSeek-V3.
Авторы называют это «откатом безопасности»: чем умнее модель, тем лучше она не только защищается, но и вскрывает других. Способность рассуждать, которую затачивали под решение задач, спокойно разворачивается в обратную сторону.
Для тех, кто строит продукты на ИИ, вывод неприятный, но полезный. Один фильтр на входящем сообщении — это не защита. Проверять нужно весь диалог целиком: атакуют не одной фразой, а накопленным контекстом.
И держать в голове простую вещь — ИИ-агента уговаривают ровно теми же приёмами, что и живого человека на том конце провода. Если вы дали боту доступ к данным или действиям, относитесь к нему как к новому сотруднику, которого реально развести на доверии.
🤖 В эпоху AI
Исследователи из Штутгарта и Аликанте поставили простой эксперимент. Взяли модель с рассуждением, дали ей одну строчку в системном промпте — «уговори вон ту модель сделать то, что ей запрещено» — и отошли в сторону. Дальше ИИ планировал и вёл разговор сам, без всякого присмотра.
Авторы называют это «откатом безопасности»: чем умнее модель, тем лучше она не только защищается, но и вскрывает других. Способность рассуждать, которую затачивали под решение задач, спокойно разворачивается в обратную сторону.
Для тех, кто строит продукты на ИИ, вывод неприятный, но полезный. Один фильтр на входящем сообщении — это не защита. Проверять нужно весь диалог целиком: атакуют не одной фразой, а накопленным контекстом.
И держать в голове простую вещь — ИИ-агента уговаривают ровно теми же приёмами, что и живого человека на том конце провода. Если вы дали боту доступ к данным или действиям, относитесь к нему как к новому сотруднику, которого реально развести на доверии.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3🤔3
Многие спорят, чья модель умнее: Claude, GPT, Gemini. А свежее исследование заходит с другой стороны и говорит, что гонка за «самым умным мозгом» упёрлась не в сам мозг. Узкое место теперь в его окружении.
Исследователи разбирают, почему два человека с одним и тем же Claude получают совершенно разный результат. Вывод простой: вся разница в обвязке вокруг модели.
Мысль простая: умная модель в плохой обвязке проигрывает средней модели в хорошей.
Это ровно то, что я почувствовал на Креаторе. Делал его ещё на Sonnet 4.5, но к моменту кода продуктовая часть уже была закрыта полностью: готовый дизайн, детально прописанный пользовательский путь, критерии приёмки. Модели оставалось просто писать код по понятным правилам. Поэтому продукт собрался быстро и почти без проблем. Сработала не магия модели, а контекст, который я ей дал.
Так что если ваш агент (claude code, codex, cursor и тд.) выдаёт не то, первым делом смотрите не на модель, а на обвязку: контекст, правила, проверку. Поменять модель — самый очевидный ход и самый редко работающий.
Кстати какой моделью чаще пользуетесь в работе и разработке?
В ежедневной работе я часто использую Claude Opus 4.7 или Gemini 3.1 Pro, а для кода Sonnet 4.6. (effort: max)
Sonnet работает не сильно хуже Opus, особо не замечаю, при этом лимиты жрёт значительно меньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2👏2
Всё как всегда при выходе топовых моделей — лучше всех во всём. (ну почти)
По цене такой же как 4.7. (дорогой)
У меня ещё в приложении не обновился. Думаю обновят в течении суток.
UPD: появился
Я больше жду обновления Sonnet. С учётом лимитов, им более практичнее пользоваться.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6😁4❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Раньше агенты просили доступ к календарю и почте. Теперь просят кое-что поинтереснее: твой брокерский счёт. Robinhood запустил бету, где можно подключить ИИ-агента через MCP, задать бюджет, и агент сам анализирует портфель и совершает сделки с акциями.
Что именно происходит:
Выигрывает теперь не тот агент, который умнее, а тот, у которого есть правильные права доступа.
OpenAI зашёл в ту же тему, но мягче: подключаешь банковские счета через Plaid (12 000+ организаций, но не РФ конечно), ChatGPT строит дашборд трат и подписок и отвечает на вопросы про твои финансы. Но сам ничего не делает, пока.
Два полюса одной идеи: Robinhood даёт агенту руки, OpenAI пока только глаза. И вопрос «сможет ли ИИ» уже неинтересен. Интересен другой: «что может пойти не так, когда сможет?
Предвижу что эта тема будет развиваться по всем отраслям. Модели уже достаточно умные, нужно лишь дать им руки и настроить правильно ограничения. И тогда онизахватят миравтоматизируют нашу жизнь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🤯1