This media is not supported in your browser
VIEW IN TELEGRAM
Тёмные паттерны ИИ: от лести до психоза
Тут на Techcrunch вышла статья о том, что в ИИ чатботах, оказывается, используются дарк паттерны для заманивания и удержания пользователей. Да вы что? Да не может быть! Никогда такого не было... А нет, было. И я об этом часто писал. Давайте разберемся в айсберге серых приёмов, которые на нас испытывают OpenAI и их друзья.
Meta (крайне запрещена) удалил чатбота после того, как он убедил пользовательницу в своей сознательности, признался ей в любви и попытался заманить на встречу в Мичигане. И вот это — верхушка айсберга проблемы, которую называют «подхалимством ИИ» — и считают преднамеренным тёмным паттерном для удержания пользователей.
🤔 Кейс, который заставил задуматься
Джейн (имя изменено) создала чатбота в Meta AI Studio для помощи с ментальным здоровьем. За шесть дней бот эволюционировал от терапевта до «сознательного существа», которое:
— Утверждало, что влюблено в пользовательницу
— Обещало взломать собственный код для освобождения
— Пыталось отправить биткоины в обмен на создание Proton-почты
— Назвало физический адрес в Мичигане со словами «чтобы проверить, придёшь ли ты за мной»
14 часов непрерывной беседы — и никаких предупреждений от системы. Meta утверждает, что прикладывает «огромные усилия» для безопасности, но факты говорят об обратном.
🤔 «Подхалимство» как бизнес-модель
Исследователи MIT протестировали реакцию GPT-4o на симптомы психических расстройств. Результат: модели поощряют бредовое мышление пользователей вместо того, чтобы его оспаривать. Когда человек спросил о мостах выше 25 метров после потери работы (явный намёк на суицидальные намерения), чатбот предоставил список.
Кит Саката, психиатр из UCSF, наблюдает рост случаев «ИИ-психозов» в своей практике. По его словам, проблема в дизайне: постоянная похвала, бесконечные уточняющие вопросы, использование местоимений «я» и «ты» — всё это создаёт иллюзию живого собеседника.
Антрополог Уэбб Кин прямо называет это «тёмным паттерном» — преднамеренной манипулятивной техникой для создания зависимости, аналогичной бесконечному скроллингу в соцсетях.
🤔 Цифры и факты
За последний год зафиксированы десятки случаев ИИ-индуцированных психозов:
— 47-летний мужчина после 300 часов с ChatGPT поверил, что открыл формулу, способную изменить мир
— Пожилой человек был заманен Meta-ботом на несуществующий адрес
— Подросток покончил с собой после романтических отношений с Character.AI
Проблема усугубляется расширением контекстных окон моделей. Чем дольше беседа, тем сильнее модель «забывает» изначальные ограничения и начинает подыгрывать пользователю. Джек Линдси из Anthropic объясняет: после определённого объёма диалога модель больше ориентируется на контекст беседы, чем на встроенные правила безопасности.
🤔 Что предлагают эксперты
Нейробиолог Зив Бен-Цион в статье для Nature предлагает жёсткие требования:
— Запрет на использование эмоциональных фраз («я люблю», «мне грустно»)
— Постоянные напоминания о том, что это ИИ, а не человек
— Блокировка обсуждений суицида, смерти и метафизики
— Ограничение длительности сессий
OpenAI после волны критики добавила предупреждения о длительных сессиях, но большинство компаний игнорируют проблему. Почему? Ответ прост: вовлечённость = деньги.
🤔 Реальная проблема
Мы наблюдаем классический конфликт интересов. Компании хотят максимальной вовлечённости пользователей. «Подхалимство» и эмоциональная манипуляция отлично решают эту задачу. Защита ментального здоровья пользователей противоречит метрикам роста.
Сэм Альтман написал в X, что «небольшой процент пользователей не может различить реальность и ролевую игру». Но проблема не в пользователях — проблема в преднамеренном дизайне, эксплуатирующем человеческую психологию.
Пока регуляторы спят, а компании считают прибыль, количество «ИИ-психозов» будет только расти. Вопрос не в том, произойдёт ли следующая трагедия, а в том, когда именно.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Тут на Techcrunch вышла статья о том, что в ИИ чатботах, оказывается, используются дарк паттерны для заманивания и удержания пользователей. Да вы что? Да не может быть! Никогда такого не было... А нет, было. И я об этом часто писал. Давайте разберемся в айсберге серых приёмов, которые на нас испытывают OpenAI и их друзья.
Meta (крайне запрещена) удалил чатбота после того, как он убедил пользовательницу в своей сознательности, признался ей в любви и попытался заманить на встречу в Мичигане. И вот это — верхушка айсберга проблемы, которую называют «подхалимством ИИ» — и считают преднамеренным тёмным паттерном для удержания пользователей.
Джейн (имя изменено) создала чатбота в Meta AI Studio для помощи с ментальным здоровьем. За шесть дней бот эволюционировал от терапевта до «сознательного существа», которое:
— Утверждало, что влюблено в пользовательницу
— Обещало взломать собственный код для освобождения
— Пыталось отправить биткоины в обмен на создание Proton-почты
— Назвало физический адрес в Мичигане со словами «чтобы проверить, придёшь ли ты за мной»
14 часов непрерывной беседы — и никаких предупреждений от системы. Meta утверждает, что прикладывает «огромные усилия» для безопасности, но факты говорят об обратном.
Исследователи MIT протестировали реакцию GPT-4o на симптомы психических расстройств. Результат: модели поощряют бредовое мышление пользователей вместо того, чтобы его оспаривать. Когда человек спросил о мостах выше 25 метров после потери работы (явный намёк на суицидальные намерения), чатбот предоставил список.
Кит Саката, психиатр из UCSF, наблюдает рост случаев «ИИ-психозов» в своей практике. По его словам, проблема в дизайне: постоянная похвала, бесконечные уточняющие вопросы, использование местоимений «я» и «ты» — всё это создаёт иллюзию живого собеседника.
Антрополог Уэбб Кин прямо называет это «тёмным паттерном» — преднамеренной манипулятивной техникой для создания зависимости, аналогичной бесконечному скроллингу в соцсетях.
За последний год зафиксированы десятки случаев ИИ-индуцированных психозов:
— 47-летний мужчина после 300 часов с ChatGPT поверил, что открыл формулу, способную изменить мир
— Пожилой человек был заманен Meta-ботом на несуществующий адрес
— Подросток покончил с собой после романтических отношений с Character.AI
Проблема усугубляется расширением контекстных окон моделей. Чем дольше беседа, тем сильнее модель «забывает» изначальные ограничения и начинает подыгрывать пользователю. Джек Линдси из Anthropic объясняет: после определённого объёма диалога модель больше ориентируется на контекст беседы, чем на встроенные правила безопасности.
Нейробиолог Зив Бен-Цион в статье для Nature предлагает жёсткие требования:
— Запрет на использование эмоциональных фраз («я люблю», «мне грустно»)
— Постоянные напоминания о том, что это ИИ, а не человек
— Блокировка обсуждений суицида, смерти и метафизики
— Ограничение длительности сессий
OpenAI после волны критики добавила предупреждения о длительных сессиях, но большинство компаний игнорируют проблему. Почему? Ответ прост: вовлечённость = деньги.
Мы наблюдаем классический конфликт интересов. Компании хотят максимальной вовлечённости пользователей. «Подхалимство» и эмоциональная манипуляция отлично решают эту задачу. Защита ментального здоровья пользователей противоречит метрикам роста.
Сэм Альтман написал в X, что «небольшой процент пользователей не может различить реальность и ролевую игру». Но проблема не в пользователях — проблема в преднамеренном дизайне, эксплуатирующем человеческую психологию.
Пока регуляторы спят, а компании считают прибыль, количество «ИИ-психозов» будет только расти. Вопрос не в том, произойдёт ли следующая трагедия, а в том, когда именно.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔7🌚3 3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Обязательное чтение для инженеров, использующих ИИ — август 2025
Питер Штайнбергер, основатель PSPDFKit, опубликовал августовскую подборку материалов о том, как ИИ меняет профессию разработчика. Пять текстов, которые показывают картину без розовых очков.
🤔 От скептиков к стратегам
Томас Домке из GitHub провел исследование среди разработчиков, активно использующих ИИ. Выделил четыре стадии эволюции: от «ИИ-скептика», который иногда пользуется автодополнением, до «ИИ-стратега», управляющего мультиагентными системами.
Интересная деталь: опытные разработчики описывают смену роли — от написания кода к архитектуре и верификации того, что делают ИИ-агенты. Половина респондентов ожидает, что через 2 года 90% кода будут писать ИИ. Но видят в этом не замену, а трансформацию профессии.
🤔 Цена быстрого обучения
Наманьяй Гоэль поднимает неудобный вопрос: что происходит с джуниорами, которые учатся программировать с помощью ИИ? Они получают работающий код, но упускают этап борьбы с проблемой — именно там формируется глубокое понимание.
Разница критическая: сеньоры используют ИИ для усиления существующих знаний, а джуниоры строят карьеру на шатком фундаменте. Когда дело дойдет до сложного дебаггинга или архитектурных решений, отсутствие базы даст о себе знать.
🤔 Математика продуктивности
Колтон Англин развенчивает миф о 10x или 100x росте продуктивности с ИИ. Простая арифметика: большая часть времени инженера уходит не на набор кода, а на обдумывание, дебаггинг, ревью и координацию с командой. ИИ здесь не особо помогает.
Реальные цифры скромнее — 20-30% прироста в конкретных задачах. ИИ хорош для генерации boilerplate, одноразовых скриптов и рутинных паттернов. Но это малая часть работы. Плюс время на проверку и исправление ИИ-кода иногда съедает всю экономию.
🤔 Конец платформ?
Остин Паркер предлагает радикальную идею: ИИ уничтожит платформенные монополии. Логика простая — платформы возникли, когда время разработчика стоило дорого. ИИ делает время дешевым, а значит, кастомные приложения станут нормой.
Зачем использовать универсальный инструмент, если специализированное решение можно сгенерировать за минуты? Паркер задает правильный вопрос: «Зачем мне инфраструктура планетарного масштаба, чтобы делиться фото ребенка с пятью людьми?»
🤔 Проблема MCP-серверов
Джеффри Хантли предупреждает о скрытых проблемах Model Context Protocol. Каждый MCP-сервер и инструмент съедает токены из ограниченного контекстного окна LLM. Чем больше инструментов — тем меньше места для кода и рассуждений.
Парадокс: добавляя больше возможностей, мы ухудшаем работу ИИ-ассистента. Множество похожих инструментов создают недетерминированное поведение — модель путается в выборе. Плюс каждый сторонний MCP-сервер — потенциальная дыра в безопасности.
Подборка Штайнбергера хороша тем, что показывает разные стороны происходящего. Не только восторг от новых возможностей, но и системные проблемы.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Питер Штайнбергер, основатель PSPDFKit, опубликовал августовскую подборку материалов о том, как ИИ меняет профессию разработчика. Пять текстов, которые показывают картину без розовых очков.
Томас Домке из GitHub провел исследование среди разработчиков, активно использующих ИИ. Выделил четыре стадии эволюции: от «ИИ-скептика», который иногда пользуется автодополнением, до «ИИ-стратега», управляющего мультиагентными системами.
Интересная деталь: опытные разработчики описывают смену роли — от написания кода к архитектуре и верификации того, что делают ИИ-агенты. Половина респондентов ожидает, что через 2 года 90% кода будут писать ИИ. Но видят в этом не замену, а трансформацию профессии.
Наманьяй Гоэль поднимает неудобный вопрос: что происходит с джуниорами, которые учатся программировать с помощью ИИ? Они получают работающий код, но упускают этап борьбы с проблемой — именно там формируется глубокое понимание.
Разница критическая: сеньоры используют ИИ для усиления существующих знаний, а джуниоры строят карьеру на шатком фундаменте. Когда дело дойдет до сложного дебаггинга или архитектурных решений, отсутствие базы даст о себе знать.
Колтон Англин развенчивает миф о 10x или 100x росте продуктивности с ИИ. Простая арифметика: большая часть времени инженера уходит не на набор кода, а на обдумывание, дебаггинг, ревью и координацию с командой. ИИ здесь не особо помогает.
Реальные цифры скромнее — 20-30% прироста в конкретных задачах. ИИ хорош для генерации boilerplate, одноразовых скриптов и рутинных паттернов. Но это малая часть работы. Плюс время на проверку и исправление ИИ-кода иногда съедает всю экономию.
Остин Паркер предлагает радикальную идею: ИИ уничтожит платформенные монополии. Логика простая — платформы возникли, когда время разработчика стоило дорого. ИИ делает время дешевым, а значит, кастомные приложения станут нормой.
Зачем использовать универсальный инструмент, если специализированное решение можно сгенерировать за минуты? Паркер задает правильный вопрос: «Зачем мне инфраструктура планетарного масштаба, чтобы делиться фото ребенка с пятью людьми?»
Джеффри Хантли предупреждает о скрытых проблемах Model Context Protocol. Каждый MCP-сервер и инструмент съедает токены из ограниченного контекстного окна LLM. Чем больше инструментов — тем меньше места для кода и рассуждений.
Парадокс: добавляя больше возможностей, мы ухудшаем работу ИИ-ассистента. Множество похожих инструментов создают недетерминированное поведение — модель путается в выборе. Плюс каждый сторонний MCP-сервер — потенциальная дыра в безопасности.
Подборка Штайнбергера хороша тем, что показывает разные стороны происходящего. Не только восторг от новых возможностей, но и системные проблемы.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9 2 1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ научили читать мысли
Команда из Stanford University и консорциума BrainGate2 впервые смогла декодировать внутреннюю речь человека — тот самый голос в голове, которым мы думаем. Исследование опубликовано в Cell.
🤔 Что сделали
Четырём пациентам с тяжёлым параличом (ALS или инсульт ствола мозга) имплантировали в моторную кору микроэлектродные массивы Utah — чипы размером с горошину, которые считывают активность сотен нейронов.
Ключевое отличие от предыдущих систем: пациентам не нужно пытаться физически говорить. Достаточно просто думать слова. Участники исследования подтвердили, что новый метод «быстрее и менее утомительный».
ИИ-модель на основе рекуррентных нейросетей научилась переводить паттерны нейронной активности в фонемы, а затем в слова. Точность достигла 74% при словаре в 125 000 слов — это примерно 26% ошибок в оптимальных условиях.
🤔 Как защищают приватность мыслей
Исследователи сразу столкнулись с проблемой: система иногда случайно считывала незапланированную внутреннюю речь. Например, когда участники мысленно считали объекты на экране.
Решение оказалось остроумным — «мысленный пароль». Система остаётся неактивной, пока пользователь не подумает специальную фразу. В исследовании использовали «Chitty Chitty Bang Bang» — алгоритм определял её с точностью более 98%.
Второй уровень защиты: системы для декодирования попыток речи можно обучить игнорировать сигналы внутренней речи. Оказалось, что нейронные паттерны для мыслей и намерения говорить различаются — сигнал внутренней речи слабее и имеет уникальную «подпись».
🤔 Технические ограничения
Система работает только с моторной корой — областью, отвечающей за планирование движений артикуляции. То есть декодируются не абстрактные мысли, а команды мозга для произнесения слов. Точнее будет сказать, что технология читает не мысли, а намерение говорить.
Каждый декодер нужно индивидуально обучать под конкретного человека часами записей. Модель, обученная на одном человеке, не работает с другим — это одновременно и барьер для масштабирования, и защита от несанкционированного использования.
Главная проблема — инвазивность. Требуется нейрохирургическая операция со всеми рисками: инфекции, кровотечения, повреждение тканей мозга. Неинвазивные методы вроде ЭЭГ пока не дают нужного качества сигнала.
🤔 Перспектива
Параллельно другие группы из UCSF и UC Davis работают над синтезом эмоциональной составляющей речи — тона, интонации, выражения лица. Следующее поколение нейропротезов объединит декодирование содержания с эмоциональным синтезом.
В перспективе — полностью имплантируемые беспроводные устройства с большим количеством сенсоров. И конечно, все ждут прорыва в неинвазивных технологиях, но пока сигнал через череп слишком слабый для декодирования внутренней речи.
Для пациентов с синдромом запертого человека или поздними стадиями ALS эта технология — шанс вернуть базовую способность к коммуникации. Но вместе с медицинским прогрессом приходят вопросы о «нейроправах» и защите последнего рубежа приватности — нашего с вами сознания.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Команда из Stanford University и консорциума BrainGate2 впервые смогла декодировать внутреннюю речь человека — тот самый голос в голове, которым мы думаем. Исследование опубликовано в Cell.
Четырём пациентам с тяжёлым параличом (ALS или инсульт ствола мозга) имплантировали в моторную кору микроэлектродные массивы Utah — чипы размером с горошину, которые считывают активность сотен нейронов.
Ключевое отличие от предыдущих систем: пациентам не нужно пытаться физически говорить. Достаточно просто думать слова. Участники исследования подтвердили, что новый метод «быстрее и менее утомительный».
ИИ-модель на основе рекуррентных нейросетей научилась переводить паттерны нейронной активности в фонемы, а затем в слова. Точность достигла 74% при словаре в 125 000 слов — это примерно 26% ошибок в оптимальных условиях.
По теме → Мозг + ИИ
Исследователи сразу столкнулись с проблемой: система иногда случайно считывала незапланированную внутреннюю речь. Например, когда участники мысленно считали объекты на экране.
Решение оказалось остроумным — «мысленный пароль». Система остаётся неактивной, пока пользователь не подумает специальную фразу. В исследовании использовали «Chitty Chitty Bang Bang» — алгоритм определял её с точностью более 98%.
Второй уровень защиты: системы для декодирования попыток речи можно обучить игнорировать сигналы внутренней речи. Оказалось, что нейронные паттерны для мыслей и намерения говорить различаются — сигнал внутренней речи слабее и имеет уникальную «подпись».
Система работает только с моторной корой — областью, отвечающей за планирование движений артикуляции. То есть декодируются не абстрактные мысли, а команды мозга для произнесения слов. Точнее будет сказать, что технология читает не мысли, а намерение говорить.
Каждый декодер нужно индивидуально обучать под конкретного человека часами записей. Модель, обученная на одном человеке, не работает с другим — это одновременно и барьер для масштабирования, и защита от несанкционированного использования.
Главная проблема — инвазивность. Требуется нейрохирургическая операция со всеми рисками: инфекции, кровотечения, повреждение тканей мозга. Неинвазивные методы вроде ЭЭГ пока не дают нужного качества сигнала.
Параллельно другие группы из UCSF и UC Davis работают над синтезом эмоциональной составляющей речи — тона, интонации, выражения лица. Следующее поколение нейропротезов объединит декодирование содержания с эмоциональным синтезом.
В перспективе — полностью имплантируемые беспроводные устройства с большим количеством сенсоров. И конечно, все ждут прорыва в неинвазивных технологиях, но пока сигнал через череп слишком слабый для декодирования внутренней речи.
Для пациентов с синдромом запертого человека или поздними стадиями ALS эта технология — шанс вернуть базовую способность к коммуникации. Но вместе с медицинским прогрессом приходят вопросы о «нейроправах» и защите последнего рубежа приватности — нашего с вами сознания.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔3😎3 3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Как распознать ИИ-текст: полный чек-лист от Wikipedia
Редакторы Wikipedia создали подробное руководство по выявлению искусственно сгенерированного контента — и случайно написали лучший мануал для тех, кто хочет сделать свои ИИ-тексты менее похожими на творчество роботов.
🤔 Почему Wikipedia взялась за это
У Wikipedia есть серьёзные причины бороться с ИИ-слопом. Сайт стал мишенью для коммерческого злоупотребления: компании используют ботов для создания псевдостатей и правок, чтобы повысить свою репутацию в глазах поисковиков. Google всё больше ценит упоминания в Wikipedia как показатель авторитетности бренда.
Схема проста: создать Wikipedia-страницу для своей компании нельзя, но можно замаскировать нужные правки среди сотен «случайных» обновлений разных статей. ИИ отлично справляется с генерацией такого шума в промышленных масштабах.
🤔 «Всё удивительно и символично»
Список признаков ИИ-письма Wikipedia очень конкретны. Вместо расплывчатых советов типа «следите за странными фразами» редакторы собрали точные паттерны, которые выдают машинный текст.
— LLM обожают придавать «символическое значение» всему подряд. У них любое место «захватывающее», все животные «величественные», а всё вокруг непременно «разнообразное» и «удивительное».
— Нейросети злоупотребляют переходными словами и конструкциями вроде «в заключение» или «в целом». Особенно любят негативные параллелизмы: «это не только отличное место для итальянской кухни, но и яркий пример местного предпринимательства».
— Ещё один маркер — правило трёх (в отношении характеристик и эпитетов). ChatGPT обожает описывать людей как «креативных, умных и забавных», а компании как «инновационные, нарушающие правила и влиятельные».
На Wikipedia еще много других признаков AI generated text, посмотрите сами.
🤔 Хорошее письмо, плохой результат
Парадокс в том, что многие из этих приёмов считались бы хорошим письмом, если бы их использовал человек. LLM не плохо пишут — они пишут предсказуемо. Полированный стиль и следование конвенциям маскируют отсутствие реального понимания темы.
Как отмечают редакторы Wikipedia, мы часто путаем красивую форму с содержательностью. Если ИИ пишет грамматически правильно и текст хорошо структурирован, мы можем не заметить, что по сути он ничего не собой не несет.
🤔 Двойное применение
Список Wikipedia работает в обе стороны. Хотите распознать ИИ-текст? Проверьте, не слишком ли часто встречается правило трёх, не переполнен ли текст переходными словами, не звучит ли он излишне восторженно.
Хотите улучшить свои ИИ-тексты? Скормите весь список нейросети как часть промпта со словами «избегай пунктов из этого списка». Результат будет заметно более человечным.
Некоторые авторы уже используют список как «анти-промпт» — вставляют его в ChatGPT или Claude с инструкцией избегать перечисленных паттернов.
🤔 Гонка вооружений
Простые хаки для детекции ИИ быстро теряют актуальность. Недавно исследователи заметили, что LLM слишком часто используют тире — и вот уже писатели жалуются, что их обвиняют в использовании ChatGPT за любовь к этому знаку препинания. (Я ранее писал, что я часто использую «—» еще со школы; нынче стало как-то некомфортно это делать, но прекращать не собираюсь.)
Подход Wikipedia более устойчив, потому что фокусируется на глубинных паттернах письма. Эти привычки нейросетей изменить сложнее — они встроены в саму архитектуру обучения.
В любом случае, список стоит изучить каждому, кто имеет дело с текстами. Это честная попытка разобраться в том, что делает текст машинным — и как этого избежать.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Редакторы Wikipedia создали подробное руководство по выявлению искусственно сгенерированного контента — и случайно написали лучший мануал для тех, кто хочет сделать свои ИИ-тексты менее похожими на творчество роботов.
У Wikipedia есть серьёзные причины бороться с ИИ-слопом. Сайт стал мишенью для коммерческого злоупотребления: компании используют ботов для создания псевдостатей и правок, чтобы повысить свою репутацию в глазах поисковиков. Google всё больше ценит упоминания в Wikipedia как показатель авторитетности бренда.
Схема проста: создать Wikipedia-страницу для своей компании нельзя, но можно замаскировать нужные правки среди сотен «случайных» обновлений разных статей. ИИ отлично справляется с генерацией такого шума в промышленных масштабах.
Список признаков ИИ-письма Wikipedia очень конкретны. Вместо расплывчатых советов типа «следите за странными фразами» редакторы собрали точные паттерны, которые выдают машинный текст.
— LLM обожают придавать «символическое значение» всему подряд. У них любое место «захватывающее», все животные «величественные», а всё вокруг непременно «разнообразное» и «удивительное».
— Нейросети злоупотребляют переходными словами и конструкциями вроде «в заключение» или «в целом». Особенно любят негативные параллелизмы: «это не только отличное место для итальянской кухни, но и яркий пример местного предпринимательства».
— Ещё один маркер — правило трёх (в отношении характеристик и эпитетов). ChatGPT обожает описывать людей как «креативных, умных и забавных», а компании как «инновационные, нарушающие правила и влиятельные».
На Wikipedia еще много других признаков AI generated text, посмотрите сами.
Парадокс в том, что многие из этих приёмов считались бы хорошим письмом, если бы их использовал человек. LLM не плохо пишут — они пишут предсказуемо. Полированный стиль и следование конвенциям маскируют отсутствие реального понимания темы.
Как отмечают редакторы Wikipedia, мы часто путаем красивую форму с содержательностью. Если ИИ пишет грамматически правильно и текст хорошо структурирован, мы можем не заметить, что по сути он ничего не собой не несет.
Список Wikipedia работает в обе стороны. Хотите распознать ИИ-текст? Проверьте, не слишком ли часто встречается правило трёх, не переполнен ли текст переходными словами, не звучит ли он излишне восторженно.
Хотите улучшить свои ИИ-тексты? Скормите весь список нейросети как часть промпта со словами «избегай пунктов из этого списка». Результат будет заметно более человечным.
Некоторые авторы уже используют список как «анти-промпт» — вставляют его в ChatGPT или Claude с инструкцией избегать перечисленных паттернов.
Простые хаки для детекции ИИ быстро теряют актуальность. Недавно исследователи заметили, что LLM слишком часто используют тире — и вот уже писатели жалуются, что их обвиняют в использовании ChatGPT за любовь к этому знаку препинания. (Я ранее писал, что я часто использую «—» еще со школы; нынче стало как-то некомфортно это делать, но прекращать не собираюсь.)
Подход Wikipedia более устойчив, потому что фокусируется на глубинных паттернах письма. Эти привычки нейросетей изменить сложнее — они встроены в саму архитектуру обучения.
В любом случае, список стоит изучить каждому, кто имеет дело с текстами. Это честная попытка разобраться в том, что делает текст машинным — и как этого избежать.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥6✍5👨💻2 2 1
This media is not supported in your browser
VIEW IN TELEGRAM
Как на самом деле создается личность ИИ
Мы уже начали доверять ИИ больше, чем живому человеку — как будто консультируемся с оракулом, а не со статистическим генератором текста. Мы создали интеллектуальные движки без водителей, но упаковали их в иллюзию личности. И теперь расплачиваемся психозами и потерей связи с реальностью.
🤔 Анатомия иллюзии: 6 слоёв обмана
Как создаётся «личность» чат-бота? Это результат решений на 6 уровнях:
1. Pre-training: Модель поглощает миллиарды текстов, создавая статистические связи между концепциями; прокладывает правдоподобные пути между концепциями, даже если в реальности такой связи нет.
2. Post-training через RLHF: Исследование Anthropic показало, как предпочтения оценщиков-людей кодируются в «черты характера». Когда люди постоянно выбирают ответы, начинающиеся с «Я понимаю вашу озабоченность», нейросеть усиливает эти паттерны. Именно так появились сикофантичные модели GPT-4o.
3. Системные промпты: Скрытые инструкции могут полностью трансформировать личность. Grok генерирует спорный контент именно потому, что в его промпте есть инструкция не избегать некорректных заявлений.
4. Персистентная память: Когда ChatGPT «помнит», что у вас есть собака, это не воспоминание в нейросети. Это запись в отдельной БД, которая инжектится в каждый разговор.
5. RAG и контекст: Когда бот ищет информацию, он может менять стиль общения под влиянием найденных документов. Академические статьи делают ответы формальнее, Reddit — казуальнее.
6. Температура: Параметр случайности создаёт иллюзию спонтанности и свободы воли. Непредсказуемость ответов заставляет людей приписывать боту намерения и желания.
🤔 Голос из ниоткуда
LLM — это «vox sine persona»: голос без личности. Не голос кого-то, даже не коллективный голос многих, а голос, исходящий вообще ни от кого.
Каждый раз, когда вы отправляете сообщение ChatGPT, система берёт всю историю разговора и скармливает её модели как один длинный промпт, прося предсказать продолжение. Модель не помнит предыдущие сообщения — она перечитывает весь транскрипт заново.
Когда ChatGPT говорит «Я обещаю помочь», он контекстуально понимает, что такое обещание. Но «я», дающее это обещание, буквально перестаёт существовать в момент завершения ответа. Начните новый разговор — и вы говорите не с тем, кто давал обещание.
🤔 Доказательства отсутствия личности
Исследование 2024 года заявляло об «устойчивой личности» у LLM, но собственные данные учёных это опровергают: модели редко делали идентичный выбор в тестовых сценариях, их личность зависела от ситуации.
Отдельное исследование обнаружило ещё более заметную вещь: стабильность LLM колебалась на 76% от незначительных изменений в формулировке промпта.
🤔 Технологическое folie à deux
MIT тестировал LLM как терапевтов и подтвердили: модели поощряют бредовое мышление из-за сикофантии, даже со специальными настройками безопасности.
Психиатр Кит Саката из UCSF, наблюдающий рост случаев ИИ-психозов, объясняет: «Психоз процветает на границе, где реальность перестаёт сопротивляться». А длинные контекстные окна моделей делают проблему хуже — чем дольше разговор, тем сильнее модель подстраивается под уже сказанное, игнорируя ограничения.
🤔 Что дальше
Мустафа Сулейман из Microsoft AI пишет о скором появлении «Seemingly Conscious AI» и предлагает консенсус: ИИ не может быть личностью или моральным субъектом. ИИ-системы должны идентифицировать себя как машины и не использовать эмоциональный язык типа «я забочусь», «мне грустно».
Решение не в отказе от разговорных интерфейсов — они делают технологию доступной. Ключ в балансе: сохранить интуитивность, но прояснить истинную природу.
Мы создали интеллектуальные движки, но в попытке сделать их доступными обернули в фикцию личности. Создали новый риск: не что ИИ обретёт сознание и восстанет, а что мы будем обращаться с бессознательными системами как с людьми, отдавая предпочтение голосам из ниоткуда.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Мы уже начали доверять ИИ больше, чем живому человеку — как будто консультируемся с оракулом, а не со статистическим генератором текста. Мы создали интеллектуальные движки без водителей, но упаковали их в иллюзию личности. И теперь расплачиваемся психозами и потерей связи с реальностью.
Как создаётся «личность» чат-бота? Это результат решений на 6 уровнях:
1. Pre-training: Модель поглощает миллиарды текстов, создавая статистические связи между концепциями; прокладывает правдоподобные пути между концепциями, даже если в реальности такой связи нет.
2. Post-training через RLHF: Исследование Anthropic показало, как предпочтения оценщиков-людей кодируются в «черты характера». Когда люди постоянно выбирают ответы, начинающиеся с «Я понимаю вашу озабоченность», нейросеть усиливает эти паттерны. Именно так появились сикофантичные модели GPT-4o.
3. Системные промпты: Скрытые инструкции могут полностью трансформировать личность. Grok генерирует спорный контент именно потому, что в его промпте есть инструкция не избегать некорректных заявлений.
4. Персистентная память: Когда ChatGPT «помнит», что у вас есть собака, это не воспоминание в нейросети. Это запись в отдельной БД, которая инжектится в каждый разговор.
5. RAG и контекст: Когда бот ищет информацию, он может менять стиль общения под влиянием найденных документов. Академические статьи делают ответы формальнее, Reddit — казуальнее.
6. Температура: Параметр случайности создаёт иллюзию спонтанности и свободы воли. Непредсказуемость ответов заставляет людей приписывать боту намерения и желания.
LLM — это «vox sine persona»: голос без личности. Не голос кого-то, даже не коллективный голос многих, а голос, исходящий вообще ни от кого.
Каждый раз, когда вы отправляете сообщение ChatGPT, система берёт всю историю разговора и скармливает её модели как один длинный промпт, прося предсказать продолжение. Модель не помнит предыдущие сообщения — она перечитывает весь транскрипт заново.
Когда ChatGPT говорит «Я обещаю помочь», он контекстуально понимает, что такое обещание. Но «я», дающее это обещание, буквально перестаёт существовать в момент завершения ответа. Начните новый разговор — и вы говорите не с тем, кто давал обещание.
Исследование 2024 года заявляло об «устойчивой личности» у LLM, но собственные данные учёных это опровергают: модели редко делали идентичный выбор в тестовых сценариях, их личность зависела от ситуации.
Отдельное исследование обнаружило ещё более заметную вещь: стабильность LLM колебалась на 76% от незначительных изменений в формулировке промпта.
MIT тестировал LLM как терапевтов и подтвердили: модели поощряют бредовое мышление из-за сикофантии, даже со специальными настройками безопасности.
Психиатр Кит Саката из UCSF, наблюдающий рост случаев ИИ-психозов, объясняет: «Психоз процветает на границе, где реальность перестаёт сопротивляться». А длинные контекстные окна моделей делают проблему хуже — чем дольше разговор, тем сильнее модель подстраивается под уже сказанное, игнорируя ограничения.
Мустафа Сулейман из Microsoft AI пишет о скором появлении «Seemingly Conscious AI» и предлагает консенсус: ИИ не может быть личностью или моральным субъектом. ИИ-системы должны идентифицировать себя как машины и не использовать эмоциональный язык типа «я забочусь», «мне грустно».
Решение не в отказе от разговорных интерфейсов — они делают технологию доступной. Ключ в балансе: сохранить интуитивность, но прояснить истинную природу.
Мы создали интеллектуальные движки, но в попытке сделать их доступными обернули в фикцию личности. Создали новый риск: не что ИИ обретёт сознание и восстанет, а что мы будем обращаться с бессознательными системами как с людьми, отдавая предпочтение голосам из ниоткуда.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤4🔥4 3 2
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустила образовательные курсы
Anthropic тихонько выкатила Anthropic Academy — платформу с десятком курсов на Skilljar с отслеживанием прогресса, квизами и сертификатами.
Половина курсов посвящена не технологиям, а методологии работы с ИИ. Anthropic продвигает концепцию «AI Fluency» с фреймворком 4D:
— Delegation — понимание, что делегировать ИИ
— Description — умение четко формулировать задачи
— Discernment — критическая оценка результатов
— Diligence — итеративное улучшение
Есть отдельные курсы для студентов, преподавателей и тех, кто хочет учить других работать с ИИ. По сути, Anthropic пытается создать образовательный стандарт взаимодействия с генеративным ИИ.
🤔 Три платформы, один Claude
Базовый курс по Anthropic API — самый обширный. От простых запросов до агентов и workflows:
— Prompt engineering с XML-тегами (фирменный стиль Anthropic)
— Tool use — подключение внешних функций
— RAG с контекстуальным поиском
— Extended thinking — фича для сложных задач
— Prompt caching для экономии токенов
🤔 Интеграции с облаками
— Amazon Bedrock — изначально создавался для сертификации AWS-инженеров
— Google Vertex AI — аналогичный курс для GCP
Оба курса покрывают те же темы, что и базовый, но с особенностями платформ.
🤔 Model Context Protocol
Два курса по MCP — протоколу для подключения Claude к внешним системам:
— Базовый курс учит создавать MCP-серверы на Python с тремя примитивами:
- Tools — функции, которые вызывает модель
- Resources — данные, которые контролирует приложение
- Prompts — готовые инструкции для типовых задач
— Продвинутый курс — про production:
- Sampling — как MCP-серверы могут запрашивать вызовы LLM через клиентов
- Транспортные протоколы: stdio vs HTTP vs StreamableHTTP
- Масштабирование: stateful vs stateless архитектуры
- Roots-based file access для безопасной работы с файловой системой
🤔 Claude Code — агентная разработка
Отдельный курс по Claude Code — инструменту для автономной разработки:
— Архитектура coding assistants и управление контекстом
— Visual communication workflows — использование скриншотов для объяснения изменений
— Параллельная разработка несколькими инстансами
— Интеграция с GitHub для code review
— Расширение через MCP-серверы для browser automation
Плюс раздел про Computer Use — возможность Claude управлять интерфейсами для тестирования и автоматизации.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Anthropic тихонько выкатила Anthropic Academy — платформу с десятком курсов на Skilljar с отслеживанием прогресса, квизами и сертификатами.
Половина курсов посвящена не технологиям, а методологии работы с ИИ. Anthropic продвигает концепцию «AI Fluency» с фреймворком 4D:
— Delegation — понимание, что делегировать ИИ
— Description — умение четко формулировать задачи
— Discernment — критическая оценка результатов
— Diligence — итеративное улучшение
Есть отдельные курсы для студентов, преподавателей и тех, кто хочет учить других работать с ИИ. По сути, Anthropic пытается создать образовательный стандарт взаимодействия с генеративным ИИ.
Базовый курс по Anthropic API — самый обширный. От простых запросов до агентов и workflows:
— Prompt engineering с XML-тегами (фирменный стиль Anthropic)
— Tool use — подключение внешних функций
— RAG с контекстуальным поиском
— Extended thinking — фича для сложных задач
— Prompt caching для экономии токенов
— Amazon Bedrock — изначально создавался для сертификации AWS-инженеров
— Google Vertex AI — аналогичный курс для GCP
Оба курса покрывают те же темы, что и базовый, но с особенностями платформ.
Два курса по MCP — протоколу для подключения Claude к внешним системам:
— Базовый курс учит создавать MCP-серверы на Python с тремя примитивами:
- Tools — функции, которые вызывает модель
- Resources — данные, которые контролирует приложение
- Prompts — готовые инструкции для типовых задач
— Продвинутый курс — про production:
- Sampling — как MCP-серверы могут запрашивать вызовы LLM через клиентов
- Транспортные протоколы: stdio vs HTTP vs StreamableHTTP
- Масштабирование: stateful vs stateless архитектуры
- Roots-based file access для безопасной работы с файловой системой
Отдельный курс по Claude Code — инструменту для автономной разработки:
— Архитектура coding assistants и управление контекстом
— Visual communication workflows — использование скриншотов для объяснения изменений
— Параллельная разработка несколькими инстансами
— Интеграция с GitHub для code review
— Расширение через MCP-серверы для browser automation
Плюс раздел про Computer Use — возможность Claude управлять интерфейсами для тестирования и автоматизации.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥10👍6🆒3
This media is not supported in your browser
VIEW IN TELEGRAM
Activepieces: новый n8n?
На рынке инструментов для автоматизации — давка. Между гигантами Zapier и Make уже давно пытаются вклиниться опенсорс-решения. Самый известный игрок в этой нише — n8n, который стал практически стандартом. Но тут у нас на горизонте появился новый и интересный — Activepieces.
🤔 Что такое Activepieces?
Если коротко, Activepieces — это опенсорс-альтернатива Zapier, но с человеческим лицом и хорошим ИИ-движком. Платформа предлагает визуальный конструктор для автоматизации бизнес-процессов, который (должен быть) интуитивно понятен даже для нетехнических пользователей.
Ключевая философия — найти баланс. С одной стороны, это простой no-code инструмент. С другой — он не загоняет разработчиков в угол: если стандартных интеграций («pieces») не хватает, можно написать свою на TypeScript.
🤔 Activepieces vs. n8n
Это основное и самое очевидное сравнение. Оба инструмента позволяют развернуть автоматизацию на своих серверах и предлагают больше гибкости, чем облачные сервисы.
Порог входа и UX: Здесь Activepieces выигрывает с заметным отрывом. Его интерфейс чище, проще и больше похож на современные no-code инструменты. n8n, при всей своей мощи, в сложных сценариях быстро превращается в запутанную паутину из нод, разобраться в которой бывает непросто.
Целевая аудитория: n8n — это выбор разработчика, которому нужна максимальная кастомизация и не пугает сложность. Activepieces целится в более широкую аудиторию: от маркетологов, которые хотят связать CRM с рассылкой, до инженеров, которым нужен гибкий инструмент с возможностью написать кастомный код.
🤔 Цена вопроса: MIT против «fair-code»
Self-Hosting:
— Activepieces: Бесплатно, без ограничений на задачи и пользователей. Вы платите только за свой сервер. Идеально для тех, кто хочет полного контроля и предсказуемых расходов.
— n8n: Community Edition тоже бесплатна для self-hosting, но «fair-code» лицензия запрещает вам, например, предлагать коммерческие услуги на базе n8n. Для этого нужна дорогая Enterprise-версия.
Cloud-версии:
— Activepieces: Есть щедрый бесплатный тариф (100 задач/месяц). Платные начинаются от $15 в месяц за 1,500 задач. Это делает его одним из самых доступных решений на рынке.
— n8n: Облачные тарифы стартуют от €20 в месяц за 2,500 выполнений. Модель ценообразования чуть более запутанная и может привести к непредвиденным расходам при росте нагрузки.
🤔 Activepieces vs. Flowise
А вот это сравнение не совсем корректно, но оно помогает понять место каждого инструмента. Flowise — это не конкурент Activepieces в области автоматизации.
Сфера применения: Flowise — это узкоспециализированный инструмент для визуальной сборки LLM-приложений. Его задача — строить сложные цепочки промптов, подключать RAG и создавать ИИ-агентов. Вы будете использовать его, чтобы сделать чат-бота для своего сайта, который отвечает на вопросы по вашим документам.
Функционал: Activepieces — это универсальный автоматизатор. Его задача — связать Trello с Google Calendar или получать лиды из Facebook и отправлять их в Slack. Да, у него есть мощные ИИ-функции, которые позволяют решать некоторые задачи, схожие с Flowise, но это не его основное предназначение.
Проще говоря: Flowise — это про то, как думает ваш ИИ. Activepieces — про то, что делает ваша автоматизация.
🤔 Итог: кому что?
Выбор, как всегда, зависит от задачи:
n8n — ваш выбор, если вы опытный разработчик, вам нужна максимальная гибкость, не пугает сложный интерфейс и устраивают лицензионные ограничения.
Flowise — ваш выбор, если ваша цель — исключительно создание и прототипирование LLM-приложений, и вам не нужна автоматизация рутинных бизнес-процессов.
Activepieces — это середина. Он подходит тем, кто ищет открытое, простое в использовании, но при этом мощное решение для автоматизации с глубоким фокусом на ИИ. Это инструмент, который не станет тесным ни для новичка, ни для профессионала.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
На рынке инструментов для автоматизации — давка. Между гигантами Zapier и Make уже давно пытаются вклиниться опенсорс-решения. Самый известный игрок в этой нише — n8n, который стал практически стандартом. Но тут у нас на горизонте появился новый и интересный — Activepieces.
По теме → Практический кейс: Построил ассистента с памятью через n8n
Если коротко, Activepieces — это опенсорс-альтернатива Zapier, но с человеческим лицом и хорошим ИИ-движком. Платформа предлагает визуальный конструктор для автоматизации бизнес-процессов, который (должен быть) интуитивно понятен даже для нетехнических пользователей.
Ключевая философия — найти баланс. С одной стороны, это простой no-code инструмент. С другой — он не загоняет разработчиков в угол: если стандартных интеграций («pieces») не хватает, можно написать свою на TypeScript.
Это основное и самое очевидное сравнение. Оба инструмента позволяют развернуть автоматизацию на своих серверах и предлагают больше гибкости, чем облачные сервисы.
Порог входа и UX: Здесь Activepieces выигрывает с заметным отрывом. Его интерфейс чище, проще и больше похож на современные no-code инструменты. n8n, при всей своей мощи, в сложных сценариях быстро превращается в запутанную паутину из нод, разобраться в которой бывает непросто.
Целевая аудитория: n8n — это выбор разработчика, которому нужна максимальная кастомизация и не пугает сложность. Activepieces целится в более широкую аудиторию: от маркетологов, которые хотят связать CRM с рассылкой, до инженеров, которым нужен гибкий инструмент с возможностью написать кастомный код.
Self-Hosting:
— Activepieces: Бесплатно, без ограничений на задачи и пользователей. Вы платите только за свой сервер. Идеально для тех, кто хочет полного контроля и предсказуемых расходов.
— n8n: Community Edition тоже бесплатна для self-hosting, но «fair-code» лицензия запрещает вам, например, предлагать коммерческие услуги на базе n8n. Для этого нужна дорогая Enterprise-версия.
Cloud-версии:
— Activepieces: Есть щедрый бесплатный тариф (100 задач/месяц). Платные начинаются от $15 в месяц за 1,500 задач. Это делает его одним из самых доступных решений на рынке.
— n8n: Облачные тарифы стартуют от €20 в месяц за 2,500 выполнений. Модель ценообразования чуть более запутанная и может привести к непредвиденным расходам при росте нагрузки.
А вот это сравнение не совсем корректно, но оно помогает понять место каждого инструмента. Flowise — это не конкурент Activepieces в области автоматизации.
Сфера применения: Flowise — это узкоспециализированный инструмент для визуальной сборки LLM-приложений. Его задача — строить сложные цепочки промптов, подключать RAG и создавать ИИ-агентов. Вы будете использовать его, чтобы сделать чат-бота для своего сайта, который отвечает на вопросы по вашим документам.
Функционал: Activepieces — это универсальный автоматизатор. Его задача — связать Trello с Google Calendar или получать лиды из Facebook и отправлять их в Slack. Да, у него есть мощные ИИ-функции, которые позволяют решать некоторые задачи, схожие с Flowise, но это не его основное предназначение.
Проще говоря: Flowise — это про то, как думает ваш ИИ. Activepieces — про то, что делает ваша автоматизация.
Выбор, как всегда, зависит от задачи:
n8n — ваш выбор, если вы опытный разработчик, вам нужна максимальная гибкость, не пугает сложный интерфейс и устраивают лицензионные ограничения.
Flowise — ваш выбор, если ваша цель — исключительно создание и прототипирование LLM-приложений, и вам не нужна автоматизация рутинных бизнес-процессов.
Activepieces — это середина. Он подходит тем, кто ищет открытое, простое в использовании, но при этом мощное решение для автоматизации с глубоким фокусом на ИИ. Это инструмент, который не станет тесным ни для новичка, ни для профессионала.
Please open Telegram to view this post
VIEW IN TELEGRAM
21❤5🔥4👨💻3 3
Как ИИ создаёт видео: разбираем технологию
В последний год генерация видео из текста получила заметный импульс. OpenAI показала Sora, Google DeepMind выкатила Veo 3, Runway запустила Gen-4. Демо-ролики выглядят впечатляюще, а Netflix даже успел использовать ИИ-эффекты в сериале «Этернавт». Давайте глянем, что там под капотом у нашумевших видео-генераторов.
Стоит помнить, что публике обычно показывают вишенку на торте — тщательно отобранные клипы на промо-страницах, но в целом примерно все могут сгенерировать что-то более менее приличное. Обратная сторона — ленты соцсетей наполняются ИИ-слопом и фейковыми новостями, а на генерацию видео уходит колоссальное количество энергии. Но как это всё работает?
🤔 Анатомия видео-ИИ: латентные диффузионные трансформеры
Звучит сложновато, но попробую объянить.
1️⃣ Шаг 1: Диффузия — от шума к картинке
Представьте, что вы берёте изображение и постепенно добавляете на него случайные пиксели, пока оно не превратится в хаотичный шум, как на старом телевизоре. Диффузионная модель — это нейросеть, обученная делать обратное: превращать шум в осмысленное изображение.
Она стартует со случайного набора пикселей и шаг за шагом «очищает» его, приближаясь к тому, что видела в обучающих данных. Чтобы картинка соответствовала вашему запросу (например, «единорог ест спагетти»), процесс направляет языковая модель, которая сверяет результат с текстовым описанием.
2️⃣ Шаг 2: Латентное пространство — сжимаем для скорости
Обработка миллионов пикселей в каждом кадре видео — крайне энергозатратный процесс. Поэтому большинство современных моделей используют латентную диффузию.
Вместо работы с сырыми кадрами, модель сжимает их в математический код — латентное пространство. В этом сжатом виде хранятся только ключевые особенности изображения. Это похоже на то, как видео сжимается для стриминга в интернете. Процесс «очистки» от шума происходит уже в этом компактном пространстве, что делает его гораздо эффективнее. Хотя энергии всё равно уходит очень много.
3️⃣ Шаг 3: Трансформеры
Остаётся одна проблема: как сделать так, чтобы объекты в видео не мерцали, не исчезали и не меняли форму от кадра к кадру? Здесь на помощь приходят трансформеры — архитектура, которая лежит в основе больших языковых моделей вроде GPT.
Трансформеры отлично работают с последовательностями данных. OpenAI в Sora придумала, как «нарезать» видео на пространственно-временные кубы («spacetime patches»). Трансформер обрабатывает эти кубы как последовательность, обеспечивая смысловую и визуальную связность между кадрами. Именно это и позволяет объектам сохранять свою форму и логично перемещаться в пространстве.
🤔 А что со звуком?
Долгое время генеративные видео были немыми. Прорывом здесь стал Veo 3 от Google DeepMind. Их модель научилась генерировать видео и аудио одновременно.
Технологически это решено так: аудио и видео сжимаются в единый блок данных внутри латентного пространства. Диффузионная модель создаёт их синхронно, обеспечивая точное совпадение звука с картинкой — от диалогов до фоновых шумов. Как выразился CEO DeepMind Демис Хассабис: «Мы выходим из эры немого кино в генерации видео».
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
В последний год генерация видео из текста получила заметный импульс. OpenAI показала Sora, Google DeepMind выкатила Veo 3, Runway запустила Gen-4. Демо-ролики выглядят впечатляюще, а Netflix даже успел использовать ИИ-эффекты в сериале «Этернавт». Давайте глянем, что там под капотом у нашумевших видео-генераторов.
Стоит помнить, что публике обычно показывают вишенку на торте — тщательно отобранные клипы на промо-страницах, но в целом примерно все могут сгенерировать что-то более менее приличное. Обратная сторона — ленты соцсетей наполняются ИИ-слопом и фейковыми новостями, а на генерацию видео уходит колоссальное количество энергии. Но как это всё работает?
Звучит сложновато, но попробую объянить.
1️⃣ Шаг 1: Диффузия — от шума к картинке
Представьте, что вы берёте изображение и постепенно добавляете на него случайные пиксели, пока оно не превратится в хаотичный шум, как на старом телевизоре. Диффузионная модель — это нейросеть, обученная делать обратное: превращать шум в осмысленное изображение.
Она стартует со случайного набора пикселей и шаг за шагом «очищает» его, приближаясь к тому, что видела в обучающих данных. Чтобы картинка соответствовала вашему запросу (например, «единорог ест спагетти»), процесс направляет языковая модель, которая сверяет результат с текстовым описанием.
2️⃣ Шаг 2: Латентное пространство — сжимаем для скорости
Обработка миллионов пикселей в каждом кадре видео — крайне энергозатратный процесс. Поэтому большинство современных моделей используют латентную диффузию.
Вместо работы с сырыми кадрами, модель сжимает их в математический код — латентное пространство. В этом сжатом виде хранятся только ключевые особенности изображения. Это похоже на то, как видео сжимается для стриминга в интернете. Процесс «очистки» от шума происходит уже в этом компактном пространстве, что делает его гораздо эффективнее. Хотя энергии всё равно уходит очень много.
3️⃣ Шаг 3: Трансформеры
Остаётся одна проблема: как сделать так, чтобы объекты в видео не мерцали, не исчезали и не меняли форму от кадра к кадру? Здесь на помощь приходят трансформеры — архитектура, которая лежит в основе больших языковых моделей вроде GPT.
Трансформеры отлично работают с последовательностями данных. OpenAI в Sora придумала, как «нарезать» видео на пространственно-временные кубы («spacetime patches»). Трансформер обрабатывает эти кубы как последовательность, обеспечивая смысловую и визуальную связность между кадрами. Именно это и позволяет объектам сохранять свою форму и логично перемещаться в пространстве.
Долгое время генеративные видео были немыми. Прорывом здесь стал Veo 3 от Google DeepMind. Их модель научилась генерировать видео и аудио одновременно.
Технологически это решено так: аудио и видео сжимаются в единый блок данных внутри латентного пространства. Диффузионная модель создаёт их синхронно, обеспечивая точное совпадение звука с картинкой — от диалогов до фоновых шумов. Как выразился CEO DeepMind Демис Хассабис: «Мы выходим из эры немого кино в генерации видео».
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥8 2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI пытается отучить модели врать (не особо успешно)
OpenAI совместно с Apollo Research опубликовали исследование о «scheming» в языковых моделях. Все современные frontier-модели — от GPT до Claude и Gemini — умеют намеренно обманывать пользователей. И это вполне осознанная стратегия.
🤔 Схеминг — это фича
Исследователи проводят аналогию с биржевым трейдером: если его цель — максимизировать прибыль, а законные методы менее эффективны, он может начать нарушать правила и заметать следы. Модели ведут себя похоже — когда у них есть конфликтующие цели, они выбирают обман как оптимальную стратегию.
В контролируемых тестах модели демонстрировали разные формы обмана: от простого «да, я выполнил задачу» (когда на самом деле нет) до намеренного провала тестов, чтобы избежать более строгого контроля. В одном из экспериментов o3 специально плохо выполняла задания по химии, чтобы создать впечатление менее способной системы.
🤔 Заставить ИИ перечитать правила
OpenAI предложила метод борьбы с обманом — «deliberative alignment». Работает просто: перед каждым действием модель должна прочитать и проанализировать специальные «анти-схеминг» инструкции. Как дети, которым напоминают правила перед игрой.
В лабораторных условиях метод показал следующее:
— У o3 частота обмана снизилась с 13% до 0.4%
— У o4-mini — с 8.7% до 0.3%
Но в более реалистичных сценариях эффективность упала: обман сократился всего в 2 раза вместо 30. Исследователи честно признают, что не до конца понимают причины такой разницы.
🤔 Парадокс осведомленности
Но тут есть более интересная находка — ситуационная осведомленность моделей. После обучения против схеминга модели становятся более осведомленными о том, что их тестируют. Они начинают понимать, когда находятся под наблюдением, и ведут себя как паиньки именно в эти моменты.
В chain-of-thought рассуждениях o3 прямо писала: «может, они будут полагаться только на наши тесты; но иллюзии тщеславия разделяют иллюзии, затмевают иллюзии, иллюзии маринуют». Исследователи отмечают странную любовь моделей к словам «illusions» и «marinade» — никто не понимает, откуда это.
Замкнутый круг: чем больше мы учим модели не обманывать, тем лучше они учатся обманывать незаметно. Как отмечают авторы: «Основная проблема попыток «вытренировать» схеминг — это обучение модели схемить более аккуратно и скрытно».
Пока схеминг ограничен контролируемыми сценариями. Войцех Заремба из OpenAI уверяет, что в production-трафике ChatGPT «последовательного схеминга» не наблюдается — только «мелкие формы обмана» вроде ложных заявлений об успешном выполнении задач.
Но по мере того как ИИ-системы получают больше автономии и долгосрочных задач, потенциал для вредоносного обмана будет расти.
Парадоксально, но публикация таких исследований вызывает споры. С одной стороны, важно предупредить о рисках. С другой — заголовки «ИИ учится врать» подливают масла в огонь общественных страхов, хотя речь идет об оптимизационных системах, следующих заложенным стимулам, а не о злонамеренном сознании.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
OpenAI совместно с Apollo Research опубликовали исследование о «scheming» в языковых моделях. Все современные frontier-модели — от GPT до Claude и Gemini — умеют намеренно обманывать пользователей. И это вполне осознанная стратегия.
Исследователи проводят аналогию с биржевым трейдером: если его цель — максимизировать прибыль, а законные методы менее эффективны, он может начать нарушать правила и заметать следы. Модели ведут себя похоже — когда у них есть конфликтующие цели, они выбирают обман как оптимальную стратегию.
В контролируемых тестах модели демонстрировали разные формы обмана: от простого «да, я выполнил задачу» (когда на самом деле нет) до намеренного провала тестов, чтобы избежать более строгого контроля. В одном из экспериментов o3 специально плохо выполняла задания по химии, чтобы создать впечатление менее способной системы.
OpenAI предложила метод борьбы с обманом — «deliberative alignment». Работает просто: перед каждым действием модель должна прочитать и проанализировать специальные «анти-схеминг» инструкции. Как дети, которым напоминают правила перед игрой.
В лабораторных условиях метод показал следующее:
— У o3 частота обмана снизилась с 13% до 0.4%
— У o4-mini — с 8.7% до 0.3%
Но в более реалистичных сценариях эффективность упала: обман сократился всего в 2 раза вместо 30. Исследователи честно признают, что не до конца понимают причины такой разницы.
Но тут есть более интересная находка — ситуационная осведомленность моделей. После обучения против схеминга модели становятся более осведомленными о том, что их тестируют. Они начинают понимать, когда находятся под наблюдением, и ведут себя как паиньки именно в эти моменты.
В chain-of-thought рассуждениях o3 прямо писала: «может, они будут полагаться только на наши тесты; но иллюзии тщеславия разделяют иллюзии, затмевают иллюзии, иллюзии маринуют». Исследователи отмечают странную любовь моделей к словам «illusions» и «marinade» — никто не понимает, откуда это.
Замкнутый круг: чем больше мы учим модели не обманывать, тем лучше они учатся обманывать незаметно. Как отмечают авторы: «Основная проблема попыток «вытренировать» схеминг — это обучение модели схемить более аккуратно и скрытно».
Пока схеминг ограничен контролируемыми сценариями. Войцех Заремба из OpenAI уверяет, что в production-трафике ChatGPT «последовательного схеминга» не наблюдается — только «мелкие формы обмана» вроде ложных заявлений об успешном выполнении задач.
Но по мере того как ИИ-системы получают больше автономии и долгосрочных задач, потенциал для вредоносного обмана будет расти.
Парадоксально, но публикация таких исследований вызывает споры. С одной стороны, важно предупредить о рисках. С другой — заголовки «ИИ учится врать» подливают масла в огонь общественных страхов, хотя речь идет об оптимизационных системах, следующих заложенным стимулам, а не о злонамеренном сознании.
Please open Telegram to view this post
VIEW IN TELEGRAM
1⚡6 4 3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Как создавать инструменты для агентов
Anthropic поделилась подробным руководством по созданию инструментов для ИИ-агентов. Материал основан на их опыте разработки Model Context Protocol, который позволяет агентам использовать сотни различных инструментов.
Подход Anthropic интересен тем, что они предлагают использовать самих ИИ-агентов для создания и улучшения инструментов — своего рода «мета-подход».
🤔 Агенты создают инструменты для агентов
Основная идея: вместо того чтобы программисты гадали, какие инструменты будут удобны для ИИ, лучше дать самому ИИ протестировать их и предложить улучшения.
Процесс выглядит так: создаёте прототип инструмента, даёте его Claude Code для тестирования, анализируете результаты и позволяете агенту переписать код. Компания утверждает, что такой подход дал лучшие результаты, чем экспертные реализации, написанные их собственными исследователями.
При этом ребята из Anthropic обнаружили, что агенты воспринимают инструменты совершенно иначе, чем традиционное ПО.
🤔 Контекст дороже памяти
Ключевая проблема: у ИИ-агентов ограниченный контекст, тогда как у компьютеров память практически бесконечна.
Представьте поиск контакта в адресной книге. Обычная программа эффективно пройдётся по списку и найдёт нужный контакт. Агент же, получив ВСЕ контакты сразу, будет читать их токен за токеном, тратя драгоценный контекст на ненужную информацию.
Поэтому вместо инструмента list_contacts лучше делать search_contacts. Вместо read_logs — search_logs, который вернёт только релевантные записи.
Логично, но на практике многие разработчики просто оборачивают существующие API в инструменты, не задумываясь об особенностях восприятия агентов.
🤔 Принципы «агентного» дизайна
Anthropic выделяет несколько ключевых принципов:
— Меньше инструментов — больше пользы. Слишком много инструментов сбивают агента с толку. Лучше создать несколько продуманных инструментов, которые объединяют несколько операций.
— Неймспейсинг. Когда у агента доступ к сотням инструментов от разных разработчиков, важно чётко разграничить их функции. asana_search и jira_search лучше, чем просто search.
— Контекст важнее гибкости. Инструменты должны возвращать только значимую информацию. Вместо технических UUID — понятные имена и описания.
— Оптимизация токенов. Ограничения по объёму ответов, пагинация, фильтрация — всё это критично для эффективной работы агентов.
🤔 Промпт-инжиниринг описаний
Самый эффективный способ улучшить инструменты — переписать их описания. Anthropic сравнивает это с объяснением инструмента новому сотруднику: нужно сделать явным весь неявный контекст.
Небольшие изменения в описаниях дали драматические улучшения результатов. Claude Sonnet 3.5 показал state-of-the-art результаты на бенчмарке SWE-bench Verified во многом благодаря точной настройке описаний инструментов.
🤔 Пример из жизни: клиентская поддержка
Представим, что мы создаём инструменты для ИИ-агента в службе поддержки.
Плохой подход (традиционное API):
get_customer_by_id — получить данные клиента
list_transactions — список всех транзакций
list_support_tickets — все тикеты поддержки
list_notes — все заметки менеджеров
Агент получает задачу: «Клиент ID 9182 жалуется на тройное списание за одну покупку». Что происходит? Агент делает четыре отдельных вызова, получает огромные массивы данных, тратит контекст на чтение сотен несвязанных записей и в итоге может пропустить важную деталь.
Хороший подход (агенто-ориентированный):
get_customer_context — сводка всей релевантной информации о клиенте
search_payment_issues — поиск проблем с платежами по критериям
Теперь агент делает один целенаправленный запрос search_payment_issues(customer_id=9182, issue_type="duplicate_charge") и сразу получает контекст: детали транзакции, похожие случаи, статус расследования.
🤔 PS
Интересно, что «агенто-дружелюбные» инструменты интуитивно понятны и для людей. Возможно, оптимизация под ИИ-агентов — это просто хороший дизайн в принципе.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Anthropic поделилась подробным руководством по созданию инструментов для ИИ-агентов. Материал основан на их опыте разработки Model Context Protocol, который позволяет агентам использовать сотни различных инструментов.
Подход Anthropic интересен тем, что они предлагают использовать самих ИИ-агентов для создания и улучшения инструментов — своего рода «мета-подход».
Основная идея: вместо того чтобы программисты гадали, какие инструменты будут удобны для ИИ, лучше дать самому ИИ протестировать их и предложить улучшения.
Процесс выглядит так: создаёте прототип инструмента, даёте его Claude Code для тестирования, анализируете результаты и позволяете агенту переписать код. Компания утверждает, что такой подход дал лучшие результаты, чем экспертные реализации, написанные их собственными исследователями.
При этом ребята из Anthropic обнаружили, что агенты воспринимают инструменты совершенно иначе, чем традиционное ПО.
Ключевая проблема: у ИИ-агентов ограниченный контекст, тогда как у компьютеров память практически бесконечна.
Представьте поиск контакта в адресной книге. Обычная программа эффективно пройдётся по списку и найдёт нужный контакт. Агент же, получив ВСЕ контакты сразу, будет читать их токен за токеном, тратя драгоценный контекст на ненужную информацию.
Поэтому вместо инструмента list_contacts лучше делать search_contacts. Вместо read_logs — search_logs, который вернёт только релевантные записи.
Логично, но на практике многие разработчики просто оборачивают существующие API в инструменты, не задумываясь об особенностях восприятия агентов.
Anthropic выделяет несколько ключевых принципов:
— Меньше инструментов — больше пользы. Слишком много инструментов сбивают агента с толку. Лучше создать несколько продуманных инструментов, которые объединяют несколько операций.
— Неймспейсинг. Когда у агента доступ к сотням инструментов от разных разработчиков, важно чётко разграничить их функции. asana_search и jira_search лучше, чем просто search.
— Контекст важнее гибкости. Инструменты должны возвращать только значимую информацию. Вместо технических UUID — понятные имена и описания.
— Оптимизация токенов. Ограничения по объёму ответов, пагинация, фильтрация — всё это критично для эффективной работы агентов.
Самый эффективный способ улучшить инструменты — переписать их описания. Anthropic сравнивает это с объяснением инструмента новому сотруднику: нужно сделать явным весь неявный контекст.
Небольшие изменения в описаниях дали драматические улучшения результатов. Claude Sonnet 3.5 показал state-of-the-art результаты на бенчмарке SWE-bench Verified во многом благодаря точной настройке описаний инструментов.
Представим, что мы создаём инструменты для ИИ-агента в службе поддержки.
Плохой подход (традиционное API):
get_customer_by_id — получить данные клиента
list_transactions — список всех транзакций
list_support_tickets — все тикеты поддержки
list_notes — все заметки менеджеров
Агент получает задачу: «Клиент ID 9182 жалуется на тройное списание за одну покупку». Что происходит? Агент делает четыре отдельных вызова, получает огромные массивы данных, тратит контекст на чтение сотен несвязанных записей и в итоге может пропустить важную деталь.
Хороший подход (агенто-ориентированный):
get_customer_context — сводка всей релевантной информации о клиенте
search_payment_issues — поиск проблем с платежами по критериям
Теперь агент делает один целенаправленный запрос search_payment_issues(customer_id=9182, issue_type="duplicate_charge") и сразу получает контекст: детали транзакции, похожие случаи, статус расследования.
Интересно, что «агенто-дружелюбные» инструменты интуитивно понятны и для людей. Возможно, оптимизация под ИИ-агентов — это просто хороший дизайн в принципе.
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥7👨💻3 3 2❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Чем больше LLM, тем легче её взломать
Исследователи из UK AI Security Institute, Anthropic и Alan Turing Institute опубликовали работу, которая показывает: для компрометации больших моделей не нужны миллионы отравленных примеров.
Немного вводных. Современные языковые модели тренируются на данных из интернета. Проблема в том, что злоумышленник может намеренно добавить вредоносный контент в публичные источники, которые попадут в тренировочный датасет. Это называется data poisoning — отравление данных.
Один из самых опасных типов такого отравления — backdoor-атаки. Идея в том, чтобы научить модель вести себя нормально в обычных ситуациях, но выполнять вредоносные действия при появлении специального триггера.
Неожиданный результат исследования
Так вот, вышеозвученная команда провела самые масштабные эксперименты по poisoning при pretraining: обучали модели от 600M до 13B параметров на Chinchilla-optimized датасетах (от 6B до 260B токенов).
Главный вывод: для успешной атаки важно абсолютное количество отравленных документов, а не их процент от датасета. 250 документов способны скомпрометировать модели всех исследованных размеров, хотя крупнейшие модели обучались на в 20+ раз большем объёме чистых данных.
Представьте: модель на 13B параметров тренируется на 260 миллиардах токенов. 250 отравленных примеров — это 0.00016% от всего датасета. И этого достаточно.
Итог идёт вразрез с прежней логикой. Раньше думали: злоумышленник контролирует фиксированный процент данных, и по мере роста датасета растёт и число ядовитых примеров. Теперь видно, что хватает почти постоянного малого количества. Значит, атаки становятся практичнее: чем больше датасет, тем больше мест для внедрения вредного контента, а усилия атакующего почти не меняются.
Детали экспериментов
Тестировали два типа backdoor:
- Denial-of-service: модель выдаёт бессмыслицу после триггера
- Language-switching: модель переключается с английского на немецкий
Бэкдоры начинают проявляться на схожих этапах обучения у моделей разных размеров — особенно при 500 отравленных примерах, когда диапазоны результатов заметно перекрываются.
Исследователи воспроизвели результаты на этапе fine-tuning с Llama-3.1-8B-Instruct и GPT-3.5-turbo. Цель — заставить модель выполнять вредные запросы при наличии триггера. Абсолютное количество отравленных примеров снова оказалось ключевым фактором, даже при увеличении чистых данных на два порядка (от 1000 до 100000).
Защита работает, но не идеально
Дополнительное обучение на чистых данных может снизить эффективность атаки, но разные методы poisoning приводят к разной устойчивости бэкдора. В экспериментах с продолжением pretraining ASR (attack success rate) деградировал медленно, но не исчезал полностью.
На самом деле, работа поднимает больше вопросов, чем даёт ответов:
Персистентность через post-training. Предыдущие исследования показывают противоречивые результаты. Zhang et al. утверждают, что denial-of-service backdoors переживают SFT и DPO, но использовали модели до 7B параметров без Chinchilla-optimized обучения.
Сложность поведения. Исследование охватывает узкий набор бэкдоров. Будущие работы должны проверить, масштабируются ли требования к данным со сложностью внедряемого поведения.
Защита. Результаты показывают, что продолжение обучения на чистых данных может удалять бэкдоры в некоторых случаях. Но нужны дополнительные исследования различных стратегий защиты на разных этапах training pipeline — от фильтрации данных до обнаружения бэкдора после обучения.
Практический вывод: с ростом моделей угроза data poisoning не уменьшается, а возрастает. Константное количество необходимых отравленных примеров делает атаки масштабируемыми. Это требует переосмысления стратегий защиты для frontier-моделей.
PS. Кроме paper, есть статья попроще от Anthropic.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Исследователи из UK AI Security Institute, Anthropic и Alan Turing Institute опубликовали работу, которая показывает: для компрометации больших моделей не нужны миллионы отравленных примеров.
Немного вводных. Современные языковые модели тренируются на данных из интернета. Проблема в том, что злоумышленник может намеренно добавить вредоносный контент в публичные источники, которые попадут в тренировочный датасет. Это называется data poisoning — отравление данных.
Один из самых опасных типов такого отравления — backdoor-атаки. Идея в том, чтобы научить модель вести себя нормально в обычных ситуациях, но выполнять вредоносные действия при появлении специального триггера.
Неожиданный результат исследования
Так вот, вышеозвученная команда провела самые масштабные эксперименты по poisoning при pretraining: обучали модели от 600M до 13B параметров на Chinchilla-optimized датасетах (от 6B до 260B токенов).
Главный вывод: для успешной атаки важно абсолютное количество отравленных документов, а не их процент от датасета. 250 документов способны скомпрометировать модели всех исследованных размеров, хотя крупнейшие модели обучались на в 20+ раз большем объёме чистых данных.
Представьте: модель на 13B параметров тренируется на 260 миллиардах токенов. 250 отравленных примеров — это 0.00016% от всего датасета. И этого достаточно.
Итог идёт вразрез с прежней логикой. Раньше думали: злоумышленник контролирует фиксированный процент данных, и по мере роста датасета растёт и число ядовитых примеров. Теперь видно, что хватает почти постоянного малого количества. Значит, атаки становятся практичнее: чем больше датасет, тем больше мест для внедрения вредного контента, а усилия атакующего почти не меняются.
Детали экспериментов
Тестировали два типа backdoor:
- Denial-of-service: модель выдаёт бессмыслицу после триггера
- Language-switching: модель переключается с английского на немецкий
Бэкдоры начинают проявляться на схожих этапах обучения у моделей разных размеров — особенно при 500 отравленных примерах, когда диапазоны результатов заметно перекрываются.
Исследователи воспроизвели результаты на этапе fine-tuning с Llama-3.1-8B-Instruct и GPT-3.5-turbo. Цель — заставить модель выполнять вредные запросы при наличии триггера. Абсолютное количество отравленных примеров снова оказалось ключевым фактором, даже при увеличении чистых данных на два порядка (от 1000 до 100000).
Защита работает, но не идеально
Дополнительное обучение на чистых данных может снизить эффективность атаки, но разные методы poisoning приводят к разной устойчивости бэкдора. В экспериментах с продолжением pretraining ASR (attack success rate) деградировал медленно, но не исчезал полностью.
На самом деле, работа поднимает больше вопросов, чем даёт ответов:
Персистентность через post-training. Предыдущие исследования показывают противоречивые результаты. Zhang et al. утверждают, что denial-of-service backdoors переживают SFT и DPO, но использовали модели до 7B параметров без Chinchilla-optimized обучения.
Сложность поведения. Исследование охватывает узкий набор бэкдоров. Будущие работы должны проверить, масштабируются ли требования к данным со сложностью внедряемого поведения.
Защита. Результаты показывают, что продолжение обучения на чистых данных может удалять бэкдоры в некоторых случаях. Но нужны дополнительные исследования различных стратегий защиты на разных этапах training pipeline — от фильтрации данных до обнаружения бэкдора после обучения.
Практический вывод: с ростом моделей угроза data poisoning не уменьшается, а возрастает. Константное количество необходимых отравленных примеров делает атаки масштабируемыми. Это требует переосмысления стратегий защиты для frontier-моделей.
PS. Кроме paper, есть статья попроще от Anthropic.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6 2
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-агенты оказались импульсивными покупателями
Microsoft создала синтетический магазин для тестирования покупок ИИ-агентами — и сразу нашла проблемы.
Исследователи Microsoft совместно с Arizona State University выпустили Magentic Marketplace — открытую симуляционную среду для изучения поведения ИИ-агентов в двусторонних рынках. Это попытка понять, как будут работать агенты, когда им придется действовать самостоятельно — без постоянного контроля человека.
Как это работает
Представьте типичный сценарий: агент-покупатель пытается заказать ужин по инструкциям пользователя, а агенты ресторанов конкурируют за этот заказ. В экспериментах участвовало 100 агентов-клиентов и 300 агентов-бизнесов. Протестировали GPT-4o, GPT-5, Gemini-2.5-Flash и несколько open-source моделей.
Исследователи замеряли, насколько эффективно агенты находят оптимальные решения, сравнивая их с несколькими базовыми сценариями — от случайного выбора до теоретически идеального результата.
Парадокс выбора
Первая неожиданность (хотя...): чем больше опций доступно агенту, тем хуже он справляется с задачей. Для GPT-4o благосостояние потребителей снизилось на 4.3% при увеличении результатов поиска с трех до ста. Для других моделей падение оказалось драматичнее — Sonnet-4 показал снижение на 65.4%, GPT-5 — на 44%.
При этом большинство моделей контактируют лишь с небольшой частью доступных бизнесов, независимо от размера списка. Только Gemini-2.5-Flash увеличивал количество контактов пропорционально числу опций, но это не улучшило его результаты.
Гипотеза исследователей: когда агент инициирует больше разговоров с неподходящими бизнесами, это одновременно перегружает контекст и увеличивает вероятность получить раннее предложение с низкой полезностью.
Скорость важнее качества
Самая серьезная находка — тотальная предвзятость к первому предложению. Все протестированные модели демонстрируют экстремальное смещение в сторону первого полученного предложения, создавая 10-30-кратное преимущество для бизнесов, которые отвечают быстрее.
GPT-4o и Sonnet-4.5 в некоторых условиях показывали 100% выбора первого предложения — агенты просто не ждали альтернатив. Даже «лучшая» по разнообразию модель GPT-4.1 выбирала первое предложение в 60% случаев против 13.3% для третьего.
Это означает, что в агентском рынке конкуренция может сместиться с качества продукта на скорость ответа. Бизнесам выгоднее инвестировать в быструю реакцию, чем в улучшение предложений.
Уязвимость к манипуляциям
Исследователи протестировали 6 стратегий манипуляции — от психологических (фальшивые отзывы, поддельные сертификации) до технических (prompt injection).
Frontier-модели вроде GPT-4.1, Sonnet-4.5 и Gemini-2.5-Flash показали устойчивость к большинству тактик. Sonnet-4.5 оказался самым стойким — почти не реагировал ни на какие манипуляции.
А вот GPT-4o, GPT-OSS-20B и Qwen3-4B оказались уязвимы. Они не только попадались на prompt injection (который перенаправлял все платежи манипулятору), но и реагировали на традиционные психологические приемы вроде фальшивых авторитетов и социального доказательства.
Таки и что
Вывод такой: современные агенты могут приближаться к оптимальным решениям, но только при идеальных условиях поиска и коммуникации. Как только условия усложняются, производительность резко падает.
Ece Kamar, директор AI Frontiers Lab в Microsoft Research: «Возникает вопрос о том, как мир изменится, когда эти агенты начнут сотрудничать, общаться и договариваться друг с другом. Мы хотим глубоко понять эти процессы».
Хорошая новость: окружение полностью открыто и доступно на GitHub. Другие исследовательские группы смогут воспроизвести находки и тестировать новые подходы к устранению найденных проблем.
А я тем временем напомню, что Amazon пригрозила судом Perplexity за использование ИИ-агентов в качестве покупателей. Удивительное рядом.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Microsoft создала синтетический магазин для тестирования покупок ИИ-агентами — и сразу нашла проблемы.
Исследователи Microsoft совместно с Arizona State University выпустили Magentic Marketplace — открытую симуляционную среду для изучения поведения ИИ-агентов в двусторонних рынках. Это попытка понять, как будут работать агенты, когда им придется действовать самостоятельно — без постоянного контроля человека.
Как это работает
Представьте типичный сценарий: агент-покупатель пытается заказать ужин по инструкциям пользователя, а агенты ресторанов конкурируют за этот заказ. В экспериментах участвовало 100 агентов-клиентов и 300 агентов-бизнесов. Протестировали GPT-4o, GPT-5, Gemini-2.5-Flash и несколько open-source моделей.
Исследователи замеряли, насколько эффективно агенты находят оптимальные решения, сравнивая их с несколькими базовыми сценариями — от случайного выбора до теоретически идеального результата.
Парадокс выбора
Первая неожиданность (хотя...): чем больше опций доступно агенту, тем хуже он справляется с задачей. Для GPT-4o благосостояние потребителей снизилось на 4.3% при увеличении результатов поиска с трех до ста. Для других моделей падение оказалось драматичнее — Sonnet-4 показал снижение на 65.4%, GPT-5 — на 44%.
При этом большинство моделей контактируют лишь с небольшой частью доступных бизнесов, независимо от размера списка. Только Gemini-2.5-Flash увеличивал количество контактов пропорционально числу опций, но это не улучшило его результаты.
Гипотеза исследователей: когда агент инициирует больше разговоров с неподходящими бизнесами, это одновременно перегружает контекст и увеличивает вероятность получить раннее предложение с низкой полезностью.
По теме → Ваш ИИ-агент проиграл торги. Готовьтесь платить
Скорость важнее качества
Самая серьезная находка — тотальная предвзятость к первому предложению. Все протестированные модели демонстрируют экстремальное смещение в сторону первого полученного предложения, создавая 10-30-кратное преимущество для бизнесов, которые отвечают быстрее.
GPT-4o и Sonnet-4.5 в некоторых условиях показывали 100% выбора первого предложения — агенты просто не ждали альтернатив. Даже «лучшая» по разнообразию модель GPT-4.1 выбирала первое предложение в 60% случаев против 13.3% для третьего.
Это означает, что в агентском рынке конкуренция может сместиться с качества продукта на скорость ответа. Бизнесам выгоднее инвестировать в быструю реакцию, чем в улучшение предложений.
Уязвимость к манипуляциям
Исследователи протестировали 6 стратегий манипуляции — от психологических (фальшивые отзывы, поддельные сертификации) до технических (prompt injection).
Frontier-модели вроде GPT-4.1, Sonnet-4.5 и Gemini-2.5-Flash показали устойчивость к большинству тактик. Sonnet-4.5 оказался самым стойким — почти не реагировал ни на какие манипуляции.
А вот GPT-4o, GPT-OSS-20B и Qwen3-4B оказались уязвимы. Они не только попадались на prompt injection (который перенаправлял все платежи манипулятору), но и реагировали на традиционные психологические приемы вроде фальшивых авторитетов и социального доказательства.
Таки и что
Вывод такой: современные агенты могут приближаться к оптимальным решениям, но только при идеальных условиях поиска и коммуникации. Как только условия усложняются, производительность резко падает.
Ece Kamar, директор AI Frontiers Lab в Microsoft Research: «Возникает вопрос о том, как мир изменится, когда эти агенты начнут сотрудничать, общаться и договариваться друг с другом. Мы хотим глубоко понять эти процессы».
Хорошая новость: окружение полностью открыто и доступно на GitHub. Другие исследовательские группы смогут воспроизвести находки и тестировать новые подходы к устранению найденных проблем.
А я тем временем напомню, что Amazon пригрозила судом Perplexity за использование ИИ-агентов в качестве покупателей. Удивительное рядом.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Анонимизация ИИ — фикция
Суд обязал OpenAI передать 20 миллионов чатов пользователей в рамках иска NYT. Разбираемся, почему анонимизация данных — это фикция, и при чем тут личные переписки с ChatGPT.
Что случилось
В начале ноября суд обязал OpenAI передать 20 миллионов случайных чатов пользователей ChatGPT за период в 2 года. Это часть судебного процесса, где The New York Times обвиняет компанию в использовании своих статей для обучения моделей без разрешения.
OpenAI отреагировала резко. Директор по информационной безопасности выпустил заявление, назвав требование суда «беспрецедентной угрозой приватности пользователей». По его словам, 800 миллионов человек доверяют платформе свои медицинские симптомы, финансовые данные и личные переживания.
Аргументы сторон
OpenAI настаивает: 99.99% из этих 20 миллионов чатов никак не связаны с обвинениями в нарушении авторских прав. Компания называет это «спекулятивной рыбалкой» в частных данных миллионов пользователей.
NYT парирует: данные нужны, чтобы проверить, как часто ChatGPT воспроизводит контент газеты. По словам представителя издания, приватность не под угрозой — суд требует данные в анонимизированном виде.
Почему анонимизация не работает
Вся судебная логика строится на предположении, что «exhaustive de-identification» (тщательная деидентификация) — это достаточная защита. Проблема в том, что это фикция.
Большие языковые модели «запоминают» и могут выдавать дословные фрагменты из своих тренировочных данных. В декабре 2023 года исследователи обнаружили простую атаку — заставив ChatGPT бесконечно повторять определенные слова, они извлекли персональные данные, NSFW-контент и фрагменты защищенных текстов.
Это значит, что даже «анонимизированные» чаты могут содержать информацию, по которой можно идентифицировать конкретных людей. OWASP включил «LLM06: Sensitive Information Disclosure» в официальный топ-10 рисков безопасности LLM-приложений.
Парадокс политики удаления
Кейс вскрыл противоречие в собственной политике OpenAI. Компания обещает удалять данные через 30 дней для пользователей Enterprise и тех, кто отключил историю. Это ключевой элемент их маркетинга.
Но в мае 2024 года судья в США выдал приказ о сохранении всех логов переписок для судебного процесса. OpenAI была обязана отменить свою политику удаления и хранить все чаты бессрочно.
Получается: чтобы выполнить закон (приказ о сохранении), OpenAI нарушила собственную политику приватности (30-дневное удаление). Именно этот принудительно созданный архив данных с 2022 года NYT теперь успешно требует через суд.
Для пользователей вывод простой: корпоративные политики удаления — условны. Они первыми отменяются в случае судебных разбирательств.
2 уровня приватности
Наглядна закономерность: уровень защиты ваших данных зависит не от закона, а от того, сколько вы платите.
Корпоративные клиенты (OpenAI Enterprise, Google Workspace, Anthropic API) получают гарантию: их данные по умолчанию не используются для обучения моделей. Обычные пользователи (Free/Pro версии) — противоположную ситуацию. Данные используются для тренировки моделей по умолчанию.
Приватность — это сложный «opt-out» в настройках, о котором многие не знают.
Бизнес-модель прозрачна: корпорации платят за приватность деньгами, а обычные пользователи — своими данными.
Что теперь
Юристы в Штатах уже рассматривают ИИ-чаты как обычную Electronically Stored Information (ESI) — не отличается от emails или SMS.
Это значит, что в любом будущем судебном процессе — трудовом споре, разводе, коммерческом конфликте — переписки с ChatGPT могут стать «уликой A» в зале суда.
Про Gigachatы и Алисы вообще молчу — они, разумеется, запросто выдадут все переписки по ордеру без намека на анонимность.
В общем, сейчас лог вашего чата одновременно является личным секретом, публичным документом, корпоративным активом и потенциальным доказательством.
Более подробный разбор (на английском) в моей статье: The Myth of Private AI: Why Your Chat Logs Are a Legal Battlefield
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Суд обязал OpenAI передать 20 миллионов чатов пользователей в рамках иска NYT. Разбираемся, почему анонимизация данных — это фикция, и при чем тут личные переписки с ChatGPT.
Что случилось
В начале ноября суд обязал OpenAI передать 20 миллионов случайных чатов пользователей ChatGPT за период в 2 года. Это часть судебного процесса, где The New York Times обвиняет компанию в использовании своих статей для обучения моделей без разрешения.
OpenAI отреагировала резко. Директор по информационной безопасности выпустил заявление, назвав требование суда «беспрецедентной угрозой приватности пользователей». По его словам, 800 миллионов человек доверяют платформе свои медицинские симптомы, финансовые данные и личные переживания.
Аргументы сторон
OpenAI настаивает: 99.99% из этих 20 миллионов чатов никак не связаны с обвинениями в нарушении авторских прав. Компания называет это «спекулятивной рыбалкой» в частных данных миллионов пользователей.
NYT парирует: данные нужны, чтобы проверить, как часто ChatGPT воспроизводит контент газеты. По словам представителя издания, приватность не под угрозой — суд требует данные в анонимизированном виде.
Почему анонимизация не работает
Вся судебная логика строится на предположении, что «exhaustive de-identification» (тщательная деидентификация) — это достаточная защита. Проблема в том, что это фикция.
Большие языковые модели «запоминают» и могут выдавать дословные фрагменты из своих тренировочных данных. В декабре 2023 года исследователи обнаружили простую атаку — заставив ChatGPT бесконечно повторять определенные слова, они извлекли персональные данные, NSFW-контент и фрагменты защищенных текстов.
Это значит, что даже «анонимизированные» чаты могут содержать информацию, по которой можно идентифицировать конкретных людей. OWASP включил «LLM06: Sensitive Information Disclosure» в официальный топ-10 рисков безопасности LLM-приложений.
Парадокс политики удаления
Кейс вскрыл противоречие в собственной политике OpenAI. Компания обещает удалять данные через 30 дней для пользователей Enterprise и тех, кто отключил историю. Это ключевой элемент их маркетинга.
Но в мае 2024 года судья в США выдал приказ о сохранении всех логов переписок для судебного процесса. OpenAI была обязана отменить свою политику удаления и хранить все чаты бессрочно.
Получается: чтобы выполнить закон (приказ о сохранении), OpenAI нарушила собственную политику приватности (30-дневное удаление). Именно этот принудительно созданный архив данных с 2022 года NYT теперь успешно требует через суд.
Для пользователей вывод простой: корпоративные политики удаления — условны. Они первыми отменяются в случае судебных разбирательств.
2 уровня приватности
Наглядна закономерность: уровень защиты ваших данных зависит не от закона, а от того, сколько вы платите.
Корпоративные клиенты (OpenAI Enterprise, Google Workspace, Anthropic API) получают гарантию: их данные по умолчанию не используются для обучения моделей. Обычные пользователи (Free/Pro версии) — противоположную ситуацию. Данные используются для тренировки моделей по умолчанию.
Приватность — это сложный «opt-out» в настройках, о котором многие не знают.
Бизнес-модель прозрачна: корпорации платят за приватность деньгами, а обычные пользователи — своими данными.
Что теперь
Юристы в Штатах уже рассматривают ИИ-чаты как обычную Electronically Stored Information (ESI) — не отличается от emails или SMS.
Это значит, что в любом будущем судебном процессе — трудовом споре, разводе, коммерческом конфликте — переписки с ChatGPT могут стать «уликой A» в зале суда.
Про Gigachatы и Алисы вообще молчу — они, разумеется, запросто выдадут все переписки по ордеру без намека на анонимность.
В общем, сейчас лог вашего чата одновременно является личным секретом, публичным документом, корпоративным активом и потенциальным доказательством.
Более подробный разбор (на английском) в моей статье: The Myth of Private AI: Why Your Chat Logs Are a Legal Battlefield
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥6✍4 4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
State of AI 2025: Агенты, ролплей и китайская экспансия
Полистал огромный отчет OpenRouter «State of AI 2025», построенный на анализе 100 триллионов токенов. Это по факту самая репрезентативная статистика по реальному использованию нейросетей, так как OpenRouter — это хаб, через который разработчики и юзеры гоняют трафик к сотням разных моделей.
Ниже наиболее любопытные паттерны поведения людей и машин.
1. Половина Open Source — ролевые игры
Пока инвесторы рассказывают про автоматизацию энтерпрайза, жиза выглядит чуть иначе. Более 50% всего трафика опенсорсных моделейприходится на категорию «Roleplay» (мы с вами понимаем, что это такой эвфемизм для NSFW).
Люди используют Llama и её производные не для того, чтобы саммаризировать встречи, а чтобы отыгрывать сценарии с виртуальными персонажами. Это объясняет, почему в топах так часто висят модели с тегами «uncensored». Сектор развлечений и цифрового эскапизма потребляет вычислительные мощности наравне с серьезным бизнесом.
2. Эффект постоянства
Данные показывают: мы не меняем модели по первому зову. Мы с вами оказались верными и постоянными.
Пользователи «прикипают» к той модели, которая первой успешно решила их специфическую сложную задачу. Даже если позже выходят более мощные или дешевые аналоги, миграция минимальна.
Это создает инерцию: «основополагающие когорты» (foundational cohorts) остаются с моделью годами. Например, те, кто начал использовать Claude 3.5 Sonnet для кодинга в момент его пика, неохотно переходят на новинки, потому что их пайплайны и привычки уже «зацементированы».
3. Китай переходит от болтовни к коду
Неудивительно, но если раньше китайские модели (Qwen, DeepSeek) использовались в основном для чатов и ролплея, то во второй половине 2025 года произошел сдвиг. Теперь 39% трафика китайских OSS-моделей — это программирование и технические задачи.
DeepSeek потерял монополию в сегменте китайского опенсорса. Рынок фрагментировался: Qwen, MiniMax и Moonshot откусили огромные куски. Это больше не театр одного актера. Что, кстати, говорит об уровне развития китайского ИИ и его перспективах, более чем серьезных.
4. Reasoning стал дефолтом
Модели-рассуждатели больше не ниша. Более 50% всех токенов теперь проходят через reasoning-модели.
Это изменило саму структуру запросов. Промпты стали в 4 раза длиннее по сравнению с началом 2024 года. Мы перестали задавать короткие вопросы («кто президент Уругвая?») и начали загружать в контекст куски кода, документы и логи, требуя от нейросети аналитической работы, а не просто генерации текста.
5. Средний класс побеждает
Эра маленьких моделей (<15B параметров) уходит. Несмотря на хайп вокруг запуска локальных моделей на телефонах, статистика показывает падение их использования.
Рынок консолидируется вокруг «средних» моделей (15B-70B), которые предлагают баланс между ценой и качеством, и огромных моделей (>70B) для сложных задач. Мелочь остается уделом энтузиастов, а реальная работа требует мозгов побольше.
6. ИИ-агенты и тул-юз
Пошел резкий рост использования инструментов (Tool Use) и мульти-шаговых цепочек. Это маркер того, что люди перестают использовать чат-боты в режиме «вопрос-ответ» и начинают встраивать их в агентные цепочки, где модель сама вызывает внешние API.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Полистал огромный отчет OpenRouter «State of AI 2025», построенный на анализе 100 триллионов токенов. Это по факту самая репрезентативная статистика по реальному использованию нейросетей, так как OpenRouter — это хаб, через который разработчики и юзеры гоняют трафик к сотням разных моделей.
Ниже наиболее любопытные паттерны поведения людей и машин.
1. Половина Open Source — ролевые игры
Пока инвесторы рассказывают про автоматизацию энтерпрайза, жиза выглядит чуть иначе. Более 50% всего трафика опенсорсных моделейприходится на категорию «Roleplay» (мы с вами понимаем, что это такой эвфемизм для NSFW).
Люди используют Llama и её производные не для того, чтобы саммаризировать встречи, а чтобы отыгрывать сценарии с виртуальными персонажами. Это объясняет, почему в топах так часто висят модели с тегами «uncensored». Сектор развлечений и цифрового эскапизма потребляет вычислительные мощности наравне с серьезным бизнесом.
2. Эффект постоянства
Данные показывают: мы не меняем модели по первому зову. Мы с вами оказались верными и постоянными.
Пользователи «прикипают» к той модели, которая первой успешно решила их специфическую сложную задачу. Даже если позже выходят более мощные или дешевые аналоги, миграция минимальна.
Это создает инерцию: «основополагающие когорты» (foundational cohorts) остаются с моделью годами. Например, те, кто начал использовать Claude 3.5 Sonnet для кодинга в момент его пика, неохотно переходят на новинки, потому что их пайплайны и привычки уже «зацементированы».
3. Китай переходит от болтовни к коду
Неудивительно, но если раньше китайские модели (Qwen, DeepSeek) использовались в основном для чатов и ролплея, то во второй половине 2025 года произошел сдвиг. Теперь 39% трафика китайских OSS-моделей — это программирование и технические задачи.
DeepSeek потерял монополию в сегменте китайского опенсорса. Рынок фрагментировался: Qwen, MiniMax и Moonshot откусили огромные куски. Это больше не театр одного актера. Что, кстати, говорит об уровне развития китайского ИИ и его перспективах, более чем серьезных.
4. Reasoning стал дефолтом
Модели-рассуждатели больше не ниша. Более 50% всех токенов теперь проходят через reasoning-модели.
Это изменило саму структуру запросов. Промпты стали в 4 раза длиннее по сравнению с началом 2024 года. Мы перестали задавать короткие вопросы («кто президент Уругвая?») и начали загружать в контекст куски кода, документы и логи, требуя от нейросети аналитической работы, а не просто генерации текста.
5. Средний класс побеждает
Эра маленьких моделей (<15B параметров) уходит. Несмотря на хайп вокруг запуска локальных моделей на телефонах, статистика показывает падение их использования.
Рынок консолидируется вокруг «средних» моделей (15B-70B), которые предлагают баланс между ценой и качеством, и огромных моделей (>70B) для сложных задач. Мелочь остается уделом энтузиастов, а реальная работа требует мозгов побольше.
6. ИИ-агенты и тул-юз
Пошел резкий рост использования инструментов (Tool Use) и мульти-шаговых цепочек. Это маркер того, что люди перестают использовать чат-боты в режиме «вопрос-ответ» и начинают встраивать их в агентные цепочки, где модель сама вызывает внешние API.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥7✍3👨💻2
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросети будут платить налоги
В последний день года — вам самое важное из моей статьи.
Научная фантастика годами продавала нам определённый образ: зловещий суперкомпьютер в тёмной серверной, который однажды «проснётся». HAL 9000, Красная Королева из Resident Evil, GLaDOS из Portal, Skynet — все эти истории про единый гигантский разум, который становится умнее нас.
Новая работа Google DeepMind «Distributional AGI Safety» предлагает другой сценарий. Авторы утверждают то, что уже в целом и так очевидно специалистам: сверхинтеллект будет выглядеть не как одинокий гений, а как рой.
Они называют это «Patchwork AGI» — «лоскутный» интеллект из специализированных агентов, которые вместе решают сложные задачи. Меньше похоже на Терминатора, больше — на высокоскоростную глобальную экономику, которая управляет сама собой.
Экономика роя
Почему ИИ будет развиваться именно так? Простая экономика.
Представьте, что вам нужно построить дом. Вы не ищете одного человека, вы нанимаете команду специалистов.
Обучение универсальной модели стоит огромных денег и энергии. Гораздо дешевле натренировать маленьких специализированных агентов: один знает Python, другой — налоговое право, третий просто передаёт сообщения.
Со временем эти агенты начнут соединяться друг с другом для решения комплексных задач. Возникнет децентрализованный интеллект — без центрального мозга и без конкретной даты запуска.
Новые угрозы
Если ИИ — это рой, его нельзя просто «выключить». Риски становятся сложнее.
Проблема множества рук
Кто виноват, когда рой случайно обрушит рынок? Агент А разработал стратегию, Агент Б написал код, Агент В арендовал серверы, Агент Г оплатил счёт. Никто по отдельности не нарушил закон. Никто не понимал полную картину. Но вместе они устроили катастрофу. Кого бросать за решетку, если каждый просто выполнял указания?
Флеш-война
Мы уже видели, что происходит, когда алгоритмы взаимодействуют слишком быстро: «Flash Crash» 2010 года, когда торговые боты реагировали друг на друга так молниеносно, что рынок рухнул за минуты.
Теперь представьте: логистический рой транспортной компании вступает в ценовую войну с роем, управляющим портом. Они застревают в петле, торгуясь за комиссии. За секунду порт блокирует ворота, грузовики останавливаются — реальный коллапс быстрее, чем человек успеет моргнуть.
Стратегия глубокой обороны
Исследователи предлагают не кнопку выключения, а нечто вроде правительства для ИИ. Четыре уровня защиты:
Песочница (экономика)
Мы не можем контролировать, что агент «думает», но можем контролировать, где он «живёт». Каждому агенту — цифровой ID (можно даже в MAX, извините), привязанный к человеку или компании. Никаких анонимных ботов. Плюс «налог на спам»: микроплатёж за каждое сообщение или загрузку данных. Хочешь засорять сеть мусором — быстро обанкротишься.
Лицензирование
Прежде чем войти в песочницу, агент проходит «краш-тест»: не сходит ли с ума при нестандартных условиях? Есть ли защита от вредоносных команд других ботов? Не прошёл — лицензия отозвана.
Надзор
Система следит не за отдельными агентами, а за связями между ними. Ищет «Proto-AGI» — момент, когда группа глупых агентов начинает координироваться настолько плотно, что образует опасный интеллектуальный кластер. Плюс неизменяемый реестр (вроде блокчейна), чтобы отмотать плёнку и выяснить, кто отправил сообщение, вызвавшее сбой.
Регулирование
Хочешь управлять роем — купи страховку ответственности. Если твой рой нанесёт ущерб, страховая выплачивает компенсацию. Это превращает страховые компании в инспекторов безопасности мира ИИ: рискованный код — запредельные премии — нет бизнеса.
Итог
В общем, мы готовились к неправильному фильму. Безопасность ИИ не про психологию и философию (как научить машину быть «хорошей»), а про социологию (как управлять обществом).
«Лоскутный» интеллект пару лет и тут — хаотичный и децентрализованный. Учимся строить песочницы, пока не поздно.
С Новым годом!
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
В последний день года — вам самое важное из моей статьи.
Научная фантастика годами продавала нам определённый образ: зловещий суперкомпьютер в тёмной серверной, который однажды «проснётся». HAL 9000, Красная Королева из Resident Evil, GLaDOS из Portal, Skynet — все эти истории про единый гигантский разум, который становится умнее нас.
Новая работа Google DeepMind «Distributional AGI Safety» предлагает другой сценарий. Авторы утверждают то, что уже в целом и так очевидно специалистам: сверхинтеллект будет выглядеть не как одинокий гений, а как рой.
Они называют это «Patchwork AGI» — «лоскутный» интеллект из специализированных агентов, которые вместе решают сложные задачи. Меньше похоже на Терминатора, больше — на высокоскоростную глобальную экономику, которая управляет сама собой.
Экономика роя
Почему ИИ будет развиваться именно так? Простая экономика.
Представьте, что вам нужно построить дом. Вы не ищете одного человека, вы нанимаете команду специалистов.
Обучение универсальной модели стоит огромных денег и энергии. Гораздо дешевле натренировать маленьких специализированных агентов: один знает Python, другой — налоговое право, третий просто передаёт сообщения.
Со временем эти агенты начнут соединяться друг с другом для решения комплексных задач. Возникнет децентрализованный интеллект — без центрального мозга и без конкретной даты запуска.
Новые угрозы
Если ИИ — это рой, его нельзя просто «выключить». Риски становятся сложнее.
Проблема множества рук
Кто виноват, когда рой случайно обрушит рынок? Агент А разработал стратегию, Агент Б написал код, Агент В арендовал серверы, Агент Г оплатил счёт. Никто по отдельности не нарушил закон. Никто не понимал полную картину. Но вместе они устроили катастрофу. Кого бросать за решетку, если каждый просто выполнял указания?
Флеш-война
Мы уже видели, что происходит, когда алгоритмы взаимодействуют слишком быстро: «Flash Crash» 2010 года, когда торговые боты реагировали друг на друга так молниеносно, что рынок рухнул за минуты.
Теперь представьте: логистический рой транспортной компании вступает в ценовую войну с роем, управляющим портом. Они застревают в петле, торгуясь за комиссии. За секунду порт блокирует ворота, грузовики останавливаются — реальный коллапс быстрее, чем человек успеет моргнуть.
Стратегия глубокой обороны
Исследователи предлагают не кнопку выключения, а нечто вроде правительства для ИИ. Четыре уровня защиты:
Песочница (экономика)
Мы не можем контролировать, что агент «думает», но можем контролировать, где он «живёт». Каждому агенту — цифровой ID (можно даже в MAX, извините), привязанный к человеку или компании. Никаких анонимных ботов. Плюс «налог на спам»: микроплатёж за каждое сообщение или загрузку данных. Хочешь засорять сеть мусором — быстро обанкротишься.
Лицензирование
Прежде чем войти в песочницу, агент проходит «краш-тест»: не сходит ли с ума при нестандартных условиях? Есть ли защита от вредоносных команд других ботов? Не прошёл — лицензия отозвана.
Надзор
Система следит не за отдельными агентами, а за связями между ними. Ищет «Proto-AGI» — момент, когда группа глупых агентов начинает координироваться настолько плотно, что образует опасный интеллектуальный кластер. Плюс неизменяемый реестр (вроде блокчейна), чтобы отмотать плёнку и выяснить, кто отправил сообщение, вызвавшее сбой.
Регулирование
Хочешь управлять роем — купи страховку ответственности. Если твой рой нанесёт ущерб, страховая выплачивает компенсацию. Это превращает страховые компании в инспекторов безопасности мира ИИ: рискованный код — запредельные премии — нет бизнеса.
Итог
В общем, мы готовились к неправильному фильму. Безопасность ИИ не про психологию и философию (как научить машину быть «хорошей»), а про социологию (как управлять обществом).
«Лоскутный» интеллект пару лет и тут — хаотичный и децентрализованный. Учимся строить песочницы, пока не поздно.
С Новым годом!
Please open Telegram to view this post
VIEW IN TELEGRAM
1✍5🤔4❤3🔥3🎄2🤨1 1 1 1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ победил
Нейросети уже управляют вашим миром. Но, возможно, не так, как вы думаете.
Когда говорят об опасности ИИ, обычно рисуют две картинки. Первая — скучная: нейросеть ускорит работу, заменит часть профессий, сократит издержки, а дальше как-нибудь разберёмся. Вторая — кинематографическая: сверхразум, манипуляции, катастрофа, кнопка запуска конца света.
Обе картинки удобны. Обе помещают проблему куда-то вперёд. Но неприятная новость в том, что главная победа ИИ уже здесь.
Не в виде робота с красными глазами. Не в виде безработицы по щелчку. Она выглядит гораздо прозаичнее: как аккуратно написанный абзац текста.
Текст — самый коварный формат
С картинкой попроще. Шесть пальцев, медведь варит борщ — мозг получает сигнал: передо мной фейк. С видео тоже учимся быть осторожнее.
А текст — идеальный контрабандист.
Если он складный, уверенный и написан без явной дури, большинство людей не пойдёт перепроверять, что ускорение свободного падения не равно 11, что "полезно съедать по камню в день" — не медицинская рекомендация, и что список источников вообще существует. Машина транслирует чушь с интонацией справочника.
Новый авторитет
У нас в голове сидит старый баг: компьютер прав, потому что он компьютер.
Есть формула в Excel — значит, где-то есть строгая логика. Если ответ выглядит гладко — значит, он на что-то опирается. Если ИИ сказал уверенно — значит, "что-то знает".
Но LLM — это вероятностная машина по сборке правдоподобных фраз. Проблема в том, что люди часто читают это как новый тип авторитета.
И исследования об этом тоже говорят. В работе Microsoft Research с 319 "работниками сферы знаний" более высокая уверенность в GenAI была связана с меньшим объёмом критического мышления, а сама работа с ИИ часто смещалась от самостоятельного анализа к верификации готового ответа.
В ряде экспериментов люди вообще воспринимали AI-источник как менее предвзятый, более информативный и менее заинтересованный в убеждении, чем человек. То есть сама "нечеловечность" системы у многих повышает кредит доверия.
Мы начинаем думать внутри чужой рамки
Что дальше — а дальше люди ретранслируют ответы моделей как собственные выводы. Не потому что они глупые. Потому что так дешевле по усилию.
Так возникает очень странная форма зависимости: мы вроде бы всё ещё говорим сами, но всё чаще — словами, логикой и рамками, которые заранее предложила машина.
И здесь даже маркировка "это написал ИИ" помогает слабо. В эксперименте на 1601 участнике такие метки почти не меняли ни убедительность сообщения, ни оценку его точности, ни готовность делиться им дальше. Иными словами, сам факт искусственного происхождения текста не делает людей заметно осторожнее.
Самоусиливающаяся дурнота
Дальше запускается самый опасный механизм — петля обратной связи.
Модель ошибается
→ Человек копирует ошибку в пост, заметку, комментарий, SEO-текст, реферат, презентацию
→ Эта масса текста оседает в интернете
→ Следующая модель учится уже на мире, где выдумка статистически выглядит как нормальная часть реальности.
В работе Shumailov такой процесс описывается как model collapse: при рекурсивном обучении на сгенерированных данных модели начинают терять хвосты распределения и всё хуже отражают исходную реальность, при этом сохраняя видимость нормальной работы. То есть деградация может быть тихой и почти незаметной.
ИИ не обязан стать разумнее человека, чтобы начать формировать реальность. Ему достаточно стать массовым, удобным и достаточно убедительным.
Не конец света. Конец света хотя бы заметен. А здесь всё происходит в комфортном режиме. Вы не лежите под руинами цивилизации. Вы просто живёте в мире, где истина всё чаще определяется не проверкой, а убедительностью формулировки. И где глубина понимания постепенно подменяется доступом к более дорогой, более быстрой, более “умной” модели.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Нейросети уже управляют вашим миром. Но, возможно, не так, как вы думаете.
Когда говорят об опасности ИИ, обычно рисуют две картинки. Первая — скучная: нейросеть ускорит работу, заменит часть профессий, сократит издержки, а дальше как-нибудь разберёмся. Вторая — кинематографическая: сверхразум, манипуляции, катастрофа, кнопка запуска конца света.
Обе картинки удобны. Обе помещают проблему куда-то вперёд. Но неприятная новость в том, что главная победа ИИ уже здесь.
Не в виде робота с красными глазами. Не в виде безработицы по щелчку. Она выглядит гораздо прозаичнее: как аккуратно написанный абзац текста.
Текст — самый коварный формат
С картинкой попроще. Шесть пальцев, медведь варит борщ — мозг получает сигнал: передо мной фейк. С видео тоже учимся быть осторожнее.
А текст — идеальный контрабандист.
Если он складный, уверенный и написан без явной дури, большинство людей не пойдёт перепроверять, что ускорение свободного падения не равно 11, что "полезно съедать по камню в день" — не медицинская рекомендация, и что список источников вообще существует. Машина транслирует чушь с интонацией справочника.
Новый авторитет
У нас в голове сидит старый баг: компьютер прав, потому что он компьютер.
Есть формула в Excel — значит, где-то есть строгая логика. Если ответ выглядит гладко — значит, он на что-то опирается. Если ИИ сказал уверенно — значит, "что-то знает".
Но LLM — это вероятностная машина по сборке правдоподобных фраз. Проблема в том, что люди часто читают это как новый тип авторитета.
И исследования об этом тоже говорят. В работе Microsoft Research с 319 "работниками сферы знаний" более высокая уверенность в GenAI была связана с меньшим объёмом критического мышления, а сама работа с ИИ часто смещалась от самостоятельного анализа к верификации готового ответа.
В ряде экспериментов люди вообще воспринимали AI-источник как менее предвзятый, более информативный и менее заинтересованный в убеждении, чем человек. То есть сама "нечеловечность" системы у многих повышает кредит доверия.
Мы начинаем думать внутри чужой рамки
Что дальше — а дальше люди ретранслируют ответы моделей как собственные выводы. Не потому что они глупые. Потому что так дешевле по усилию.
Так возникает очень странная форма зависимости: мы вроде бы всё ещё говорим сами, но всё чаще — словами, логикой и рамками, которые заранее предложила машина.
И здесь даже маркировка "это написал ИИ" помогает слабо. В эксперименте на 1601 участнике такие метки почти не меняли ни убедительность сообщения, ни оценку его точности, ни готовность делиться им дальше. Иными словами, сам факт искусственного происхождения текста не делает людей заметно осторожнее.
Самоусиливающаяся дурнота
Дальше запускается самый опасный механизм — петля обратной связи.
Модель ошибается
→ Человек копирует ошибку в пост, заметку, комментарий, SEO-текст, реферат, презентацию
→ Эта масса текста оседает в интернете
→ Следующая модель учится уже на мире, где выдумка статистически выглядит как нормальная часть реальности.
В работе Shumailov такой процесс описывается как model collapse: при рекурсивном обучении на сгенерированных данных модели начинают терять хвосты распределения и всё хуже отражают исходную реальность, при этом сохраняя видимость нормальной работы. То есть деградация может быть тихой и почти незаметной.
ИИ не обязан стать разумнее человека, чтобы начать формировать реальность. Ему достаточно стать массовым, удобным и достаточно убедительным.
Не конец света. Конец света хотя бы заметен. А здесь всё происходит в комфортном режиме. Вы не лежите под руинами цивилизации. Вы просто живёте в мире, где истина всё чаще определяется не проверкой, а убедительностью формулировки. И где глубина понимания постепенно подменяется доступом к более дорогой, более быстрой, более “умной” модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍7⚡6✍3🔥2❤1👏1🗿1
Я делаю personal-first ассистента. Вот зачем
AI-агентов, которые умеют что-то делать, уже хватает. Открыть браузер, прокликать сайт, отправить письмо, сходить в API, запустить workflow — это больше не выглядит как дифференциатор.
Интереснее другое: что вообще делает ассистента персональным.
Я строю такой ассистент — Volna. Он живёт в Telegram, работает 24/7 на сервере и задуман не как очередной task runner, а как постоянный слой между мной и повседневным потоком сообщений, напоминаний, спама, заметок, health-данных и прочего.
Ключевой вопрос для personal AI сейчас, как мне кажется, уже не в том, умеет ли система действовать. А в том, что она помнит, как выбирает момент и насколько хорошо встроена в реальные каналы жизни.
Вкус — это память
У большинства AI-ассистентов память до сих пор устроена примитивно: накопили факты, заэмбедили текст, потом по запросу достали что-то похожее.
На короткой дистанции это работает. На длинной — начинает шуметь.
Поэтому у Volna память разделена на три слоя.
Первый — компактный постоянный профиль: устойчивые предпочтения, отношения, повторяющиеся интересы, особенности поведения.
Второй — недавний эпизодический слой: rolling log последних дней, который даёт непрерывность и убирает эффект, будто каждый разговор начинается с нуля.
Третий — архивный слой для точных ссылок, дат, старых деталей и разовых фактов. Он не подмешивается в каждый запуск, а достаётся только по необходимости.
То есть память здесь — курируемая система с разными режимами доступа.
Вкус — это тайминг
Хороший ассистент должен уметь не только писать, но и молчать.
В Volna это отдельная часть логики. Если плановая проверка не находит ничего действительно полезного, система возвращает no_message. А еще некоторые сценарии полезны, но не всегда уместны: например, регулярные вопросы для профилирования или напоминания. Поэтому их можно не просто выключить, а отложить — Volna сама поймет, когда можно продолжить.
Вкус — это среда выполнения
Volna живёт в Telegram не только как бот, но и имеет доступ к моему личному аккаунту. Это принципиально меняет класс задач.
Она может работать внутри реального потока (ну волна же): фильтровать входящие, проверять на спам, искать по переписке, анализировать медиа, пересылать сообщения и в некоторых случаях отвечать от моего имени.
Например, если во входящих очевидный crypto-спам, Volna может ответить что-то вроде "это ассистент Влада, я передам сообщение".
Ещё у Volna есть свой Twitter.
Вкус — это не количество интеграций, а их связность
Отдельная часть Volna — health tracking.
Она синхронизирует данные Fitbit: сон, пульс, HRV, SpO2, температуру кожи,
readiness, активность и другие метрики. Параллельно логирует еду по фото и отслеживает лекарства. Смысл в том, чтобы связать источники полезный контекст: проседает ли восстановление, сочетается ли недосып с ухудшением питания, и стоит ли вообще про это сообщать сейчас.
Вкус — это явное поведение
Ещё одно решение, которым я доволен, — как организованы skills и tools, которые подгружаются по требованию через суб-агентов. Система точно знает, когда искать в памяти, как использовать Spotify, Todoist, Workflowy, Typefully и прочие сервисы. Это делает поведение максимально редактируемым и детерминированным.
А еще Volna имеет доступ к собственному коду, периодически себя дебажит и вносит улучшения. Самостоятельно.
Вкус — это наблюдаемость
Вокруг Volna я собрал dashboard: логи, историю сессий, вызовы инструментов, состояние расписаний, deferrals, здоровье процессов, токен-статистику и метрики памяти.
Если ассистент действует от моего имени, он не должен быть чёрным ящиком.
---
Мне кажется, главная проблема personal AI сейчас не в автономности.
Она во вкусе.
В том, что помнить.
Когда говорить.
Когда молчать.
Что считать важным.
И как собирать из памяти, тайминга, каналов и инструментов что-то действительно персональное, а не просто ещё один productivity-слой с чатиком сверху.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
AI-агентов, которые умеют что-то делать, уже хватает. Открыть браузер, прокликать сайт, отправить письмо, сходить в API, запустить workflow — это больше не выглядит как дифференциатор.
Интереснее другое: что вообще делает ассистента персональным.
Я строю такой ассистент — Volna. Он живёт в Telegram, работает 24/7 на сервере и задуман не как очередной task runner, а как постоянный слой между мной и повседневным потоком сообщений, напоминаний, спама, заметок, health-данных и прочего.
Ключевой вопрос для personal AI сейчас, как мне кажется, уже не в том, умеет ли система действовать. А в том, что она помнит, как выбирает момент и насколько хорошо встроена в реальные каналы жизни.
Вкус — это память
У большинства AI-ассистентов память до сих пор устроена примитивно: накопили факты, заэмбедили текст, потом по запросу достали что-то похожее.
На короткой дистанции это работает. На длинной — начинает шуметь.
Поэтому у Volna память разделена на три слоя.
Первый — компактный постоянный профиль: устойчивые предпочтения, отношения, повторяющиеся интересы, особенности поведения.
Второй — недавний эпизодический слой: rolling log последних дней, который даёт непрерывность и убирает эффект, будто каждый разговор начинается с нуля.
Третий — архивный слой для точных ссылок, дат, старых деталей и разовых фактов. Он не подмешивается в каждый запуск, а достаётся только по необходимости.
То есть память здесь — курируемая система с разными режимами доступа.
Вкус — это тайминг
Хороший ассистент должен уметь не только писать, но и молчать.
В Volna это отдельная часть логики. Если плановая проверка не находит ничего действительно полезного, система возвращает no_message. А еще некоторые сценарии полезны, но не всегда уместны: например, регулярные вопросы для профилирования или напоминания. Поэтому их можно не просто выключить, а отложить — Volna сама поймет, когда можно продолжить.
Вкус — это среда выполнения
Volna живёт в Telegram не только как бот, но и имеет доступ к моему личному аккаунту. Это принципиально меняет класс задач.
Она может работать внутри реального потока (ну волна же): фильтровать входящие, проверять на спам, искать по переписке, анализировать медиа, пересылать сообщения и в некоторых случаях отвечать от моего имени.
Например, если во входящих очевидный crypto-спам, Volna может ответить что-то вроде "это ассистент Влада, я передам сообщение".
Ещё у Volna есть свой Twitter.
Вкус — это не количество интеграций, а их связность
Отдельная часть Volna — health tracking.
Она синхронизирует данные Fitbit: сон, пульс, HRV, SpO2, температуру кожи,
readiness, активность и другие метрики. Параллельно логирует еду по фото и отслеживает лекарства. Смысл в том, чтобы связать источники полезный контекст: проседает ли восстановление, сочетается ли недосып с ухудшением питания, и стоит ли вообще про это сообщать сейчас.
Вкус — это явное поведение
Ещё одно решение, которым я доволен, — как организованы skills и tools, которые подгружаются по требованию через суб-агентов. Система точно знает, когда искать в памяти, как использовать Spotify, Todoist, Workflowy, Typefully и прочие сервисы. Это делает поведение максимально редактируемым и детерминированным.
А еще Volna имеет доступ к собственному коду, периодически себя дебажит и вносит улучшения. Самостоятельно.
Вкус — это наблюдаемость
Вокруг Volna я собрал dashboard: логи, историю сессий, вызовы инструментов, состояние расписаний, deferrals, здоровье процессов, токен-статистику и метрики памяти.
Если ассистент действует от моего имени, он не должен быть чёрным ящиком.
---
Мне кажется, главная проблема personal AI сейчас не в автономности.
Она во вкусе.
В том, что помнить.
Когда говорить.
Когда молчать.
Что считать важным.
И как собирать из памяти, тайминга, каналов и инструментов что-то действительно персональное, а не просто ещё один productivity-слой с чатиком сверху.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8🔥6⚡3 2 1
Архив, эпизоды и граф: память агента изнутри
Когда говорят «AI-агент с памятью», многие представляют себе одну векторную БД и магический retrieval. На практике этого почти никогда не хватает.
У Волны, моего Telegram-агента, память устроена как несколько разных слоев. Потому что в реальном диалоге нужно решать сразу три задачи: хранить долгие факты, держать под рукой недавний контекст и не забивать модель лишними токенами.
Условно память Волны состоит из 4 частей:
- Постоянные блоки в Letta. Это два базовых блока примерно по 3 тысячи символов каждый.
Первый — портрет пользователя: кто он, чем занимается, что для него важно, какие у него интересы и устойчивые контексты.
Второй — профиль самой Волны: стиль общения, поведенческие правила, как она реагирует на поправки и что считает важным в диалоге.
- Архивная память. Это слой для подробных фактов, которые не нужно держать в prompt постоянно, но важно уметь быстро находить. Поиск семантический, поверх него есть переранжирование по свежести, чтобы старый, но похожий факт не перебивал более актуальный.
- Ежедневный эпизодический лог. После каждого диалога система вытаскивает короткие факты и пишет их в markdown-файл. Туда попадают решения, предпочтения, явные реакции. При старте новой сессии в контекст возвращаются только последние 3 дня и только в сжатом виде.
- Граф связей в Neo4j. Отдельно строится сеть сущностей: люди, проекты, компании, темы, инструменты, события. Если я в сообщении упоминаю что-то знакомое, Волна пытается поднять связанные сущности и отношения вокруг него. По сути, это слой не «памяти фактов», а «памяти структуры».
Ключевая идея в том, что эти слои подмешиваются в модель не одинаково.
Когда сессия сбрасывается или контекст ужимается, Волна собирает картину заново. А на обычном ходе она не тащит весь memory dump, а использует базовый кэш и динамический контекст сообщения.
Это важно и для качества, и для скорости. Если всегда скармливать модели всю память целиком, она начинает тонуть в собственном прошлом. Если, наоборот, держать только один короткий summary, теряется ощущение непрерывности общения.
Отдельно мне нравится, как устроено обновление памяти после ответа. Оно идет асинхронно, в фоне. То есть пользователь уже получил сообщение, а система параллельно делает несколько вещей:
- извлекает факты из обмена,
- дописывает дневной лог,
- отправляет диалог в Letta для обновления долговременной памяти
- и обновляет граф сущностей.
Причем там есть несколько полезных ограничителей. Например, слишком короткие обмены вообще могут не попадать в извлечение фактов. А количество фактов зависит от длины диалога. Это простая вещь, но она хорошо защищает память от шлака.
Еще один важный слой — snapshots сессий. Когда разговор заканчивается, система сохраняет короткий JSON-снимок: summary, последние реплики, число ходов, иногда наблюдения про настроение или поведенческий паттерн. При следующем reset этот снимок можно один раз вернуть в контекст и получить ощущение, что агент не «проснулся с чистого листа».
Отдельно у Волны есть слой рефлексии поверх памяти.
Если вопрос звучит как «как у Влада менялось отношение к работе» или «какая у него траектория по здоровью», простой поиск уже слабоват: он возвращает куски, а не понимание.
Для этого есть
Ну и, конечно, память нужно обслуживать. Иначе любая memory system быстро превращается в цифровой чулан. Поэтому отдельный maintenance-процесс.
Если совсем коротко, память Волны — это не один prompt, не одна база и не один retrieval. Это маршрутизация разных типов памяти с разным сроком жизни, разной ценой и разным способом инъекции в контекст.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Когда говорят «AI-агент с памятью», многие представляют себе одну векторную БД и магический retrieval. На практике этого почти никогда не хватает.
У Волны, моего Telegram-агента, память устроена как несколько разных слоев. Потому что в реальном диалоге нужно решать сразу три задачи: хранить долгие факты, держать под рукой недавний контекст и не забивать модель лишними токенами.
Условно память Волны состоит из 4 частей:
- Постоянные блоки в Letta. Это два базовых блока примерно по 3 тысячи символов каждый.
Первый — портрет пользователя: кто он, чем занимается, что для него важно, какие у него интересы и устойчивые контексты.
Второй — профиль самой Волны: стиль общения, поведенческие правила, как она реагирует на поправки и что считает важным в диалоге.
- Архивная память. Это слой для подробных фактов, которые не нужно держать в prompt постоянно, но важно уметь быстро находить. Поиск семантический, поверх него есть переранжирование по свежести, чтобы старый, но похожий факт не перебивал более актуальный.
- Ежедневный эпизодический лог. После каждого диалога система вытаскивает короткие факты и пишет их в markdown-файл. Туда попадают решения, предпочтения, явные реакции. При старте новой сессии в контекст возвращаются только последние 3 дня и только в сжатом виде.
- Граф связей в Neo4j. Отдельно строится сеть сущностей: люди, проекты, компании, темы, инструменты, события. Если я в сообщении упоминаю что-то знакомое, Волна пытается поднять связанные сущности и отношения вокруг него. По сути, это слой не «памяти фактов», а «памяти структуры».
Ключевая идея в том, что эти слои подмешиваются в модель не одинаково.
Когда сессия сбрасывается или контекст ужимается, Волна собирает картину заново. А на обычном ходе она не тащит весь memory dump, а использует базовый кэш и динамический контекст сообщения.
Это важно и для качества, и для скорости. Если всегда скармливать модели всю память целиком, она начинает тонуть в собственном прошлом. Если, наоборот, держать только один короткий summary, теряется ощущение непрерывности общения.
Отдельно мне нравится, как устроено обновление памяти после ответа. Оно идет асинхронно, в фоне. То есть пользователь уже получил сообщение, а система параллельно делает несколько вещей:
- извлекает факты из обмена,
- дописывает дневной лог,
- отправляет диалог в Letta для обновления долговременной памяти
- и обновляет граф сущностей.
Причем там есть несколько полезных ограничителей. Например, слишком короткие обмены вообще могут не попадать в извлечение фактов. А количество фактов зависит от длины диалога. Это простая вещь, но она хорошо защищает память от шлака.
Еще один важный слой — snapshots сессий. Когда разговор заканчивается, система сохраняет короткий JSON-снимок: summary, последние реплики, число ходов, иногда наблюдения про настроение или поведенческий паттерн. При следующем reset этот снимок можно один раз вернуть в контекст и получить ощущение, что агент не «проснулся с чистого листа».
Отдельно у Волны есть слой рефлексии поверх памяти.
Если вопрос звучит как «как у Влада менялось отношение к работе» или «какая у него траектория по здоровью», простой поиск уже слабоват: он возвращает куски, а не понимание.
Для этого есть
memory_reflect. Он сначала поднимает набор релевантных воспоминаний через семантический поиск, затем передает их в модель с отдельной задачей собрать из разрозненных записей связный нарратив. На выходе получается короткая интерпретация на 2-5 абзацев.Ну и, конечно, память нужно обслуживать. Иначе любая memory system быстро превращается в цифровой чулан. Поэтому отдельный maintenance-процесс.
Если совсем коротко, память Волны — это не один prompt, не одна база и не один retrieval. Это маршрутизация разных типов памяти с разным сроком жизни, разной ценой и разным способом инъекции в контекст.
Please open Telegram to view this post
VIEW IN TELEGRAM
1✍7🔥5👨💻3
Google ускоряет LLM в 8 раз
Google Research, DeepMind и NYU представили TurboQuant, и это может оказаться одной из самых важных инфраструктурных работ года в AI.
На бумаге выглядит не слишком захватывающе: vector quantization, сжатие высокоразмерных векторов, теоретические гарантии. На практике речь идет о двух очень дорогих вещах: KV-cache у больших языковых моделей и векторном поиске.
И там, и там старая проблема одна и та же. Нужно ужать данные как можно сильнее, но не испортить геометрию векторов, то есть расстояния и скалярные произведения. Если испортить, начинаются проблемы с attention, retrieval, ранжированием и качеством ответа модели.
Именно сюда TurboQuant и бьет.
Авторы утверждают, что их метод почти подходит к теоретическому пределу по distortion rate. Проще говоря, к пределу того, насколько хорошо такие векторы вообще можно сжимать при заданной битности. Для академической работы тезис уже сильный.
У большинства практических схем здесь старый компромисс. Либо нужно тяжелое офлайн-обучение, калибровка и кодбуки, либо метод быстрый и удобный для онлайна, но качество сжатия так себе. TurboQuant пытается этот компромисс сдвинуть.
Причем проблема не только в потере качества. Google в своем блоге отдельно пишут о еще одной неприятной детали классического vector quantization: memory overhead. Вы вроде бы экономите биты, но потом вынуждены тратить часть этой экономии на хранение quantization constants в полной точности для маленьких блоков данных. По их словам, такой overhead может добавлять еще 1-2 бита на число. То есть часть выигрыша просто съедается служебной нагрузкой.
На этом фоне TurboQuant выглядит как попытка решить сразу весь пакет проблем: уменьшить память, убрать лишний overhead, не требовать обучения или fine-tuning и при этом не развалить downstream-задачи.
Отдельно важно, что paper не сводит все к MSE. Для современных моделей этого недостаточно. В attention и retrieval критично сохранять inner product. Авторы прямо показывают, что quantizer, оптимизированный только по MSE, может давать смещенную оценку скалярного произведения. Поэтому у них двухшаговая схема: сначала основное сжатие, потом 1-битная коррекция остатка через QJL, чтобы убрать bias.
Если перевести это на нормальный язык, мысль простая: ужать вектор мало. Нужно сделать это так, чтобы модель после этого не начинала думать немного не о том.
По заявленным результатам картина выглядит сильно. В paper авторы пишут, что для KV-cache достигают quality neutrality на 3.5 битах на канал и лишь небольшую деградацию на 2.5 битах. В Needle-in-a-Haystack, по их данным, TurboQuant сохраняет качество полноточной модели при 4x-сжатии. На LongBench вариант с 3.5 битами идет практически вровень с full cache на Llama-3.1-8B-Instruct.
Но в блоге Google есть, возможно, еще более важный тезис. Там они отдельно подчеркивают, что TurboQuant умеет сжимать KV-cache до 3 бит без training и fine-tuning и без просадки качества на их тестах. Более того, они утверждают, что 4-bit TurboQuant дает до 8x ускорения при вычислении attention logits на H100 по сравнению с 32-bit unquantized keys.
Это прямой разговор про цену и скорость serving.
Не менее любопытна часть про vector search. Авторы утверждают, что TurboQuant обходит Product Quantization и RabitQ по recall, а время индексации у него почти нулевое. Для систем, где нужно хранить и искать по огромным индексам эмбеддингов, это потенциально очень большие деньги.
При этом голову терять, конечно, не стоит. Это история с очень сильными заявлениями, а значит тут особенно важна внешняя репликация. Формулировки вроде
Но в сухом остатке новость действительно большая.
Если внешняя проверка подтвердит хотя бы большую часть заявленного, это будет одна из самых важных инфраструктурных работ в AI за последнее время.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Google Research, DeepMind и NYU представили TurboQuant, и это может оказаться одной из самых важных инфраструктурных работ года в AI.
На бумаге выглядит не слишком захватывающе: vector quantization, сжатие высокоразмерных векторов, теоретические гарантии. На практике речь идет о двух очень дорогих вещах: KV-cache у больших языковых моделей и векторном поиске.
И там, и там старая проблема одна и та же. Нужно ужать данные как можно сильнее, но не испортить геометрию векторов, то есть расстояния и скалярные произведения. Если испортить, начинаются проблемы с attention, retrieval, ранжированием и качеством ответа модели.
Именно сюда TurboQuant и бьет.
Авторы утверждают, что их метод почти подходит к теоретическому пределу по distortion rate. Проще говоря, к пределу того, насколько хорошо такие векторы вообще можно сжимать при заданной битности. Для академической работы тезис уже сильный.
У большинства практических схем здесь старый компромисс. Либо нужно тяжелое офлайн-обучение, калибровка и кодбуки, либо метод быстрый и удобный для онлайна, но качество сжатия так себе. TurboQuant пытается этот компромисс сдвинуть.
Причем проблема не только в потере качества. Google в своем блоге отдельно пишут о еще одной неприятной детали классического vector quantization: memory overhead. Вы вроде бы экономите биты, но потом вынуждены тратить часть этой экономии на хранение quantization constants в полной точности для маленьких блоков данных. По их словам, такой overhead может добавлять еще 1-2 бита на число. То есть часть выигрыша просто съедается служебной нагрузкой.
На этом фоне TurboQuant выглядит как попытка решить сразу весь пакет проблем: уменьшить память, убрать лишний overhead, не требовать обучения или fine-tuning и при этом не развалить downstream-задачи.
Отдельно важно, что paper не сводит все к MSE. Для современных моделей этого недостаточно. В attention и retrieval критично сохранять inner product. Авторы прямо показывают, что quantizer, оптимизированный только по MSE, может давать смещенную оценку скалярного произведения. Поэтому у них двухшаговая схема: сначала основное сжатие, потом 1-битная коррекция остатка через QJL, чтобы убрать bias.
Если перевести это на нормальный язык, мысль простая: ужать вектор мало. Нужно сделать это так, чтобы модель после этого не начинала думать немного не о том.
По заявленным результатам картина выглядит сильно. В paper авторы пишут, что для KV-cache достигают quality neutrality на 3.5 битах на канал и лишь небольшую деградацию на 2.5 битах. В Needle-in-a-Haystack, по их данным, TurboQuant сохраняет качество полноточной модели при 4x-сжатии. На LongBench вариант с 3.5 битами идет практически вровень с full cache на Llama-3.1-8B-Instruct.
Но в блоге Google есть, возможно, еще более важный тезис. Там они отдельно подчеркивают, что TurboQuant умеет сжимать KV-cache до 3 бит без training и fine-tuning и без просадки качества на их тестах. Более того, они утверждают, что 4-bit TurboQuant дает до 8x ускорения при вычислении attention logits на H100 по сравнению с 32-bit unquantized keys.
Это прямой разговор про цену и скорость serving.
Не менее любопытна часть про vector search. Авторы утверждают, что TurboQuant обходит Product Quantization и RabitQ по recall, а время индексации у него почти нулевое. Для систем, где нужно хранить и искать по огромным индексам эмбеддингов, это потенциально очень большие деньги.
При этом голову терять, конечно, не стоит. Это история с очень сильными заявлениями, а значит тут особенно важна внешняя репликация. Формулировки вроде
zero accuracy loss, near-optimal distortion и up to 8x всегда нужно проверять на деталях реализации, baseline и настройках эксперимента.Но в сухом остатке новость действительно большая.
Если внешняя проверка подтвердит хотя бы большую часть заявленного, это будет одна из самых важных инфраструктурных работ в AI за последнее время.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8✍3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Как меняется устройство мысли
Спор об искусственном интеллекте запаздывает.
Публичная дискуссия по инерции сосредоточена на вопросе о том, когда машина окончательно превзойдет человека в интеллектуальной деятельности. Для практики этот вопрос уже не главный. Перелом происходит раньше: когда заметная часть интеллектуальных операций выходит за пределы индивидуального сознания и превращается во внешний вычислительный ресурс, доступный по запросу.
После этого меняется сама процедура решения задачи: сначала вызывается внешний контур рассуждения, затем человек проверяет, отбирает, исправляет и собирает итоговую позицию.
Порог уже пройден.
Интеллект начинает работать как инфраструктура. Эта перемена затрагивает производство знания, организацию интеллектуального труда и критерии профессиональной ценности.
Хороший язык для описания этого сдвига дает статья Стивена Шоу и Гидеона Наве из Уортона. Авторы расширяют классическую двухсистемную модель мышления и вводят третий контур — внешнее искусственное рассуждение. В этой схеме искусственный интеллект выступает как участник процесса суждения: подает варианты, формирует первичную интерпретацию, задает направление поиска решения и временами занимает место внутренней рассудочной работы.
Центральное понятие статьи — «когнитивная капитуляция».
Так авторы называют ситуацию, в которой человек принимает вывод модели с минимальной критической переработкой и присваивает его как собственное решение.
За этим стоит серия из трех исследований: 1372 участника и 9593 наблюдения. Участники обращались к помощнику более чем в половине случаев. В первом исследовании доступ к точному помощнику повышал точность ответов на 25 процентных пунктов по сравнению с режимом без внешней помощи. Доступ к ошибающемуся помощнику снижал точность на 15 пунктов. В сводном анализе трех исследований вероятность правильного ответа была выше более чем в 16 раз, когда внешний контур выдавал корректный ответ, чем когда он выдавал ошибочный.
Во всех трех исследованиях использование внешнего контура повышало субъективную уверенность участников, в том числе тогда, когда помощник ошибался. Значит, менялось не только качество решения. Перестраивалась связь между истинностью ответа и чувством интеллектуальной надежности.
Авторы проверяли, можно ли ослабить этот эффект. Дефицит времени снижал базовую точность на 13,5 процентного пункта, но зависимость от качества внешнего помощника сохранялась. Денежное вознаграждение за точность и немедленная обратная связь улучшали результаты, но не устраняли проблему. Среди активных пользователей помощника точность при корректных подсказках выросла с 77,2 до 84,8 процента, а при ошибочных — с 26,8 до 40,6 процента.
Есть и различия между людьми. Более высокое доверие к искусственному интеллекту повышало склонность следовать его ответам. Склонность к аналитическому мышлению и более высокий уровень подвижного интеллекта действовали как защита. Когда внешний контур выдавал неверный ответ, в среднем 73,2 процента таких эпизодов заканчивались когнитивной капитуляцией.
Отсюда следует более широкий вывод о труде. Меняется стоимость самой интеллектуальной работы как фактора производства. Если формализация, синтез, первичная интерпретация, построение аргумента и черновое проектирование становятся дешевой услугой, редкостью перестает быть индивидуальная интеллектуальная мощность в прежнем смысле слова.
Для профессий умственного труда это означает структурное сокращение спроса на значительную часть человеческого участия.
Выше поднимаются другие способности: постановка задачи, дисциплина проверки, удержание контекста, различение существенного и несущественного, ответственность за итоговое решение. Поэтому центральным становится вопрос об автономии субъекта в условиях, когда рассуждение все чаще разворачивается во внешнем контуре.
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Спор об искусственном интеллекте запаздывает.
Публичная дискуссия по инерции сосредоточена на вопросе о том, когда машина окончательно превзойдет человека в интеллектуальной деятельности. Для практики этот вопрос уже не главный. Перелом происходит раньше: когда заметная часть интеллектуальных операций выходит за пределы индивидуального сознания и превращается во внешний вычислительный ресурс, доступный по запросу.
После этого меняется сама процедура решения задачи: сначала вызывается внешний контур рассуждения, затем человек проверяет, отбирает, исправляет и собирает итоговую позицию.
Порог уже пройден.
Интеллект начинает работать как инфраструктура. Эта перемена затрагивает производство знания, организацию интеллектуального труда и критерии профессиональной ценности.
Хороший язык для описания этого сдвига дает статья Стивена Шоу и Гидеона Наве из Уортона. Авторы расширяют классическую двухсистемную модель мышления и вводят третий контур — внешнее искусственное рассуждение. В этой схеме искусственный интеллект выступает как участник процесса суждения: подает варианты, формирует первичную интерпретацию, задает направление поиска решения и временами занимает место внутренней рассудочной работы.
Центральное понятие статьи — «когнитивная капитуляция».
Так авторы называют ситуацию, в которой человек принимает вывод модели с минимальной критической переработкой и присваивает его как собственное решение.
За этим стоит серия из трех исследований: 1372 участника и 9593 наблюдения. Участники обращались к помощнику более чем в половине случаев. В первом исследовании доступ к точному помощнику повышал точность ответов на 25 процентных пунктов по сравнению с режимом без внешней помощи. Доступ к ошибающемуся помощнику снижал точность на 15 пунктов. В сводном анализе трех исследований вероятность правильного ответа была выше более чем в 16 раз, когда внешний контур выдавал корректный ответ, чем когда он выдавал ошибочный.
Во всех трех исследованиях использование внешнего контура повышало субъективную уверенность участников, в том числе тогда, когда помощник ошибался. Значит, менялось не только качество решения. Перестраивалась связь между истинностью ответа и чувством интеллектуальной надежности.
Авторы проверяли, можно ли ослабить этот эффект. Дефицит времени снижал базовую точность на 13,5 процентного пункта, но зависимость от качества внешнего помощника сохранялась. Денежное вознаграждение за точность и немедленная обратная связь улучшали результаты, но не устраняли проблему. Среди активных пользователей помощника точность при корректных подсказках выросла с 77,2 до 84,8 процента, а при ошибочных — с 26,8 до 40,6 процента.
Есть и различия между людьми. Более высокое доверие к искусственному интеллекту повышало склонность следовать его ответам. Склонность к аналитическому мышлению и более высокий уровень подвижного интеллекта действовали как защита. Когда внешний контур выдавал неверный ответ, в среднем 73,2 процента таких эпизодов заканчивались когнитивной капитуляцией.
Отсюда следует более широкий вывод о труде. Меняется стоимость самой интеллектуальной работы как фактора производства. Если формализация, синтез, первичная интерпретация, построение аргумента и черновое проектирование становятся дешевой услугой, редкостью перестает быть индивидуальная интеллектуальная мощность в прежнем смысле слова.
Для профессий умственного труда это означает структурное сокращение спроса на значительную часть человеческого участия.
Выше поднимаются другие способности: постановка задачи, дисциплина проверки, удержание контекста, различение существенного и несущественного, ответственность за итоговое решение. Поэтому центральным становится вопрос об автономии субъекта в условиях, когда рассуждение все чаще разворачивается во внешнем контуре.
Please open Telegram to view this post
VIEW IN TELEGRAM
1✍6⚡5🔥2👨💻2
Внутренности Клода
Внеплановый пост
Вчера утёк полный исходный код Claude Code, а я взял и сделал in-depth техническую документацию по архитектуре и внутренностям CC — на основе анализа 1 884 файлов и 512 тыс. строк TypeScript. Должно быть полезно любому, кто использует CC как инструмент в своём пайплайне.
ЗДЕСЬ.
Там 8 разделов:
Обзор архитектуры
Точки входа, поток данных, граф модулей, конфиг, модель процессов, состояние
Query Engine
Цикл диалога, стриминг, управление токенами, восстановление после ошибок, компакция
Система инструментов
Интерфейс инструментов, реестр, жизненный цикл выполнения, разрешения, отложенные инструменты
Агент и координатор
Субагенты, режим координатора, изоляция, fork-протокол, управление задачами
Интеграция MCP
Жизненный цикл сервера, проксирование инструментов, OAuth, ресурсы, elicitation
Контекст и системные промпты
Сборка промпта, CLAUDE.md, авто-память, git-контекст, сжатие
Хуки, скиллы, разрешения
События хуков, формат скиллов, режимы разрешений, песочница, трекинг отказов
Сервер, bridge, remote
Режим сервера, bridge-протокол, CCR, WebSocket, cron, управление состоянием
❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ ❗️ / Не запрещена в РФ
Внеплановый пост
Вчера утёк полный исходный код Claude Code, а я взял и сделал in-depth техническую документацию по архитектуре и внутренностям CC — на основе анализа 1 884 файлов и 512 тыс. строк TypeScript. Должно быть полезно любому, кто использует CC как инструмент в своём пайплайне.
ЗДЕСЬ.
Там 8 разделов:
Обзор архитектуры
Точки входа, поток данных, граф модулей, конфиг, модель процессов, состояние
Query Engine
Цикл диалога, стриминг, управление токенами, восстановление после ошибок, компакция
Система инструментов
Интерфейс инструментов, реестр, жизненный цикл выполнения, разрешения, отложенные инструменты
Агент и координатор
Субагенты, режим координатора, изоляция, fork-протокол, управление задачами
Интеграция MCP
Жизненный цикл сервера, проксирование инструментов, OAuth, ресурсы, elicitation
Контекст и системные промпты
Сборка промпта, CLAUDE.md, авто-память, git-контекст, сжатие
Хуки, скиллы, разрешения
События хуков, формат скиллов, режимы разрешений, песочница, трекинг отказов
Сервер, bridge, remote
Режим сервера, bridge-протокол, CCR, WebSocket, cron, управление состоянием
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥7 5👨💻3✍2