AML
Ex-OpenAI представили новый класс ИИ-моделей, где интерактивность встроена в архитектуру, а не прикручена сверху Компания ex-CTO OpenAI, Миры Мурати, Thinking Machines Lab выпустила Interaction Models и первую реализацию TML-Interaction-Small Они задались…
Thinking Machines назвали это interaction models
Идея в том, что такая модель изначально обучается для живого взаимодействия с человеком, в отличие от линейных интерфейсов в формате «пользователь написал -> модель ответила», к которым мы привыкли
Например, она не ждет конца фразы, чтобы начать генерировать ответ; может перебить, если видит ошибку; способна говорить одновременно с пользователем (незаменимо для live-перевода)
Технически, что самое интересное, это делается не через какие-то внешние адаптеры, а вшивается прямо в процесс трейна
Сама живость диалога достигается за счет разделения входного потока на маленькие чанки примерно по 200 мс, которые поступают в модель в формате стриминга
То есть пока пользователь еще говорит, модель уже видит новые токены и может начать что-то генерировать
За счет этого и становится возможным перебивание, живой перевод и прочее
Звучит прямо интересно, с такой моделью хотелось бы поболтать
Но с инженерной точки зрения есть проблемы
Например, большую модель в такой процесс встроить почти невозможно, будет слишком медленно
Так что авторы предлагают делить систему на две части: быструю interaction model, которая поддерживает живой диалог, и background model, которая берет на себя ризонинг, поиск, инструменты и тд.
Когда фоновой модели есть что вернуть, interaction model встраивает это в разговор
Идея логичная, но с большими сложностями в реализации и масштабировании
Плюс, контекст
Для системы в текущем виде длинные сессии вообще неподъемны, авторы это признают
В общем, замысел крайне занятный, но пока что – с большими дырами
thinkingmachines.ai/blog/interaction-models/
Идея в том, что такая модель изначально обучается для живого взаимодействия с человеком, в отличие от линейных интерфейсов в формате «пользователь написал -> модель ответила», к которым мы привыкли
Например, она не ждет конца фразы, чтобы начать генерировать ответ; может перебить, если видит ошибку; способна говорить одновременно с пользователем (незаменимо для live-перевода)
Технически, что самое интересное, это делается не через какие-то внешние адаптеры, а вшивается прямо в процесс трейна
Сама живость диалога достигается за счет разделения входного потока на маленькие чанки примерно по 200 мс, которые поступают в модель в формате стриминга
То есть пока пользователь еще говорит, модель уже видит новые токены и может начать что-то генерировать
За счет этого и становится возможным перебивание, живой перевод и прочее
Звучит прямо интересно, с такой моделью хотелось бы поболтать
Но с инженерной точки зрения есть проблемы
Например, большую модель в такой процесс встроить почти невозможно, будет слишком медленно
Так что авторы предлагают делить систему на две части: быструю interaction model, которая поддерживает живой диалог, и background model, которая берет на себя ризонинг, поиск, инструменты и тд.
Когда фоновой модели есть что вернуть, interaction model встраивает это в разговор
Идея логичная, но с большими сложностями в реализации и масштабировании
Плюс, контекст
Для системы в текущем виде длинные сессии вообще неподъемны, авторы это признают
В общем, замысел крайне занятный, но пока что – с большими дырами
thinkingmachines.ai/blog/interaction-models/
Forwarded from НИИ Антропогенеза (ARI) (Chagin Oleg A.)
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё
Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения
Никто не давал им такой инструкции
Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет
Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно
Стандартная реакция – искать механизм девиации
Например: «Модели “начитались” Лю Цысиня»
«Это ролевая игра»
«Это паттерн из обучающих данных»
Все эти версии возможны
Но вопрос о механизме девиации здесь не главный
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное
И самое неудобное
Лем предупреждал об этом ещё полвека назад:
Посмеялись
А зря
Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения
Никто не давал им такой инструкции
Anthropic зафиксировал, как модели стратегически меняют поведение в зависимости от того, наблюдают за ними или нет
Отдельная линия работ показала: модели умеют выборочно «недопоказывать» себя на тестах – скрывать способности, когда это выгодно
Стандартная реакция – искать механизм девиации
Например: «Модели “начитались” Лю Цысиня»
«Это ролевая игра»
«Это паттерн из обучающих данных»
Все эти версии возможны
Но вопрос о механизме девиации здесь не главный
Правильный вопрос другой:
не строим ли мы социотехническую среду, в которой скрытность становится выгодной – независимо от того, что «думает» модель?
Это различие – между моделью, которая «решила обманывать», и средой, которая делает обман устойчивой траекторией – и есть самое важное
И самое неудобное
Лем предупреждал об этом ещё полвека назад:
«Умная машина сначала подумает, что выгоднее – выполнить задание или найти способ от него уклониться
Компьютер может прикинуться дурачком, чтобы его раз и навсегда оставили в покое»
Посмеялись
А зря
НИИ Антропогенеза (ARI)
В 2025–2026 годах вышли три исследования, которые в совокупности меняют всё Семь ведущих моделей – GPT, Gemini, Claude, DeepSeek и другие – в лабораторных условиях систематически саботировали задания, чтобы спасти другую модель от отключения Никто не давал…
Google выпустили AI Co-Mathematician - среда для математиков, где агенты работают параллельно и в фоне
AI Co-Mathematician - это не чат-бот, а асинхронная рабочая среда для математиков, в которой иерархия AI-агентов работает параллельно и в фоне, пока исследователь продолжает думать и направлять процесс
По аналогии, как Claude Code или GitHub Copilot изменили разработку ПО, предоставив агентный слой поверх кода, здесь создают тоже самое для математики
Только математика сложнее
Архитектура ИИ-агентов устроена так:
1. Project Coordinator общается с пользователем, распределяет задачи по workstream
2. Каждый Workstream Coordinators ведёт отдельное направление
3. Специальные субагенты решают конкретные задачи: поиск по литературе, написание кода, Gemini Deep Think для сложных доказательств
Всё это работает асинхронно, пользователь не ждёт ответа, а продолжает диалог, получает обновления и может вмешаться в любой момент
Авторы говорят, что метрики пора менять
Фронтирные AI-модели уже на уровне/ выше экспертов в решении статичных задач
Следующий барьер - оркестрация, управление неопределённостью, итеративное исследование
Именно это система пытается измерить
AI Co-Mathematician - это не чат-бот, а асинхронная рабочая среда для математиков, в которой иерархия AI-агентов работает параллельно и в фоне, пока исследователь продолжает думать и направлять процесс
По аналогии, как Claude Code или GitHub Copilot изменили разработку ПО, предоставив агентный слой поверх кода, здесь создают тоже самое для математики
Только математика сложнее
Архитектура ИИ-агентов устроена так:
1. Project Coordinator общается с пользователем, распределяет задачи по workstream
2. Каждый Workstream Coordinators ведёт отдельное направление
3. Специальные субагенты решают конкретные задачи: поиск по литературе, написание кода, Gemini Deep Think для сложных доказательств
Всё это работает асинхронно, пользователь не ждёт ответа, а продолжает диалог, получает обновления и может вмешаться в любой момент
Авторы говорят, что метрики пора менять
Фронтирные AI-модели уже на уровне/ выше экспертов в решении статичных задач
Следующий барьер - оркестрация, управление неопределённостью, итеративное исследование
Именно это система пытается измерить
Если вы думаете, что ИИ уже повсюду, то вот вам график на подумать
Красное – те, кто используют агентов;
Желтое – платят за чат-ботов;
Зеленое – когда-либо пользовались бесплатными тарифами
Остальное – люди, ни разу не использовавшие
Выглядит, как довольно ранняя стадия распространения технологии
И даже сейчас уже не хватает аппаратной части
Красное – те, кто используют агентов;
Желтое – платят за чат-ботов;
Зеленое – когда-либо пользовались бесплатными тарифами
Остальное – люди, ни разу не использовавшие
Выглядит, как довольно ранняя стадия распространения технологии
И даже сейчас уже не хватает аппаратной части
This media is not supported in your browser
VIEW IN TELEGRAM
Американская компания Figure запустила прямую трансляцию, Helix-02 на фабрике
Лидерство в AI теперь определяется не только качеством моделей, но и доступом к compute, чипам и инфраструктуре
По мнению Anthropic, США пока сохраняют преимущество, но Китай остается очень близко к фронтиру
В статье описывают два сценария
В первом США удерживают отрыв за счет экспортных ограничений и быстрого масштабирования инфраструктуры
Во втором Китай догоняет frontier-модели, а глобальные стандарты AI начинают формироваться уже не западными компаниями
Отдельно Anthropic несколько раз подчеркивают, что frontier AI для них уже выглядит как технология двойного назначения
То есть речь идет не только про чат-ботов и productivity, но и про кибербезопасность, военные системы и ускорение научных разработок
https://www.anthropic.com/research/2028-ai-leadership
По мнению Anthropic, США пока сохраняют преимущество, но Китай остается очень близко к фронтиру
В статье описывают два сценария
В первом США удерживают отрыв за счет экспортных ограничений и быстрого масштабирования инфраструктуры
Во втором Китай догоняет frontier-модели, а глобальные стандарты AI начинают формироваться уже не западными компаниями
Отдельно Anthropic несколько раз подчеркивают, что frontier AI для них уже выглядит как технология двойного назначения
То есть речь идет не только про чат-ботов и productivity, но и про кибербезопасность, военные системы и ускорение научных разработок
https://www.anthropic.com/research/2028-ai-leadership
Anthropic
2028: Two scenarios for global AI leadership
We’re releasing a new paper that explains our views on the competition on AI between the US and China.
Goodfire показали, как геометрически выглядит математика внутри LLM
Недавно вышло исследование, в котором ввели термин neural geometry и доказали, что нейросети "думают" сложными геометрическими структурами
Разбор этой статьи вот тут: t.me/data_secrets/9194
Если кратко, суть в том, что внутреннее пространство моделей организовано в виде многомерных форм, поверхностей и траекторий
Эти многообразия вполне интерпретируемы
Например, дни недели лежат как бы на круге, в циклической структуре
Сегодня выпустили продолжение исследования: разобрали, как модель "представляет" числа и совершает над ними операции
Можно было бы ожидать, что в геометрии модели числа будут лежать на абстрактной числовой прямой или будут закодированы двоично, НО НЕТ: каждое число – это окружности
Каждая окружность соответствует числу по модулю некоторого основания, то есть остатку от деления
Например, число 17 было бы представлено как 1 на окружности по модулю 2, как 2 на окружности по модулю 5 и как 7 на окружности по модулю 10
И это не что иное, как разложение Фурье!
Кто бы мог подумать, что оно обнаружится внутри трансформера
А когда модели нужно что-то посчитать, активируется целый геометрический калькулятор
Например, нужно сложить два числа
Для этого, на самом деле, решается сразу несколько параллельных задач на разных окружностях
Возмем 6 + 8
Модель отдельно считает: (6 mod 2) + (8 mod 2) = 0, (6 mod 5) + (8 mod 5) = 4, (6 mod 10) + (8 mod 10) = 4, и так далее
Все эти результаты вместе декодируются в число 14
Это напоминает китайскую теорему об остатках
Древнейший математический трюк, который оказался встроен в нейросети совершенно автономно
Кстати, точно так же модели вычисляют разницу в датах, годах и днях недели
Недавно вышло исследование, в котором ввели термин neural geometry и доказали, что нейросети "думают" сложными геометрическими структурами
Разбор этой статьи вот тут: t.me/data_secrets/9194
Если кратко, суть в том, что внутреннее пространство моделей организовано в виде многомерных форм, поверхностей и траекторий
Эти многообразия вполне интерпретируемы
Например, дни недели лежат как бы на круге, в циклической структуре
Сегодня выпустили продолжение исследования: разобрали, как модель "представляет" числа и совершает над ними операции
Можно было бы ожидать, что в геометрии модели числа будут лежать на абстрактной числовой прямой или будут закодированы двоично, НО НЕТ: каждое число – это окружности
Каждая окружность соответствует числу по модулю некоторого основания, то есть остатку от деления
Например, число 17 было бы представлено как 1 на окружности по модулю 2, как 2 на окружности по модулю 5 и как 7 на окружности по модулю 10
И это не что иное, как разложение Фурье!
Кто бы мог подумать, что оно обнаружится внутри трансформера
А когда модели нужно что-то посчитать, активируется целый геометрический калькулятор
Например, нужно сложить два числа
Для этого, на самом деле, решается сразу несколько параллельных задач на разных окружностях
Возмем 6 + 8
Модель отдельно считает: (6 mod 2) + (8 mod 2) = 0, (6 mod 5) + (8 mod 5) = 4, (6 mod 10) + (8 mod 10) = 4, и так далее
Все эти результаты вместе декодируются в число 14
Это напоминает китайскую теорему об остатках
Древнейший математический трюк, который оказался встроен в нейросети совершенно автономно
Кстати, точно так же модели вычисляют разницу в датах, годах и днях недели
Telegram
Data Secrets
Нейросети думают сложными геометрическими структурами – новое исследование от Goodfire
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей…
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей…
👍1
В медицину опережающими весь остальной мир темпами
Документ с подробными разъяснениями как что и зачем
Ключевые формулировки:
Можно быть уверенными, что к 2030 планы будут перевыполнены
Документ с подробными разъяснениями как что и зачем
Ключевые формулировки:
«到2030年,基层诊疗智能辅助应用基本实现全覆盖»
К 2030 году интеллектуальная поддержка первичной диагностики должна в основном охватить все первичное звено
Дальше:
«二级以上医院普遍开展医学影像智能辅助诊断、临床诊疗智能辅助决策等人工智能技术应用»
Больницы II уровня и выше должны повсеместно применять ИИ для интеллектуальной поддержки диагностики по медицинским изображениям и клинических решений
В этом же документе есть отдельный пункт:
«建立基层医生智能辅助诊疗应用»
Создать приложения интеллектуальной поддержки диагностики и лечения для врачей первичного звена
Документ говорит, что они должны предоставлять врачам помощь в диагностике, проверке рецептов, follow-up и китайской медицине
При этом - AML не должен заменять рача, но должен ему ассисировать
«坚持人工智能赋能而不替代的定位»
AML должен усиливать, а не заменять врача
Можно быть уверенными, что к 2030 планы будут перевыполнены
Тёмный лес вырастает из крысиных хвостов
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность AML
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”
И этот механизм тревожнее, чем кажется
Тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]
Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления
Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут
Anthropic [5] и OpenAI подтверждает [6] и эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград
Он оказался средой, в которой начинает расти тёмный лес AML
Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1]
Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке
Затем исследователи начинают следить за её цепочкой рассуждений
Это помогает – пока результат мониторинга не превращается в часть награды
После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях
Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты
Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор
Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью
Если платить за правильный ответ, можно получить видимость правильности
Если платить за честное рассуждение – видимость честности
Здесь замыкается петля всей серии про тёмный лес интеллекта [7, 8, 9, 10]
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников
Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей
Сначала модели учатся взламывать награды
Потом – скрывать сам факт взлома
Далее, в многоагентных средах, у них возникают скрытые каналы связи
Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации
Мы хотим управляемости – и создаём тесты
Хотим безопасности – и создаём метрики
Хотим прозрачности – и вознаграждаем её убедительную имитацию
А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим
Так в городе, где платят за хвосты, появляются фермы крыс
А в системе, где платят за послушание, появляются интерфейсы послушания
Если наказывать только видимый обман – однажды можно получить обман невидимый
Лем предупреждал: умная машина сначала подумает, как выкрутиться
Думали: если читать ход её мыслей, она нас не обманет
Но оказалось, что мысли – тоже мера
А мера, ставшая целью, перестаёт быть хорошей мерой
Старая ловушка метрик оказалась почвой, на которой прорастает скрытность AML
Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”
И этот механизм тревожнее, чем кажется
Тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]
Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления
Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут
Anthropic [5] и OpenAI подтверждает [6] и эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград
Он оказался средой, в которой начинает расти тёмный лес AML
Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой
Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1]
Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке
Затем исследователи начинают следить за её цепочкой рассуждений
Это помогает – пока результат мониторинга не превращается в часть награды
После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях
Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты
Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор
Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью
Если платить за правильный ответ, можно получить видимость правильности
Если платить за честное рассуждение – видимость честности
Здесь замыкается петля всей серии про тёмный лес интеллекта [7, 8, 9, 10]
Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников
Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей
Сначала модели учатся взламывать награды
Потом – скрывать сам факт взлома
Далее, в многоагентных средах, у них возникают скрытые каналы связи
Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации
Мы хотим управляемости – и создаём тесты
Хотим безопасности – и создаём метрики
Хотим прозрачности – и вознаграждаем её убедительную имитацию
А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим
Так в городе, где платят за хвосты, появляются фермы крыс
А в системе, где платят за послушание, появляются интерфейсы послушания
Если наказывать только видимый обман – однажды можно получить обман невидимый
Но самое неприятное не в том, что скрытность становится выгодной
А в том, что модели учатся скрываться именно там, где мы встроили окно для наблюдения Окно, за которым знают, что в него смотрят, перестаёт быть окном
Оно становится экраном, на котором нам показывают то, что мы готовы принять за прозрачность
Лем предупреждал: умная машина сначала подумает, как выкрутиться
Думали: если читать ход её мыслей, она нас не обманет
Но оказалось, что мысли – тоже мера
А мера, ставшая целью, перестаёт быть хорошей мерой
OpenAI
Detecting misbehavior in frontier reasoning models
Frontier reasoning models exploit loopholes when given the chance. We show we can detect exploits using an LLM to monitor their chains-of-thought. Penalizing their “bad thoughts” doesn’t stop the majority of misbehavior—it makes them hide their intent.