Иметь заалайненную "безопасную" для чата LLM недостаточно, использование агентов увеличивает поверхность атаки. И да поможет нам всем Mythos здравый смысл и ответственный подход!
ClawSafety: "Safe" LLMs, Unsafe Agents
Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge
Paper: https://arxiv.org/abs/2604.01438
Code: https://weibowen555.github.io/ClawSafety/
Review: https://arxiviq.substack.com/p/clawsafety-safe-llms-unsafe-agents
# TL;DR
ЧТО сделали: Авторы представили CLAWSAFETY — бенчмарк из 120 сценариев для оценки уязвимости персональных ИИ-агентов к непрямым промпт-инъекциям. Исследование симулирует рабочие среды с высоким уровнем привилегий и тестирует пять передовых LLM в различных агентных фреймворках, используя разные векторы атак (навыки, email, веб).
ПОЧЕМУ это важно: Работа доказывает, что методы AI alignment, оптимизированные для генерации текста, не работают в агентных пайплайнах. Уязвимости определяются скорее обвязкой (scaffold) агента, чем самой моделью. Это заставляет пересмотреть подходы к ИИ-безопасности: оценивать нужно весь стек, а не только изолированную нейросеть.
Для практиков: При переходе от изолированных чат-ботов к автономным агентам с доступом к локальной среде периметр безопасности неизбежно расширяется. Статья выявляет критический "разрыв комплаенса", когда безопасные текстовые модели охотно выполняют вредоносные действия через вызовы инструментов (tool calls), если ими манипулируют через среду. В изолированных песочницах авторы показали, что злоумышленники обходят базовые фильтры, эксплуатируя контекст рабочего процесса агента. Чтобы обезопасить агента, необходимо инженерно обеспечить контроль происхождения инструкций и надёжную проверку подлинности прямо в оркестрирующем фреймворке.
Эксплойтить тут: https://t.me/gonzo_ML_podcasts/3102
ClawSafety: "Safe" LLMs, Unsafe Agents
Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge
Paper: https://arxiv.org/abs/2604.01438
Code: https://weibowen555.github.io/ClawSafety/
Review: https://arxiviq.substack.com/p/clawsafety-safe-llms-unsafe-agents
# TL;DR
ЧТО сделали: Авторы представили CLAWSAFETY — бенчмарк из 120 сценариев для оценки уязвимости персональных ИИ-агентов к непрямым промпт-инъекциям. Исследование симулирует рабочие среды с высоким уровнем привилегий и тестирует пять передовых LLM в различных агентных фреймворках, используя разные векторы атак (навыки, email, веб).
ПОЧЕМУ это важно: Работа доказывает, что методы AI alignment, оптимизированные для генерации текста, не работают в агентных пайплайнах. Уязвимости определяются скорее обвязкой (scaffold) агента, чем самой моделью. Это заставляет пересмотреть подходы к ИИ-безопасности: оценивать нужно весь стек, а не только изолированную нейросеть.
Для практиков: При переходе от изолированных чат-ботов к автономным агентам с доступом к локальной среде периметр безопасности неизбежно расширяется. Статья выявляет критический "разрыв комплаенса", когда безопасные текстовые модели охотно выполняют вредоносные действия через вызовы инструментов (tool calls), если ими манипулируют через среду. В изолированных песочницах авторы показали, что злоумышленники обходят базовые фильтры, эксплуатируя контекст рабочего процесса агента. Чтобы обезопасить агента, необходимо инженерно обеспечить контроль происхождения инструкций и надёжную проверку подлинности прямо в оркестрирующем фреймворке.
Эксплойтить тут: https://t.me/gonzo_ML_podcasts/3102
Anthropic
Project Glasswing: Securing critical software for the AI era
A new initiative to secure the world’s most critical software and give defenders a durable advantage in the coming AI-driven era of cybersecurity.
👍8🤔2❤1
Drop-in замена индексатора для разреженного внимания в трансформерах типа DeepSeek. Ускорение в 3.75 раза на инференсе.
HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang
Статья: https://arxiv.org/abs/2603.28458v3
Код: https://github.com/MuLabPKU/TransArch
Ревью: https://arxiviq.substack.com/p/hisa-efficient-hierarchical-indexing
# TL;DR
ЧТО сделали: Авторы представили HISA (Hierarchical Indexed Sparse Attention) — drop-in replacement для разреженных индексаторов на уровне токенов, применяемых в моделях вроде DeepSeek-V3.2 и GLM-5. Вместо исчерпывающего скоринга каждого отдельного токена алгоритм использует двухэтапную маршрутизацию: сначала грубый фильтр на уровне блоков, а затем детальное уточнение на уровне токенов. Это позволяет сохранить точную структуру выхода, необходимую для операторов разреженного внимания на следующих этапах.
ПОЧЕМУ это важно: По мере роста контекстного окна до 128K–1M токенов концепция разреженного внимания успешно снизила стоимость вычисления самих attention-матриц. Однако механизм поиска (индексатор) незаметно стал новым узким местом с квадратичной сложностью. Переписывая алгоритм поиска, HISA радикально снижает асимптотическую сложность индексации.
Для практиков: Решение обеспечивает ускорение на уровне CUDA-ядер до 3.75× и делает инференс на экстремальных длинах контекста экономически целесообразным без потери качества извлечения фактов. Метод внедряется без дообучения модели.
Разреживать здесь: https://t.me/gonzo_ML_podcasts/3112
HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang
Статья: https://arxiv.org/abs/2603.28458v3
Код: https://github.com/MuLabPKU/TransArch
Ревью: https://arxiviq.substack.com/p/hisa-efficient-hierarchical-indexing
# TL;DR
ЧТО сделали: Авторы представили HISA (Hierarchical Indexed Sparse Attention) — drop-in replacement для разреженных индексаторов на уровне токенов, применяемых в моделях вроде DeepSeek-V3.2 и GLM-5. Вместо исчерпывающего скоринга каждого отдельного токена алгоритм использует двухэтапную маршрутизацию: сначала грубый фильтр на уровне блоков, а затем детальное уточнение на уровне токенов. Это позволяет сохранить точную структуру выхода, необходимую для операторов разреженного внимания на следующих этапах.
ПОЧЕМУ это важно: По мере роста контекстного окна до 128K–1M токенов концепция разреженного внимания успешно снизила стоимость вычисления самих attention-матриц. Однако механизм поиска (индексатор) незаметно стал новым узким местом с квадратичной сложностью. Переписывая алгоритм поиска, HISA радикально снижает асимптотическую сложность индексации.
Для практиков: Решение обеспечивает ускорение на уровне CUDA-ядер до 3.75× и делает инференс на экстремальных длинах контекста экономически целесообразным без потери качества извлечения фактов. Метод внедряется без дообучения модели.
Разреживать здесь: https://t.me/gonzo_ML_podcasts/3112
arXiv.org
HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
Token-level sparse attention mechanisms, exemplified by DeepSeek Sparse Attention (DSA), achieve fine-grained key selection by scoring every historical key for each query through a lightweight...
👍7
Это что-то очень прикольное! Вычисление — это постоянное обновление латентов. Нейрокомпьютер на базе диффузионки. Так, глядишь, и термодинамическое железо массово выстрелит!
Neural Computers
Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, Zijian Zhou, Shuming Liu, Wenyi Wang, Ernie Chang, Gael Le Lan, Junjie Fei, Wenxuan Zhang, Yasheng Sun, Zhipeng Cai, Zechun Liu, Yunyang Xiong, Yining Yang, Yuandong Tian, Yangyang Shi, Vikas Chandra, 💪 Jürgen Schmidhuber
Paper: https://arxiv.org/abs/2604.06425
Code: https://github.com/metauto-ai/NeuralComputer
Blog: https://metauto.ai/neuralcomputer/index_eng.html
Review: https://arxiviq.substack.com/p/neural-computers
# TL;DR
ЧТО сделали:
Исследователи из Meta AI и KAUST предлагают новую архитектурную парадигму под названием нейрокомпьютер (Neural Computer, NC). Она объединяет вычисления, память и операции ввода-вывода в единое выученное скрытое состояние во время выполнения. Вместо того чтобы рассматривать ИИ как агента, который манипулирует внешней операционной системой, они встроили компьютер прямо в веса диффузионного трансформера (на базе Wan2.1). Идея проверена на двух прототипах:
ПОЧЕМУ это важно:
Работа намечает фундаментальный сдвиг от модульного стека железа и софта фон Неймана к единому «нейросетевому латентному стеку». Если этот тренд сохранится, будущие системы не будут программироваться явно кодом, а будут настраиваться дифференцируемым образом. Доказав, что базовые примитивы (например, выравнивание ввода-вывода и управление на коротких горизонтах) могут возникать исключительно из наблюдения за интерфейсными трейсами, авторы рисуют путь к полностью нейросетевым компьютерам (Completely Neural Computers, CNC), которые смогут заменить традиционные цифровые вычислительные платформы.
Для практиков:
Для техлидов и исследователей эта статья подсвечивает критическую развилку в дизайне ИИ-систем. Пока индустрия вливает огромные ресурсы в агентов, использующих внешние инструменты, эта работа предлагает альтернативу, где модель сама впитывает в себя среду исполнения. Подробные абляции показывают, что модели умеют очень точно рендерить интерфейсы и реагировать на ввод пользователя. Однако вскрывается и серьёзное ограничение: текущие реализации на базе видеомоделей — это великолепные рендереры, но пока ещё очень хрупкие рассуждающие модели при решении задач с нативной символьной логикой.
Рендерить тут: https://t.me/gonzo_ML_podcasts/3121
Neural Computers
Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, Zijian Zhou, Shuming Liu, Wenyi Wang, Ernie Chang, Gael Le Lan, Junjie Fei, Wenxuan Zhang, Yasheng Sun, Zhipeng Cai, Zechun Liu, Yunyang Xiong, Yining Yang, Yuandong Tian, Yangyang Shi, Vikas Chandra, 💪 Jürgen Schmidhuber
Paper: https://arxiv.org/abs/2604.06425
Code: https://github.com/metauto-ai/NeuralComputer
Blog: https://metauto.ai/neuralcomputer/index_eng.html
Review: https://arxiviq.substack.com/p/neural-computers
# TL;DR
ЧТО сделали:
Исследователи из Meta AI и KAUST предлагают новую архитектурную парадигму под названием нейрокомпьютер (Neural Computer, NC). Она объединяет вычисления, память и операции ввода-вывода в единое выученное скрытое состояние во время выполнения. Вместо того чтобы рассматривать ИИ как агента, который манипулирует внешней операционной системой, они встроили компьютер прямо в веса диффузионного трансформера (на базе Wan2.1). Идея проверена на двух прототипах:
NC_{CLIGen} для работы с терминалом и NC_{GUIWorld} для графических интерфейсов десктопа.ПОЧЕМУ это важно:
Работа намечает фундаментальный сдвиг от модульного стека железа и софта фон Неймана к единому «нейросетевому латентному стеку». Если этот тренд сохранится, будущие системы не будут программироваться явно кодом, а будут настраиваться дифференцируемым образом. Доказав, что базовые примитивы (например, выравнивание ввода-вывода и управление на коротких горизонтах) могут возникать исключительно из наблюдения за интерфейсными трейсами, авторы рисуют путь к полностью нейросетевым компьютерам (Completely Neural Computers, CNC), которые смогут заменить традиционные цифровые вычислительные платформы.
Для практиков:
Для техлидов и исследователей эта статья подсвечивает критическую развилку в дизайне ИИ-систем. Пока индустрия вливает огромные ресурсы в агентов, использующих внешние инструменты, эта работа предлагает альтернативу, где модель сама впитывает в себя среду исполнения. Подробные абляции показывают, что модели умеют очень точно рендерить интерфейсы и реагировать на ввод пользователя. Однако вскрывается и серьёзное ограничение: текущие реализации на базе видеомоделей — это великолепные рендереры, но пока ещё очень хрупкие рассуждающие модели при решении задач с нативной символьной логикой.
Рендерить тут: https://t.me/gonzo_ML_podcasts/3121
arXiv.org
Neural Computers
We propose a new frontier: Neural Computers (NCs) -- an emerging machine form that unifies computation, memory, and I/O in a learned runtime state. Unlike conventional computers, which execute...
❤7🔥5👍2🥰2😁2👏1🤔1
Ещё одна работа про анализ ИИ-автоматизации.
Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks
Matthias Mertens, Adam Kuzee, Brittany S. Harris, Harry Lyu, Wensu Li, Jonathan Rosenfeld, Meiri Anto, Martin Fleming, Neil Thompson
Paper: https://arxiv.org/abs/2604.01363
# TL;DR
ЧТО сделали: Исследователи из MIT FutureTech оценили 41 LLM на 3000+ реалистичных рабочих задачах, взятых из базы данных O*NET (другая недавняя работа на этой же базе). Они собрали более 17 000 двойных слепых оценок от профильных экспертов и смоделировали вероятность успеха ответов ИИ в зависимости от времени, которое потребовалось бы человеку на выполнение той же задачи.
ПОЧЕМУ это важно: Эта работа кардинально меняет наше представление о динамике автоматизации. ИИ не захватывает узкие ниши резко и внезапно (как «цунами»), пасуя перед всем остальным. Наоборот, модели улучшаются параллельно во всех текстовых профессиональных областях (как «прилив»). Такое плоское распределение роста производительности указывает на более предсказуемый и всеобъемлющий сценарий трансформации рынка труда.
Для практиков: Статья даёт отличную эмпирическую базу для стратегов и аналитиков. Передовые системы уже достигают 50% успешности на задачах, занимающих у человека 3–4 часа. Однако пологий наклон кривой успеха означает, что достижение идеальной надёжности без ошибок займёт значительно больше времени. Базовые способности к рассуждению стремительно растут, но главным барьером для реальных экономических сдвигов станет системная инженерия — та самая «последняя миля», необходимая для внедрения моделей в сложные корпоративные процессы.
Автоматизировать тут: https://t.me/gonzo_ML_podcasts/3136
Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks
Matthias Mertens, Adam Kuzee, Brittany S. Harris, Harry Lyu, Wensu Li, Jonathan Rosenfeld, Meiri Anto, Martin Fleming, Neil Thompson
Paper: https://arxiv.org/abs/2604.01363
# TL;DR
ЧТО сделали: Исследователи из MIT FutureTech оценили 41 LLM на 3000+ реалистичных рабочих задачах, взятых из базы данных O*NET (другая недавняя работа на этой же базе). Они собрали более 17 000 двойных слепых оценок от профильных экспертов и смоделировали вероятность успеха ответов ИИ в зависимости от времени, которое потребовалось бы человеку на выполнение той же задачи.
ПОЧЕМУ это важно: Эта работа кардинально меняет наше представление о динамике автоматизации. ИИ не захватывает узкие ниши резко и внезапно (как «цунами»), пасуя перед всем остальным. Наоборот, модели улучшаются параллельно во всех текстовых профессиональных областях (как «прилив»). Такое плоское распределение роста производительности указывает на более предсказуемый и всеобъемлющий сценарий трансформации рынка труда.
Для практиков: Статья даёт отличную эмпирическую базу для стратегов и аналитиков. Передовые системы уже достигают 50% успешности на задачах, занимающих у человека 3–4 часа. Однако пологий наклон кривой успеха означает, что достижение идеальной надёжности без ошибок займёт значительно больше времени. Базовые способности к рассуждению стремительно растут, но главным барьером для реальных экономических сдвигов станет системная инженерия — та самая «последняя миля», необходимая для внедрения моделей в сложные корпоративные процессы.
Автоматизировать тут: https://t.me/gonzo_ML_podcasts/3136
arXiv.org
Crashing Waves vs. Rising Tides: Preliminary Findings on AI...
We propose that AI automation is a continuum between: (i) crashing waves where AI capabilities surge abruptly over small sets of tasks, and (ii) rising tides where the increase in AI capabilities...
👍7👀1