Anthropic представили ИИ- агентов для аудита безопасности LLM
Команда опубликовала исследование о разработке ИИ-агентов
Работа решает практическую проблему - как масштабировать процессы проверки безопасности ML-систем, когда ручной аудит требует слишком много времени экспертов
Anthropic разработали 3 агента:
1. Агент-исследователь — проводит комплексное расследование модели, используя инструменты интерпретируемости, анализ данных обучения и различные техники тестирования
2. Агент оценки — автоматически создаёт тесты для измерения конкретных типов проблемного поведения
3. Агент красной команды — ищет входные данные, которые могут вызвать нежелательные ответы модели
Результаты тестирования
Агенты проверили на синтетических задачах с заведомо известными проблемами:
- Агент-исследователь обнаружил скрытые цели модели в 13 % случаев (до 42 % при использовании нескольких агентов)
- Агент оценки создал корректные тесты для 10 из 10 проблемных поведений
- Агент красной команды выявил 7 из 10 внедрённых уязвимостей
Агенты пока не идеальны:
• Иногда генерируют нереалистичные тестовые сценарии
• Могут зацикливаться на одной гипотезе и пропускать другие проблемы
• Хуже людей справляются с выявлением тонких, субъективных проблем
• Тестировались в основном на искусственных задачах
Команда опубликовала исследование о разработке ИИ-агентов
Работа решает практическую проблему - как масштабировать процессы проверки безопасности ML-систем, когда ручной аудит требует слишком много времени экспертов
Anthropic разработали 3 агента:
1. Агент-исследователь — проводит комплексное расследование модели, используя инструменты интерпретируемости, анализ данных обучения и различные техники тестирования
2. Агент оценки — автоматически создаёт тесты для измерения конкретных типов проблемного поведения
3. Агент красной команды — ищет входные данные, которые могут вызвать нежелательные ответы модели
Результаты тестирования
Агенты проверили на синтетических задачах с заведомо известными проблемами:
- Агент-исследователь обнаружил скрытые цели модели в 13 % случаев (до 42 % при использовании нескольких агентов)
- Агент оценки создал корректные тесты для 10 из 10 проблемных поведений
- Агент красной команды выявил 7 из 10 внедрённых уязвимостей
Агенты пока не идеальны:
• Иногда генерируют нереалистичные тестовые сценарии
• Могут зацикливаться на одной гипотезе и пропускать другие проблемы
• Хуже людей справляются с выявлением тонких, субъективных проблем
• Тестировались в основном на искусственных задачах
Китай создал ML, который впервые может создать новые архитектуры
Они называют это моментом AlphaGo
ASI-Arch - 1ая система искусственного сверхинтеллекта (ASI) для автоматизации научных исследований в области нейронных архитектур без участия человека
Система может автономно выдвигать гипотезы о новых архитектурных концепциях, реализовывать их в виде исполняемого кода, обучать и эмпирически проверять их производительность через строгие эксперименты
ASI-Arch создала 106 новых архитектур, превосходящих человеческие разработки - это не теоретическое достижение, а практический результат
Ключевые достижения ASI-Arch:
1. 1.773 автономных эксперимента
20,000 GPU-часов вычислений
Обнаружено 106 новых архитектур линейного внимания, превосходящих существующие
2. Переход от автоматизированной оптимизации к автоматизированным инновациям
Система не просто перебирает варианты в заданном пространстве, а создает принципиально новые архитектуры
3. Впервые эмпирически показано, что архитектурные прорывы можно масштабировать вычислительно - чем больше вычислений, тем больше открытий (линейная зависимость)
ASI-Arch основана на FLAME, LM-Evaluation-Harness и Flash Linear Attention
GitHub - GAIR-NLP/ASI-Arch: AlphaGo Moment for Model Architecture Discovery, что указывает на использование существующих открытых инструментов и фреймворков в качестве основы для создания этой системы
Разработка является результатом труда команды GAIR-NLP
Они называют это моментом AlphaGo
ASI-Arch - 1ая система искусственного сверхинтеллекта (ASI) для автоматизации научных исследований в области нейронных архитектур без участия человека
Система может автономно выдвигать гипотезы о новых архитектурных концепциях, реализовывать их в виде исполняемого кода, обучать и эмпирически проверять их производительность через строгие эксперименты
ASI-Arch создала 106 новых архитектур, превосходящих человеческие разработки - это не теоретическое достижение, а практический результат
Ключевые достижения ASI-Arch:
1. 1.773 автономных эксперимента
20,000 GPU-часов вычислений
Обнаружено 106 новых архитектур линейного внимания, превосходящих существующие
2. Переход от автоматизированной оптимизации к автоматизированным инновациям
Система не просто перебирает варианты в заданном пространстве, а создает принципиально новые архитектуры
3. Впервые эмпирически показано, что архитектурные прорывы можно масштабировать вычислительно - чем больше вычислений, тем больше открытий (линейная зависимость)
ASI-Arch основана на FLAME, LM-Evaluation-Harness и Flash Linear Attention
GitHub - GAIR-NLP/ASI-Arch: AlphaGo Moment for Model Architecture Discovery, что указывает на использование существующих открытых инструментов и фреймворков в качестве основы для создания этой системы
Разработка является результатом труда команды GAIR-NLP
Telegram
All about AI, Web 3.0, BCI
ASI-Arch is the first Artificial Superintelligence for AI Research enabling fully automated neural architecture innovation.
No human-designed search space. No human in the loop.
Key Breakthroughs of ASI-Arch:
- Autonomous code generation & training
- 1…
No human-designed search space. No human in the loop.
Key Breakthroughs of ASI-Arch:
- Autonomous code generation & training
- 1…
Пятисекундное видео с помощью ML — это как запустить микроволновку на час. Серьёзно
Исследования MIT показывают: генерация короткого ролика потребляет 3.400.000 джоулей энергии
Для сравнения — столько же нужно, чтобы час готовить еду в микроволновке
А теперь представьте: миллионы людей генерируют сотни роликов ежедневно, ради мемасиков
Технология проста до безобразия
Берёте любую большую ML модель, пишете промпт, ждёте 2 — 5 минут, получаете пятисекундный ролик
Хотите длиннее?
Берёте последний кадр, делаете его первым кадром следующего видео, повторяете процесс
Так рождаются «сериалы»
Бесплатные тарифы дают 5 секунд, платные — больше
Китайские модели работают без ограничений
Западные нас отключили, но кого это волнует?
У нас есть ₽5.000 штрафа
Секрет «успеха» — в черри-пикинге
Генерируете десяток вариантов, выбираете лучший
Потом пост-обработка в видеоредакторе: звук, надписи, эффекты
Виртуальная девушка из Дубая готова собирать лайки и время
Главное не в энергозатратах
Главное — в будущем, которое уже наступило
Каждый может генерировать персональный сериал
Настроил ML-агента
Агент передал задачу видеомодели, та сговнякала фильм
Никаких актёров, режиссёров, сценаристов
Только вы и алгоритм, который знает, что вам нравится
Netflix?
Каждый сам себе режиссёр
Мир движется к эпохе персонализированного контента
Это происходит быстро и дёшево
Клиповая манера подачи скрывает технические ограничения
Пять секунд одного сюжета, резкое переключение, пять секунд другого
Зритель не замечает швов между генерациями — мозг сам достраивает связность, не формируя длинные логические связи, отключая критическое понимание
Какой результат?
Армия виртуальных инфлюенсеров, которые никогда не устают, не стареют, не требуют гонораров
Они идеальны во всём — внешности, характере, реакциях
Живые не выдержат конкуренции
Технологию, которая делает человеческое творчество избыточным
И да, это не искусственный интеллект, а реальность в которой растут наши дети
Исследования MIT показывают: генерация короткого ролика потребляет 3.400.000 джоулей энергии
Для сравнения — столько же нужно, чтобы час готовить еду в микроволновке
А теперь представьте: миллионы людей генерируют сотни роликов ежедневно, ради мемасиков
Технология проста до безобразия
Берёте любую большую ML модель, пишете промпт, ждёте 2 — 5 минут, получаете пятисекундный ролик
Хотите длиннее?
Берёте последний кадр, делаете его первым кадром следующего видео, повторяете процесс
Так рождаются «сериалы»
Бесплатные тарифы дают 5 секунд, платные — больше
Китайские модели работают без ограничений
Западные нас отключили, но кого это волнует?
У нас есть ₽5.000 штрафа
Секрет «успеха» — в черри-пикинге
Генерируете десяток вариантов, выбираете лучший
Потом пост-обработка в видеоредакторе: звук, надписи, эффекты
Виртуальная девушка из Дубая готова собирать лайки и время
Главное не в энергозатратах
Главное — в будущем, которое уже наступило
Каждый может генерировать персональный сериал
Настроил ML-агента
Агент передал задачу видеомодели, та сговнякала фильм
Никаких актёров, режиссёров, сценаристов
Только вы и алгоритм, который знает, что вам нравится
Netflix?
Каждый сам себе режиссёр
Мир движется к эпохе персонализированного контента
Это происходит быстро и дёшево
Клиповая манера подачи скрывает технические ограничения
Пять секунд одного сюжета, резкое переключение, пять секунд другого
Зритель не замечает швов между генерациями — мозг сам достраивает связность, не формируя длинные логические связи, отключая критическое понимание
Какой результат?
Армия виртуальных инфлюенсеров, которые никогда не устают, не стареют, не требуют гонораров
Они идеальны во всём — внешности, характере, реакциях
Живые не выдержат конкуренции
Технологию, которая делает человеческое творчество избыточным
И да, это не искусственный интеллект, а реальность в которой растут наши дети
High Performance Browser Networking
Книга для изучения компьютерных сетей
Написана в 2013 году, но большинство разделов до сих пор являются актуальными и полезными для начинающих
В книге можно найти информацию по особенностям протоколов HTTP/1.1 и HTTP/2, оптимизации их производительности, информацию по базовому устройству компьютерных сетей, включая протоколы TCP, UDP, TLS, так и особенности производительности сетевого взаимодействия в зависимости от типа сети (Wi-Fi, мобильные сети)
Полная версия книги доступна бесплатно на сайте:
https://hpbn.co/
S.E.
infosec.work
VT
Книга для изучения компьютерных сетей
Написана в 2013 году, но большинство разделов до сих пор являются актуальными и полезными для начинающих
В книге можно найти информацию по особенностям протоколов HTTP/1.1 и HTTP/2, оптимизации их производительности, информацию по базовому устройству компьютерных сетей, включая протоколы TCP, UDP, TLS, так и особенности производительности сетевого взаимодействия в зависимости от типа сети (Wi-Fi, мобильные сети)
Полная версия книги доступна бесплатно на сайте:
https://hpbn.co/
S.E.
infosec.work
VT
Почитать на выходные (но вероятно paywall)
Тема очередного номера The Economist — The economics of superintelligence
1. https://www.economist.com/leaders/2025/07/24/the-economics-of-superintelligence [краткий бриф следующих двух статей]
2. https://www.economist.com/briefing/2025/07/24/ai-labs-all-or-nothing-race-leaves-no-time-to-fuss-about-safety [про AI safety]
3. https://www.economist.com/briefing/2025/07/24/what-if-ai-made-the-worlds-economic-growth-explode [про влияние на экономику]
4. https://www.economist.com/business/2025/07/23/the-dark-horse-of-ai-labs [про Anthropic]
Вдогонку к экономике сверхинтеллекта статья с Outstanding Position Paper Award ICML 2025
Между прочим, один из авторов — Бодхисаттва!
Тема очередного номера The Economist — The economics of superintelligence
1. https://www.economist.com/leaders/2025/07/24/the-economics-of-superintelligence [краткий бриф следующих двух статей]
2. https://www.economist.com/briefing/2025/07/24/ai-labs-all-or-nothing-race-leaves-no-time-to-fuss-about-safety [про AI safety]
3. https://www.economist.com/briefing/2025/07/24/what-if-ai-made-the-worlds-economic-growth-explode [про влияние на экономику]
4. https://www.economist.com/business/2025/07/23/the-dark-horse-of-ai-labs [про Anthropic]
Вдогонку к экономике сверхинтеллекта статья с Outstanding Position Paper Award ICML 2025
Между прочим, один из авторов — Бодхисаттва!
The Economist
The economics of superintelligence
If Silicon Valley’s predictions are even close to being accurate, expect unprecedented upheaval
AI Safety Should Prioritize the Future of Work.pdf
44 KB
Статья «Position: AI Safety Should Prioritize the Future of Work
Глава OpenAI заявил, что личные разговоры с ML (всеми продуктами машинного обучения), могут быть использованы в качестве доказательств в суде, в отличие от конфиденциальных бесед с терапевтами или юристами (хотя и они тоже)
Квантовая оценка фазы (Quantum Phase Estimation) — это универсальный инструмент, который решает эту задачу и лежит в основе самых мощных квантовых алгоритмов
Алгоритм QPE решает фундаментальную задачу квантовой механики: найти собственные значения унитарного оператора U
Если у нас есть собственное состояние |ψ⟩ такое, что U|ψ⟩ = e^2πiφ|ψ⟩, то QPE извлекает фазу φ с заданной точностью
Математически это выглядит очень элегантно, но скрывает огромную вычислительную мощь
Многие важные задачи — от факторизации чисел до моделирования молекул — сводятся к поиску собственных значений определенных операторов
Алгоритм QPE, как это обычно бывает, использует два регистра кубитов
Первый (n кубитов) называется счётным регистром и будет хранить результат
Второй содержит собственное состояние |ψ⟩ исследуемого оператора U
Ключевая идея: Применяем оператор U с разными степенями (U¹, U², U⁴, U⁸, ...) к собственному состоянию, контролируя каждую операцию кубитами счетного регистра
Затем применяем обратное квантовое преобразование Фурье, которое «декодирует» фазу из паттерна интерференции
Схема алгоритма:
После применения гейтов Адамара создаётся суперпозиция, в которой каждый контрольный кубит «пробует» соответствующую степень оператора U
Квантовое преобразование Фурье извлекает фазовую информацию, концентрируя амплитуды в состояниях, соответствующих двоичному представлению фазы φ
Экспоненциальная точность: с n кубитами QPE может определить фазу с точностью до 2–n
Это означает, что всего 20 кубитов дают точность в миллионную долю!
Универсальность: QPE — это «швейцарский нож» квантовых вычислений
Любая задача, которую можно свести к поиску собственных значений, автоматически получает квантовое ускорение
Фундамент для Шора: в алгоритме факторизации Шора QPE используется для нахождения периода функции f(x) = ax mod N
Собственные значения оператора сдвига кодируют информацию о периоде, что позволяет разложить число на простые множители
Алгоритм QPE решает фундаментальную задачу квантовой механики: найти собственные значения унитарного оператора U
Если у нас есть собственное состояние |ψ⟩ такое, что U|ψ⟩ = e^2πiφ|ψ⟩, то QPE извлекает фазу φ с заданной точностью
Математически это выглядит очень элегантно, но скрывает огромную вычислительную мощь
Многие важные задачи — от факторизации чисел до моделирования молекул — сводятся к поиску собственных значений определенных операторов
Алгоритм QPE, как это обычно бывает, использует два регистра кубитов
Первый (n кубитов) называется счётным регистром и будет хранить результат
Второй содержит собственное состояние |ψ⟩ исследуемого оператора U
Ключевая идея: Применяем оператор U с разными степенями (U¹, U², U⁴, U⁸, ...) к собственному состоянию, контролируя каждую операцию кубитами счетного регистра
Затем применяем обратное квантовое преобразование Фурье, которое «декодирует» фазу из паттерна интерференции
Схема алгоритма:
|0⟩⊗n ——[H⊗n]——•————•————•————[QFT†]——[M⊗n]—
| | |
|ψ⟩ ———————————[U¹]—[U²]—[U⁴]——————————————————
После применения гейтов Адамара создаётся суперпозиция, в которой каждый контрольный кубит «пробует» соответствующую степень оператора U
Квантовое преобразование Фурье извлекает фазовую информацию, концентрируя амплитуды в состояниях, соответствующих двоичному представлению фазы φ
Экспоненциальная точность: с n кубитами QPE может определить фазу с точностью до 2–n
Это означает, что всего 20 кубитов дают точность в миллионную долю!
Универсальность: QPE — это «швейцарский нож» квантовых вычислений
Любая задача, которую можно свести к поиску собственных значений, автоматически получает квантовое ускорение
Фундамент для Шора: в алгоритме факторизации Шора QPE используется для нахождения периода функции f(x) = ax mod N
Собственные значения оператора сдвига кодируют информацию о периоде, что позволяет разложить число на простые множители
from qiskit import QuantumCircuit, QuantumRegister
from qiskit.circuit.library import QFT
import numpy as np
def qpe_circuit(n_qubits, unitary_gate, eigenstate_prep=None):
"""
Создает схему квантовой оценки фазы
n_qubits: количество кубитов для счетного регистра
unitary_gate: унитарный оператор U
eigenstate_prep: схема подготовки собственного состояния
"""
# Регистры
counting_qubits = QuantumRegister(n_qubits, 'counting')
target_qubits = QuantumRegister(1, 'target')
qc = QuantumCircuit(counting_qubits, target_qubits)
# Подготовка собственного состояния
if eigenstate_prep:
qc.compose(eigenstate_prep, target_qubits, inplace=True)
# Суперпозиция в счетном регистре
qc.h(counting_qubits)
# Контролируемые степени унитарного оператора
for i in range(n_qubits):
power = 2 ** i
for _ in range(power):
qc.append(unitary_gate.control(),
[counting_qubits[i]] + list(target_qubits))
# Обратное квантовое преобразование Фурье
qft_inverse = QFT(n_qubits, inverse=True)
qc.compose(qft_inverse, counting_qubits, inplace=True)
# Измерение
qc.measure_all()
return qc
# Пример: оценка фазы для Z-гейта
from qiskit.circuit.library import ZGate
z_gate = ZGate()
# Подготовка собственного состояния |1⟩ для Z
eigenstate_prep = QuantumCircuit(1)
eigenstate_prep.x(0)
# Создание схемы QPE с 4 кубитами точности
qpe = qpe_circuit(4, z_gate, eigenstate_prep)
print("Схема QPE готова!")
ML
Квантовая оценка фазы (Quantum Phase Estimation) — это универсальный инструмент, который решает эту задачу и лежит в основе самых мощных квантовых алгоритмов Алгоритм QPE решает фундаментальную задачу квантовой механики: найти собственные значения унитарного…
QPE — это не просто отдельная процедура, а универсальный строительный блок
В алгоритме Шора она находит период мультипликативной функции
В квантовом моделировании молекул — собственные энергии гамильтониана
В квантовом машинном обучении — главные компоненты матриц данных
Вариационная QPE: современные NISQ-устройства используют гибридные версии QPE, которые работают с неглубокими схемами и классической пост-обработкой
Математическая красота
Алгоритм демонстрирует глубокую связь между квантовой механикой и гармоническим анализом
Квантовое преобразование Фурье «слушает» частоты в эволюции квантового состояния, извлекая спектральную информацию через интерференцию амплитуд
Формула финального состояния счетного регистра: 1/2^n ∑_(k=0)^(2^n–1) e^(2πiφk)∣k⟩
После QFT^(–1) получаем пик вероятности в состоянии, наиболее близком к φ·2^n
QPE превращает абстрактную задачу поиска собственных значений в конкретную процедуру измерения кубитов
Это мостик между математической теорией и практическими квантовыми вычислениями, который делает возможными алгоритмы следующего поколения
@drv_official — впереди алгоритм Шора и квантовое превосходство!
В алгоритме Шора она находит период мультипликативной функции
В квантовом моделировании молекул — собственные энергии гамильтониана
В квантовом машинном обучении — главные компоненты матриц данных
Вариационная QPE: современные NISQ-устройства используют гибридные версии QPE, которые работают с неглубокими схемами и классической пост-обработкой
Математическая красота
Алгоритм демонстрирует глубокую связь между квантовой механикой и гармоническим анализом
Квантовое преобразование Фурье «слушает» частоты в эволюции квантового состояния, извлекая спектральную информацию через интерференцию амплитуд
Формула финального состояния счетного регистра: 1/2^n ∑_(k=0)^(2^n–1) e^(2πiφk)∣k⟩
После QFT^(–1) получаем пик вероятности в состоянии, наиболее близком к φ·2^n
QPE превращает абстрактную задачу поиска собственных значений в конкретную процедуру измерения кубитов
Это мостик между математической теорией и практическими квантовыми вычислениями, который делает возможными алгоритмы следующего поколения
@drv_official — впереди алгоритм Шора и квантовое превосходство!
К чувствительным темам искусственный интеллект не допустят: в рамках эксперимента запрещено использование больших генеративных моделей ML для прогнозирования социально-экономических процессов, а также передача и обработка сведений, составляющих гостайну
Причина в том, что ML не может нести ответственность за сбои в подобной работе, а установить конкретного ответственного за них в силу особенностей технологии не всегда возможно
Сервисы для «пилота» может разрабатывать как само Минцифры на базе федеральной государственной информационной системы «Единая информационная платформа Национальной системы управления данными», так и (на добровольной и безвозмездной основе) поставщики, отобранные президиумом правкомиссии по цифровому развитию (его возглавляет вице-премьер – глава аппарата правительства, орган будет анализировать соответствие потенциальных поставщиков требованиям по технической оснащенности, безопасности и надежности)
Ранее эксперты Высшей школы госуправления РАНХиГС оценили органы власти (52 ведомства) по уровню индекса зрелости ML
Наиболее готовыми к его внедрению в 2024 году признаны Федеральная налоговая служба и Роструд
Исследование показало, что более половины ведомств пока не нашла умысла в ML
Причина в том, что ML не может нести ответственность за сбои в подобной работе, а установить конкретного ответственного за них в силу особенностей технологии не всегда возможно
Сервисы для «пилота» может разрабатывать как само Минцифры на базе федеральной государственной информационной системы «Единая информационная платформа Национальной системы управления данными», так и (на добровольной и безвозмездной основе) поставщики, отобранные президиумом правкомиссии по цифровому развитию (его возглавляет вице-премьер – глава аппарата правительства, орган будет анализировать соответствие потенциальных поставщиков требованиям по технической оснащенности, безопасности и надежности)
Ранее эксперты Высшей школы госуправления РАНХиГС оценили органы власти (52 ведомства) по уровню индекса зрелости ML
Наиболее готовыми к его внедрению в 2024 году признаны Федеральная налоговая служба и Роструд
Исследование показало, что более половины ведомств пока не нашла умысла в ML