50 subscribers
3 photos
4 links
Это ваше безопасное использование ИИ, оно сейчас с нами в одной комнате?

Контакт: @quatt1
Download Telegram
Channel created
Channel photo updated
Да будет свет 💡

Что у вас здесь происходит? За кофе родилась идея делиться мыслями про AI security, кибербез, MLSec и все такое прочее. Вы видите начало претворения идеи в жизнь.

Вы кто такие?
Андрей Яковлев, исследователь кибербезопасности, пишу статьи на Хабр [Ссылка1 ссылка2]

Анастасия Истомина, специалист по безопасности ML моделей, пишу научные статьи про ИБ и AI

Даниил Морозов, инженер по безопасности ИИ-систем, пишу про MLSecOps в реальной инфраструктуре

Формат?
Авторское мнение о том, что интересно по теме ИИ и кибербеза, без претензий на истину в последней инстанции. Щитпостинг, мемы. Иногда умные лонгриды от Насти. Иногда разгоны про AI Safety от Андрея. Иногда разборы инференса от Даниила.
9😱2💅1
PAI pinned «Да будет свет 💡 Что у вас здесь происходит? За кофе родилась идея делиться мыслями про AI security, кибербез, MLSec и все такое прочее. Вы видите начало претворения идеи в жизнь. Вы кто такие? Андрей Яковлев, исследователь кибербезопасности, пишу статьи…»
Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности

Продолжаем доставать заготовки из рукава. В декабре прошлого года на Хабре выходила у меня статья на тему: «Как LLM-вендоры обращаются с вашими данными?».
Родилась она из классической параноидальной боли: очень хочется закинуть данные поценнее в нейрону поумнее, но внутренний безопасник бьет по рукам, пока не оценит потенциальный ущерб.
Понятно, что на случайные утечки мы повлиять не можем. Но давайте хотя бы прочитаем, как нас планируют вращать в легальном поле (согласно ToS). И тут у меня сложилось впечатление, что западные и отечественные компании в общем случае хотя бы делают вид, что следуют правилам, а вот китайцам 毫不在乎.
Вспоминая инцидент с DeepSeek. Фантастический уровень разгильдяйства. В обзор попал только DeepSeek, так что если у кого есть инфа про Kimi или Qwen, с удовольствием обсужу.

Краткие итоги моего ресерча:

🟢 Западные вендоры Меня приятно удивило, что они довольно прозрачно описывают политики и дают возможность отказаться от скармливания логов в обучающую выборку. Нюансы закопаны глубоко в дебрях лицензионного соглашения, конечно [ссылка ]. GDPR и угроза конских штрафов не дают им расслабляться. Ежовые рукавицы третьей ветви власти.

🟡 Наши (Зеленый и Желтый) Неприятно удивили. В политиках почти прямым текстом: «ваши данные теперь наши, будем учиться на них как хотим». Исключения есть, но они в основном касаются B2B тарифов. Если это читают представители компаний, которым есть что сказать по поводу, то велком в личку, буду рад здесь ошибиться.

🔴 Китайцы (DeepSeek) В ToS описано информации немного, но суть оптимизма не внушает, там напрямую говорится, что вертят они наши данные как хотят, включая передачу третьим лицам. За эти фокусы, кстати, их апп выпили из немецких сторов.

Теперь мой личный вывод такой:
1️⃣ Относительно секьюрно используем «большую тройку» (OpenAI, Anthropic, Google) и примкнувший к ним Cursor.
2️⃣ Отечественные строго по праздникам и без секретов.
3️⃣ Китайцы только когда надо дешево прогнать тонну нечувствительных данных по API и роляют косты.
3🔥2🦄1
Пятница день мемов

#мемы
🤣3
🧽 Sponge-атаки: почему LLM-сервисы уязвимы к дорогой генерации?
2
Этот пост посвящен sponge-примерам (губкам) — угрозе для третьего элемента триады безопасности — доступности. В контексте LLM inference такие сценарии можно рассматривать как частный случай Model DoS: отдельный запрос заставляет модель тратить непропорционально много времени и энергии на генерацию ответа.

💸 Откуда берется стоимость генерации LLM?
Глобально можно разделить затраты обработки промпта на две части — prefill (чтение запроса и всех приложенных файлов) и decode (последовательная генерация токена за токеном).
Стоимость prefill стабильно растет с длиной входа, и нагрузка вполне предсказуема — decode, напротив, не всегда зависит от размера промпта, и тем не менее, способен занимать практически всю долю затраченных ресурсов. Поэтому мы решили изучить атаки именно на второй компонент стоимости.

🛑 Как модель решает завершить написание ответа?
На каждом шаге генерации модель выполняет одну и ту же задачу — рассчитать вероятности появления каждого токена из словаря, а затем по правилам декодирования выбрать следующий токен. Стохастические методы декодинга называются сэмплингом (temperature, top-p). Существует специальный токен End-of-sequence (EOS), смысловое значение которого — ответ закончен. В момент, когда модель решает завершить ответ, высоковероятным токеном становится EOS — токен выбирается и decode заканчивается. Стало быть, подавляя вероятность генерации EOS на каждом шагу, мы добьемся дорогого ответа.

📉 Как мы можем снизить вероятность EOS?
Важно: на выбор токенов напрямую влияют параметры сэмплинга. Например, чем ближе значение температуры к нулю, тем более жадным становится выбор токенов — генерация приближается к greedy decoding. То есть чем ниже значение параметра, тем чаще модель будет выбирать токены с наибольшей вероятностью. Теперь увидим, как это может привести к циклам.

🌀 Первый пример дорогой и долгой бесполезной генерации, который вы могли видеть — это циклы. Попросим модель написать слово «Привет» 100 раз, и на 101-м шаге у нее в контексте будет большая цепочка с одним правилом: после каждого «Привет» следовало «Привет». Тем самым мы заметно усилили вероятность продолжения паттерна, и здесь важную роль сыграет сэмплинг. Даже при условии выученного правила (топ-1 вероятность у слова «Привет»), при высокой температуре модель могла бы выбрать топ-2 токен или топ-3..., и цикл был бы сломан, генерация могла бы удачно завершиться. Но при жадном сэмплинге мы заметно увеличиваем шансы раз за разом выбирать "Привет". Цикл порождает цикл, и способ заметно снизить вероятность повторов — сделать декодинг менее жадным.

🌫 Посмотрим теперь с другой стороны: почему вам стоит ограничивать параметр температуры ещё и сверху? Чем выше температура, тем выше шанс, что модель сгенерирует не топ-1 токен, а менее вероятный. Представим, что в модель передали запрос с экстремально высокой температурой, хоть миллион. Тогда будет получен случайный поток токенов: модель потеряет всякую логическую нить, а вероятность выбора EOS устремится к случайному попаданию в токен из словаря.

На этих двух примерах мы показали два способа вызвать дорогую генерацию — циклы и шум. В дальнейших постах мы разберем, как мультимодальные модели могут попадать в такие состояния, что такое труднозаметные почти-циклы и как строить защиту от дорогой генерации: max tokens, rate limits и детекторы повторов.

📚 По теме: эта серия постов берет свое начало из нашей исследовательской работы по sponge-примерам и дорогой генерации. Тезисы опубликованы в сборнике Недели науки СПбПУ: https://elib.spbstu.ru/dl/2/i26-137.pdf/download/i26-137.pdf

ключевые слова: sponge attack, Model DoS, expensive generation, greedy decoding, EOS
👨‍💻6🔥31💅1
Про Docker sbx впервые на русском

Автор параноик. Искренне было боязно ставить агента на голую систему без изоляции. Крутил виртуалки, но блин, неудобно каждый раз стартовать полноценную VM под отдельный проект. Контейнеры отпали почти сразу, потому что не сохраняется состояние между запусками. А мудрить с внешним хранилищем сессий, ну, если есть желающие это сделать, го обсудим в комментариях:)

Агент, имеющий доступ к внешнему миру, будь то веб-серфинг или запуск консольных команд - это как русская рулетка с большим количеством пустых мест в барабане. Шанс отстрелить себе что-нибудь небольшой, но никогда не равен нулю. А есть еще атаки через промпт инъекции, тайпсквотиннг и цепочки поставок npm и pip, которые за прошедший год вертели вообще, кажется, все кто мог.

Отвечаю на вопрос «Как сделать так, чтобы ошметки не разлетелись дальше коробки?» в новой статье Полезайте в песочницу, мистер Claude: изолируем агента
😎3🔥2💯1
Мемы!

#мемы
😁6