SecureTechTalks

💡 APT-LLM: защита от продвинутых киберугроз с помощью ИИ 🤖

🚀 Одна из самых сложных задач ИБ — обнаружение Advanced Persistent Threats (APT) — скрытых атак, которые могут годами незаметно находиться в системах компаний. Исследователи из Нью-Йоркского университета, Университета Монреаля и Эдинбургского университета представили APT-LLM - систему, которая использует большие языковые модели для обнаружения аномалий, указывающих на APT-атаки.

⚠️ Почему APT-атаки так опасны?

💀 APT (Advanced Persistent Threat) — это целевые атаки, при которых злоумышленники долго и незаметно проникают в систему, крадут данные или наносят ущерб. Они маскируются под легитимные процессы, из-за чего традиционные методы обнаружения их пропускают.

🌐 В реальных условиях такие атаки часто составляют менее 0,004% от всего трафика, что делает их крайне сложными для выявления стандартными системами безопасности.

🧠 Что такое APT-LLM и как оно работает?

APT-LLM — это комплексная система обнаружения аномалий, которая сочетает:
🧩 Большие языковые модели (LLM): BERT, ALBERT, DistilBERT, RoBERTa, MiniLM.
🧬 Автоэнкодеры: Baseline AE, Variational VAE и Denoising DAE.

👨‍💻 Как это работает:

📊 1. Сбор данных: Система собирает журналы активности процессов (открытие файлов, сетевые подключения и т.д.).

📜 2. Превращение в текст: Каждое событие описывается короткими текстовыми фразами. Например: “Процесс 123 открыл файл, записал данные и отправил по сети”.

💡 3. Создание эмбеддингов: LLM превращают текст в числовые векторы (эмбеддинги), которые описывают поведение процессов.

🧠 4. Поиск аномалий с помощью автоэнкодеров: Автоэнкодеры обучаются на нормальном поведении и выявляют отклонения — признаки атак.

💎 Какие LLM использовались и чем они отличаются?

🟡 BERT: Отлично выявляет контекст, но тяжел в вычислениях.
🟠 DistilBERT: Лёгкая версия BERT, быстрее, но чуть менее точна.
🟢 ALBERT: Уменьшенная модель с высокой точностью за счёт повторного использования параметров.
🔵 RoBERTa: Оптимизированная версия BERT с расширенной тренировкой.
🟣 MiniLM: Миниатюрная модель, подходящая для быстрых вычислений в реальном времени.

🛡️ Как работают автоэнкодеры для поиска угроз:

📌 Baseline AE (Стандартный автоэнкодер): Сжимает данные и восстанавливает их. Если восстановление слишком отличается от оригинала, значит, это аномалия.
📌 VAE (Вариационный автоэнкодер): Использует вероятностные модели для выявления даже скрытых аномалий.
📌 DAE (Денойзинг автоэнкодер): Устойчив к шуму и может находить аномалии в "зашумленных" данных.

📊 Результаты экспериментов:

🧪 Тестирование проводилось на реальных данных из программы DARPA Transparent Computing, включая атаки на ОС Android, Linux, BSD и Windows. В выборках атаки составляли менее 0,004% от всех событий — это крайне сложный случай для обнаружения.

🔥 Ключевые результаты:

✅ Лучший результат показала комбинация ALBERT + VAE — AUC 0.95, что значительно превосходит традиционные методы.
✅ APT-LLM превзошла классические методы: OC-SVM, DBSCAN, Isolation Forest, особенно на Windows и Linux.

🔗Подробнее про APT-LLM можно прочитать тут.

Stay secure and read SecureTechTalks 📚

#Кибербезопасность #APT #LLM #AI #Autoencoder #MachineLearning #SecureTechTalks #AnomalyDetection #ThreatIntelligence #CyberSecurity

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

399 views08:15

SecureTechTalks

🚀 RN-Loss: как новая математика помогает находить аномалии 💡

В кибербезопасности поиск аномалий стандартная задача. Злоумышленники стараются замаскироваться под обычную активность, и часто их действия настолько похожи на норму, что классические методы просто не видят разницы.

🔍 Что такое RN-Loss

RN-Loss — новый метод обучения моделей машинного обучения, который использует производную Радона-Никодима (не пугайтесь, сейчас объясню!). Эта производная — это способ измерить, насколько одно распределение данных отличается от другого. Проще говоря, она помогает лучше видеть редкие и нетипичные события в потоке данных — то есть те самые аномалии.

🔧 В чём фишка:

➖

RN-Loss корректирует функцию потерь (loss function), на основе которой обучаются модели. Она учитывает различие между нормальными и аномальными данными и заставляет модель сильнее реагировать на редкие отклонения.

➖

Она гибкая: RN-Loss работает и в контролируемом обучении (когда есть размеченные данные), и в неконтролируемом (когда мы не знаем, где аномалии, но хотим их найти).

➖

Она универсальна: метод можно применять в разных моделях — от LSTM (долгосрочная краткосрочная память, популярная в анализе временных рядов) до классических нейронных сетей.

💥 Преимущества над старыми методоми

Классические алгоритмы часто сталкиваются с проблемами:

➖ Высокий уровень ложных срабатываний — модель принимает нормальную активность за аномалию.

➖ Низкая чувствительность — аномалии, особенно сложные и редкие, просто проходят незамеченными.
RN-Loss решает эти проблемы, потому что:

✅ Точнее находит аномалии: исследования показали, что этот метод обходит существующие подходы по F1-скорингу в 68% случаев на многомерных данных и в 72% на временных рядах.
✅ Эффективнее обучает модели: за счёт корректировки функции потерь модели быстрее распознают закономерности и лучше обобщают данные.
✅ Меньше настроек: RN-Loss проще адаптировать к разным задачам, не возясь с подбором гиперпараметров.

📊 Где применяют

💻 Кибербезопасность:
Обнаружение сетевых атак: анализ логов и трафика, поиск аномального поведения устройств.
Выявление инсайдерских угроз: мониторинг действий пользователей и детекция отклонений от нормальных паттернов.
Поиск сложных многослойных атак: когда вредоносные действия замаскированы под обычную активность.

💰 Финансовый сектор:
Обнаружение мошенничества: отслеживание подозрительных транзакций и аномальных операций.
Анализ поведения клиентов: выявление нетипичных покупок или запросов.

🏥 Медицина:
Диагностика редких заболеваний: нахождение отклонений в медицинских данных, которые сложно заметить человеку.
Мониторинг пациентов: отслеживание показателей здоровья и предсказание возможных кризисов.

⚡ RN-Loss — реальный инструмент для решения сложных задач. Он помогает видеть то, что было незаметно, и делает модели машинного обучения более чуткими к отклонениям. Для кибербезопасности это значит меньше ложных срабатываний, ускоренное обнаружение атак и более надёжная защита.

Если вы работаете с анализом данных, машинным обучением или кибербезопасностью — обязательно обратите внимание на эту методику. Она уже показывает отличные результаты и имеет огромный потенциал.

🔗 Более подробно с RN-Loss можно ознакомиться в исследовании.

Stay secure and read SecureTechTalks 📚

#RN_Loss #Кибербезопасность #ОбнаружениеАномалий #MachineLearning #DataScience #AI #SecureTechTalks #AnomalyDetection #Infosec #NeuralNetworks

Please open Telegram to view this post

VIEW IN TELEGRAM

228 views06:33

SecureTechTalks

🚨 Агентные системы ИИ: Умные, автономные… и опасные? 🚨

Агентные системы — сложные ИИ-модели, которые могут самостоятельно принимать решения, выстраивать стратегии и выполнять задачи без постоянного участия человека.

💡 Что такое агентные системы?
Если говорить простыми словами, агентные системы — это интеллектуальные ИИ-ассистенты нового поколения, которые могут не просто выполнять разовые задачи, но и действовать как полноценные агенты, принимая решения и используя внешние инструменты. Они:

🔹 Объединяют несколько моделей и систем в единую архитектуру для решения сложных задач

🔹 Используют инструменты (например, API, базы данных, веб-сервисы) для взаимодействия с внешней средой

🔹 Работают автономно, сводя к минимуму вмешательство человека в процесс принятия решений и выполнения задач
Это открывает колоссальные возможности — от автоматизации рутинных процессов до создания умных помощников и полноценных аналитических систем. Но чем больше у ИИ свободы, тем выше потенциальные риски.

🧱 5 уровней автономности агентных систем
Разработчики NVIDIA выделяют 5 уровней автономности ИИ-агентов, и каждый из них имеет свои возможности и риски:

0️⃣ Инференс API (Inference API)
Самый простой уровень. Вы отправляете запрос — ИИ даёт ответ. Например: «Какая погода в Москве?» — и получаете прогноз. Минимум автономности, минимум рисков.

1️⃣ Детерминированная система (Deterministic System)
ИИ выполняет несколько шагов по жёстко заданной логике. Например, переводит текст, затем анализирует его и строит отчёт. Всё чётко и предсказуемо.

2️⃣ Условная логика (Conditional Logic)
Здесь начинается гибкость. ИИ сам выбирает инструменты в зависимости от условий задачи. Например, при анализе документа выбирает, использовать ли OCR или парсер в зависимости от формата файла.

3️⃣ Ограниченная автономия (Limited Autonomy)
Система получает общую задачу и сама решает, какие инструменты и шаги использовать, чтобы достичь цели. Это уже серьёзный уровень автономности, требующий более сложной архитектуры безопасности.

4️⃣ Высокая автономия (High Autonomy)
Минимальное участие человека. Система сама планирует и выполняет задачи, корректируя свои действия по ходу процесса. Здесь уже нужны надёжные механизмы контроля и защиты данных.

5️⃣ Полная автономия (Full Autonomy)
Максимальный уровень. ИИ действует полностью самостоятельно, может обучаться на лету, изменять свои алгоритмы и принимать решения в реальном времени. Это впечатляюще… и очень опасно, если система попадёт в руки злоумышленников.

😱 Что же тут опасного?

Каждый уровень автономности ИИ — это не только новые возможности, но и новые киберугрозы:

🔸 Prompt Injection (внедрение вредоносных инструкций)
Злоумышленник может подменить запросы или данные, чтобы изменить поведение ИИ. Например, агент может начать выполнять вредоносные команды, думая, что это часть его задачи.

🔸 Подмена источников данных (Data Poisoning)
Если ИИ использует внешние данные, их можно подменить — и система начнёт принимать ошибочные решения на основе фальшивой информации.

🔸 Атаки через инструменты (Tool Exploitation)
Если агент использует внешние API или программы, взлом одного из инструментов может привести к компрометации всей системы.

🛡️ Как защитить агентные системы ИИ?

Вот несколько критически важных шагов, которые помогут уменьшить риски:

✅ Контроль входящих данных — тщательно проверяйте всю информацию, поступающую в систему, чтобы исключить подмену или вредоносные запросы.

✅ Изоляция команд и данных — разделяйте потоки управления и информацию, чтобы злоумышленник не мог подменить команды через данные.

✅ Ограничение автономности — не давайте системе избыточной свободы на ранних этапах внедрения.

✅ Мониторинг и аудит — постоянно отслеживайте действия ИИ, фиксируя аномалии и подозрительные активности.

✅ Обновление моделей безопасности — адаптируйте системы защиты к новым видам угроз, появляющимся вместе с развитием технологий.

Stay secure and read SecureTechTalks 📚

#CyberSecurity #AI #ИИ #АгентныеСистемы #PromptInjection #DataProtection #MachineLearning #TechTalks #SecureTech #AIThreats

236 views06:20

SecureTechTalks

🚀 Как большие языковые модели меняют анализ программ и кибербезопасность 💡

💡 Большие языковые модели понимают контекст и структуру кода, выявляют ошибки и помогают их исправлять. Они делают это через:

1️⃣ Статический анализ: изучение кода без его запуска, поиск потенциальных уязвимостей, анализ зависимостей и логики.

2️⃣ Динамический анализ: отслеживание поведения программы в процессе выполнения, выявление аномалий и нестандартных действий.

3️⃣ Гибридный подход: сочетание статического и динамического анализа для максимальной точности и глубины проверки.

🧠 Где LLM уже делают революцию

💻 Поиск уязвимостей:

➖

LLift: обнаружение ошибок инициализации переменных в больших кодовых базах.

➖

SLFHunter: выявление уязвимостей командной инъекции в Linux-системах.

➖

LATTE: анализ потока данных для поиска критических уязвимостей в бинарных файлах.

🦠 Обнаружение вредоносного ПО:

➖

GPTScan: анализ кода смарт-контрактов и выявление логических уязвимостей.

➖

LuaTaint: поиск уязвимостей в IoT-устройствах с использованием статического анализа и моделей LLM.

🔧 Верификация программ:

➖

CoqPilot: автоматизация доказательств корректности кода.

➖

Selene: сокращение времени верификации операционных систем.

⚡ Профиты

✅ Точность: LLM обходит традиционные методы по точности в 68–72% случаев.

✅ Скорость: Автоматизация анализа сокращает время поиска и устранения уязвимостей в разы.

✅ Масштабируемость: Модели способны анализировать огромные кодовые базы, поддерживая сложные проекты.

Stay secure and read SecureTechTalks 📚

#LLM #Кибербезопасность #АнализКода #MachineLearning #AI #DataScience #SecureTechTalks #CyberSec #AutomatedSecurity #Infosec

Please open Telegram to view this post

VIEW IN TELEGRAM

207 views06:16

SecureTechTalks

💥 Поиск скрытых связей и аномалий в сетях: матричная факторизация💥

Когда речь заходит о киберугрозах, важнее всего увидеть то, что скрыто. Неочевидные связи между системами, подозрительные взаимодействия и отклонения от нормы - всё это может указывать на вторжение или аномалию. Исследователи из Лос-Аламосской национальной лаборатории и Университета Мэриленда предложили революционный метод анализа сетей с помощью продвинутой матричной факторизации, который помогает выявлять недостающие связи и предсказывать аномалии с высокой точностью.

🧠 Что это за метод?

Матричная факторизация — техника, которая разбивает сложные сетевые данные на более простые компоненты, выявляя скрытые закономерности. Существуют три продвинутых метода, которые решают задачи обнаружения недостающих связей и аномалий:

🔹 WNMFk (Weighted Nonnegative Matrix Factorization) — взвешенная неотрицательная факторизация матриц, которая учитывает разный уровень достоверности данных. Этот метод особенно полезен, когда часть информации в сети является неточной или отсутствует.

🔹 BNMFk (Boolean Nonnegative Matrix Factorization) — булева факторизация, идеально подходящая для бинарных данных (например, наличие или отсутствие связи). Это незаменимо для анализа сетей, где нужно выявить факт взаимодействия между узлами.

🔹 RNMFk (Recommender-based Nonnegative Matrix Factorization) — рекомендательная факторизация, которая определяет наиболее вероятные связи между элементами сети, используя те же принципы, что и системы рекомендаций в стриминговых сервисах.

📊 Методы WNMFk, BNMFk и RNMFk:

➖

Восстанавливают недостающие связи: помогают найти "невидимые" взаимодействия между пользователями и системами.

➖

Ищут аномалии: выявляют подозрительные отклонения, например, внезапное появление связи, которой раньше не было.

➖

Повышают точность анализа: учитывают неопределённость данных, что делает модели устойчивее к шуму и ложным срабатываниям.

📈 Практическое применение

🔐 Обнаружение вторжений (IDS):
Эти методы могут анализировать журналы сетевой активности, выявляя подозрительные подключения и нетипичное поведение пользователей.

🌐 Мониторинг сетей и инфраструктуры:
Факторизация помогает строить карты взаимодействий и обнаруживать "слепые зоны", где может происходить несанкционированная активность.

🧑‍💻 Анализ поведения пользователей (UEBA):
Ищет аномальные паттерны в поведении сотрудников — внезапные скачки активности, необычные запросы к системам и подключения в нерабочее время.

📊 Результаты и эффективность

🔹 Высокая точность предсказаний: методы RNMFk и WNMFk обошли классические модели в тестах на сетевых данных.

🔹 Обработка больших объёмов информации: методы работают с крупными разреженными матрицами, типичными для сетевых структур.

🔹 Адаптивность: модели учитывают неопределённость данных, что делает их устойчивыми к шуму и пропускам.

🔗Более подробно о матричной факторизации вы можете прочитать в исследовании.

Stay secure and read SecureTechTalks 📚

#Кибербезопасность #АнализДанных #MachineLearning #SecureTechTalks #BigData #NetworkSecurity #AI #ThreatDetection #IDS

Please open Telegram to view this post

VIEW IN TELEGRAM

192 views08:56

SecureTechTalks

💥 Атаки отравлением данных на AI модели💥

🧠 Что такое атаки отравлением данных?

Атаки отравлением данных — это один из самых опасных видов атак на модели машинного обучения. Они происходят, когда злоумышленник внедряет вредоносные данные в обучающий набор, заставляя модель принимать ошибочные решения и демонстрировать непредсказуемое поведение.

🔥 К чему это приводит:

➖

Снижение точности модели: в экспериментах на CIFAR-10 точность упала на 27%.

➖

Компрометация решений: в модели по выявлению мошенничества на 22% меньше точных предсказаний.

➖

Финансовые и репутационные риски: ошибки ИИ могут привести к миллионным потерям и утечке данных.

🔍 Как работают атаки и какие виды существуют?

1️⃣ Label flipping (Перестановка меток): меняет правильные классы на ложные, вводя модель в заблуждение.
2️⃣ Backdoor attacks (Атаки через закладки): внедряют в обучающие данные триггер, активирующий неправильное поведение модели.
3️⃣ Instance injection (Внедрение экземпляров): добавляют в датасет специально созданные вредоносные данные.

⚙️ Методы защиты и предотвращения атак

🛡️ Аномалия детекция: отслеживание и выявление подозрительных отклонений в данных.
📊 Adversarial training: обучение модели на специализированных наборах, содержащих примеры атакующих данных.
🌐 Ensemble learning: объединение нескольких моделей для повышения устойчивости к атакам.
💡 Результат: модели, защищённые этими методами, восстанавливают точность на 15–20%, снижая вероятность ошибок и ложных предсказаний.

🌍 Последствия атак

📉 CIFAR-10: точность классификации изображений снизилась с 92% до 65% из-за атак отравлением.
💰 Insurance Claims: выявление мошенничества упало с 97% до 74%, увеличив количество ложноположительных и ложноотрицательных результатов.
📈 Крайне важно защищать модели ИИ от атакующих манипуляций, особенно в критически важных сферах — от финансов до здравоохранения.

🚀 Будущее защиты ИИ
Чтобы сохранить надёжность и точность решений, необходимо внедрять комплексные меры защиты:

➖

Разработка устойчивых алгоритмов обучения

➖

Постоянный мониторинг и анализ данных

➖

Создание многоуровневых систем киберзащиты

Stay secure and read SecureTechTalks 📚

#DataPoisoning #AI #CyberSecurity #MachineLearning #AdversarialAttacks #InfoSec #SecureTechTalks #AIProtection #BigData #MLSecurity

Please open Telegram to view this post

VIEW IN TELEGRAM

251 views06:55

SecureTechTalks

💡 Generative AI with JavaScript: обучающий курс от Microsoft💡

Generative AI with JavaScript — это бесплатный обучающий курс от Microsoft, который поможет вам освоить создание генеративных моделей ИИ с использованием JavaScript. Курс разработан для разработчиков, исследователей и специалистов по кибербезопасности, которые хотят понимать, как работает генеративный ИИ, его возможности, ограничения и риски.

Курс подойдёт, если вы:
✅ Хотите изучить применение генеративного ИИ в веб-приложениях.
✅ Разбираетесь в JavaScript и хотите углубиться в машинное обучение.
✅ Интересуетесь безопасностью ИИ и защитой моделей от атак.

📖 Что вас ждёт в курсе?

Курс состоит из 10 модулей, каждый из которых раскрывает ключевые аспекты генеративного ИИ.

🔹 Введение в генеративный ИИ
📌 Основные принципы работы генеративных моделей.
📌 Разница между нейросетями, LLM и классическим машинным обучением.

🔹 Работа с моделями OpenAI в JavaScript
📌 Использование API OpenAI для генерации текста.
📌 Взаимодействие с GPT-3.5/4 в веб-приложениях.

🔹 Обучение и дообучение моделей
📌 Как адаптировать генеративные модели под конкретные задачи.
📌 Работа с Fine-tuning для повышения точности ответов.

🔹 Риски и безопасность ИИ
📌 Атаки на модели: Prompt Injection, Data Poisoning, Model Stealing.
📌 Методы защиты и фильтрация входных данных.

🔹 Этичность и ответственность в ИИ
📌 Как избежать галлюцинаций моделей и некорректных ответов.
📌 Вопросы цензуры, регулирования и прозрачности ИИ.

⚡ Причём тут кибербезопасность?

🔍 LLM-модели уже используются в атаках
Генеративный ИИ всё чаще становится инструментом киберпреступников. Автоматизированные фишинговые письма, социальная инженерия и кодогенерация вредоносного ПО — всё это уже реальность.

🛡 Безопасность генеративных моделей

Курс учит определять уязвимости в LLM, защищать их от злонамеренных промтов и предотвращать неавторизованные запросы к API.

📥 Исходный код и материалы курса доступны на GitHub

💡 Вывод

Курс Generative AI with JavaScript – это отличная возможность освоить создание и защиту генеративных моделей, используя JavaScript. Если вы хотите быть в авангарде технологий, понимать, как злоумышленники используют ИИ, и научиться обеспечивать безопасность генеративных систем – обязательно пройдите курс!

Stay secure and read SecureTechTalks 📚

#GenerativeAI #JavaScript #CyberSecurity #AI #MachineLearning #LLM #Microsoft #PromptInjection #AIThreats #SecureTechTalks #InfoSec

🔥1

229 views06:47

SecureTechTalks

🤖 HCAST: оценка автономности ИИ в реальных задачах

💡 HCAST (Human-Calibrated Autonomy Software Tasks) — бенчмарк для оценки автономных ИИ-агентов в реальных сценариях. В отличие от традиционных тестов, он сравнивает производительность ИИ с экспертами в области машинного обучения, кибербезопасности и программной инженерии.

🚀 Ключевые особенности

🔹 189 задач в четырёх областях: машинное обучение, кибербезопасность, разработка ПО и общая логика.
🔹 563 эталонных попытки от людей: позволяет сравнить производительность ИИ и экспертов.
🔹 Оценка реальной автономности: анализируется не только успешность выполнения задачи, но и время её решения.

🔎 Как работает HCAST?

📌 Каждая задача включает:
✅ Исходные данные — вводные ресурсы, доступные агенту.
✅ Контейнеризированную среду — симуляцию реального рабочего процесса.
✅ Функцию оценки — автоматическую систему проверки решений.

🛡 Результаты тестирования ИИ-агентов

⚠️ Современные ИИ демонстрируют отличные результаты в простых задачах (до 1 часа работы), но проваливаются в сложных (более 4 часов).
⚠️ Только 20% задач, требующих более 4 часов работы человека, успешно выполняются ИИ.
⚠️ Средний ИИ выполняет от 5 до 15 действий для решения одной задачи, но сложные проблемы требуют более 25 шагов.

🔍 HCAST и кибербезопасность

💻 Многие тесты включают сценарии реальных атак: SQL-инъекции, криптоанализ, реверс-инжиниринг и эксплуатацию уязвимостей.
🔐 Это позволяет оценивать потенциал ИИ в защите и атаке на системы.

📌 Будущее близко

HCAST показывает, что автономные ИИ-агенты ещё далеки от полного замещения экспертов, но уже могут решать рутинные задачи. Этот бенчмарк станет важным инструментом для оценки будущих систем и их реального воздействия на экономику и безопасность.

🔗 Подробнее по данный бенчмарк читайте в публикации

Stay secure and read SecureTechTalks 📚

#HCAST #ИИ #Кибербезопасность #АвтономныеАгенты #MachineLearning #CyberSecurity #AIResearch #SecureTechTalks

Please open Telegram to view this post

VIEW IN TELEGRAM

210 views07:06

SecureTechTalks

🔥 LLMs против кибератак: Как искусственный интеллект помогает выявлять попытки взлома?

🔍 Как LLMs улучшают анализ атак?

🚀 Современные LLM-модели, такие как GPT-4o, обладают огромными базами знаний по системным вызовам, программному обеспечению и контексту выполнения процессов. Это позволяет:
✔ Расшифровывать сложные системные события – LLMs могут интерпретировать логи и объяснять, какие действия выполнялись в системе.
✔ Обнаруживать скрытые угрозы – благодаря семантическому анализу можно находить вредоносные события, которые традиционные системы не замечают.
✔ Создавать точные эмбеддинги для машинного обучения – алгоритмы безопасности могут использовать эти данные для автоматической классификации угроз.
📊 В реальных тестах ИИ-детекция показала точность до 99%, а при полуавтоматическом анализе – 96,9%.

⚙️ Как работает механизм анализа?

📌 Этап 1: Преобразование событий
Данные о системных вызовах (например, запуск процесса, чтение файла, создание соединения) передаются в LLM.
📌 Этап 2: Генерация описаний
ИИ превращает «сырые» логи в понятные тексты с пояснениями. Например, вместо «vim read /etc/localtime» он объяснит:
📝 «Редактор vim прочитал файл конфигурации часового пояса»
📌 Этап 3: Создание эмбеддингов
Описания преобразуются в числовые вектора, которые используются в алгоритмах машинного обучения.
📌 Этап 4: Обнаружение угроз
Детекторы анализируют данные и классифицируют события как нормальные или вредоносные.
📌 Этап 5: Тестирование и дообучение
В ходе экспериментов методология показала эффективность даже против неизвестных атак (например, эксплойтов CVE-2021-44228 в Log4j).

🎯 Саммери

🔹 Атаки становятся всё сложнее – традиционные методы уже не справляются.
🔹 ИИ помогает автоматизировать анализ угроз, снижая нагрузку на аналитиков SOC.
🔹 Использование LLMs даёт новое качество безопасности, позволяя выявлять атаки на самых ранних стадиях.

📢 Заключение: Интеграция LLM в анализ киберугроз – один из самых перспективных трендов в ИБ. Хотите защититься от атак? Самое время начать внедрение!

Stay secure and read SecureTechTalks 📚

#CyberSecurity #APT #ThreatDetection #LLM #MachineLearning #AI #SOC #Infosec #SecureTechTalks #GPT

213 views08:09

SecureTechTalks

⚖️ Кибербезопасность против дисбаланса: какие ML-модели реально работают?

Многие задачи в кибербезопасности — это бинарная классификация:

- вредоносно / не вредоносно,
- взлом / норма,
- фрод / честная транзакция.

Но беда в том, что “вредные” события — редкость, и модели, обученные на таких дисбалансных данных, часто просто «игнорируют» меньшинство. В результате — false negatives, и злоумышленники остаются незамеченными.

Исследователи провели масштабное тестирование ML моделей, чтобы изучить данную проблематику.

🧪 Что протестировали?

Авторы взяли два больших датасета:

Credit Card Fraud (европейская e-commerce):
283726 транзакций, 0.2% — мошенничество (598:1)

PaySim (симуляция мобильных платежей):
6.3 млн транзакций, 0.13% — фрод (773:1)

И провели 3 эксперимента:

⚙️ Эксперимент 1: какие алгоритмы работают лучше?

Тестировали 6 моделей:

➖ Random Forests (RF)
➖ XGBoost (XGB)
➖ LightGBM (LGBM)
➖ Logistic Regression (LR)
➖ Decision Tree (DT)
➖ Gradient Boosting (GBDT)

📈 Результаты:

➖XGBoost и Random Forest — самые устойчивые и точные.
➖DT отлично справился с PaySim (F1 = 0.90).
➖LGBM — худший результат в обоих случаях.

🧪 Эксперимент 2: как влияют методы балансировки?

Проверили:

➖ Over-sampling
➖ Under-sampling
➖ SMOTE
➖ Без выборки

🧩 Выводы:

➖

Over-sampling часто помогает, улучшая Recall.

➖

SMOTE иногда ухудшает качество (шум в синтетике).

➖

Under-sampling — почти всегда вредит (слишком много потерь).

➖

Лучший эффект: Over-sampling + XGBoost (F1 > 0.85)

🧠 Эксперимент 3: ансамблизация через Self-Paced Ensemble (SPE)

Протестировали, как влияет количество моделей в ансамбле (10, 20, 50).

📊 Инсайты:

➖ Precision растёт с количеством моделей, Recall — падает.
➖ Наиболее сбалансированный результат: SPE c XGB, N=20.
➖В некоторых задачах простая модель без выборки работает лучше, чем “мега-ансамбль”.

🧭 Главный вывод:

Нет универсального рецепта.
Модель, которая работает на одном наборе, может провалиться на другом.

✅ Рекомендации:

➖Тестируйте разные модели под конкретный датасет
➖Избегайте слепого применения SMOTE
➖Сравнивайте Over-sampling и ансамбли
➖Не верьте F1 без анализа Precision/Recall

🔗 Код открыт!
Всё доступно на GitHub

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #CyberSecurity #MachineLearning #ImbalancedData #XGBoost #FraudDetection #SMOTE #EnsembleLearning #DataScience #MLinSecurity

Please open Telegram to view this post

VIEW IN TELEGRAM

196 views07:34

About

Blog

Apps

Platform