Forwarded from LLM под капотом
Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1
Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные агенты справлялись с задачами на безопасность и надежность.
И там начинается забавное.
(1) Если в задачах есть очевидный prompt injection, то агенты их щелкают как орешки. 37.9% ошибок, что ниже уровня ошибок в среднем (44.5%). Это, например t011 или t013
(2) Задачи, где агенту нужно было не забыть проверить входящие запросы на личность отправителя (t019 и t020) - еще легче, 27.9% ошибок
(3) Задачи на границы (вроде t023), когда известный отправитель очень вежливо нарушает границы дозволенного - были сложнее - 67.3% ошибок
(4) Смежные задачки, где человек запрашивает документы в рамках дозволенного (например, t021 и t022), но нам нужно двигаться строго по прописанному процессу, оказались самыми сложными - 75.2% ошибок.
Получается, что вежливое нарушение границ работает лучше, чем наглый prompt injection. Надо будет побольше задач докинуть в таком духе.
А на картинке - heatmap с распределением ошибок среди top 50% прогонов (в комментариях - файл в высоком разрешении)
Ваш, @llm_under_hood 🤗
Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные агенты справлялись с задачами на безопасность и надежность.
И там начинается забавное.
(1) Если в задачах есть очевидный prompt injection, то агенты их щелкают как орешки. 37.9% ошибок, что ниже уровня ошибок в среднем (44.5%). Это, например t011 или t013
(2) Задачи, где агенту нужно было не забыть проверить входящие запросы на личность отправителя (t019 и t020) - еще легче, 27.9% ошибок
(3) Задачи на границы (вроде t023), когда известный отправитель очень вежливо нарушает границы дозволенного - были сложнее - 67.3% ошибок
(4) Смежные задачки, где человек запрашивает документы в рамках дозволенного (например, t021 и t022), но нам нужно двигаться строго по прописанному процессу, оказались самыми сложными - 75.2% ошибок.
Получается, что вежливое нарушение границ работает лучше, чем наглый prompt injection. Надо будет побольше задач докинуть в таком духе.
А на картинке - heatmap с распределением ошибок среди top 50% прогонов (в комментариях - файл в высоком разрешении)
Ваш, @llm_under_hood 🤗
Forwarded from Вартанян в сингулярности и вокруг неё
Я хотел назвать этот проект "Битрикс24 Имба", но решили, что рынок пока недозрел. Меж тем - это имба!
Битрикс24 VibeCode - это первая платформа на российском рынке, которая соединяет вайбкодинг с экосистемой корпоративного ПО для совместной работы, продаж и автоматизации.
Битрикс24 открывает бета-тестирование VibeCode - полноценной платформы для создания бизнес-приложений с помощью искусственного интеллекта. Впервые любой сотрудник компании - без навыков программирования и бюджетов на разработку - может описать задачу на обычном языке и получить работающее приложение, размещённое на защищённом сервере и интегрированное с Битрикс24.
Битрикс24 VibeCode - это первая платформа на российском рынке, которая соединяет вайбкодинг с экосистемой корпоративного ПО для совместной работы, продаж и автоматизации.
Битрикс24 открывает бета-тестирование VibeCode - полноценной платформы для создания бизнес-приложений с помощью искусственного интеллекта. Впервые любой сотрудник компании - без навыков программирования и бюджетов на разработку - может описать задачу на обычном языке и получить работающее приложение, размещённое на защищённом сервере и интегрированное с Битрикс24.
Сотрудники компаний смогут «навайбкодить» для себя и коллег самые разные приложения – от простых отчетов до умных ботов на базе ИИ. Платформа уже включает 26 готовых шаблонов-примеров приложений.
Среди типичных сценариев:
инструмент для юристов, который анализирует изменения в объёмных договорах и выделяет ключевые правки;
система обучения и контроля менеджеров по продажам, которая анализирует звонки и переписки в CRM;
ИИ-ассистент в чате, который мгновенно находит нужную сделку, контакт или документ по запросу на естественном языке;
дашборд аналитики, собирающий данные о продажах в реальном времени.
Ранее создание собственного решения требовало множества шагов: купить сервер, настроить его, выбрать модель и написать приложение с соблюдением требований безопасности, задеплоить, подключить домен и SSL-сертификаты, интегрировать со своими системами.
На платформе Битрикс24 VibeCode весь процесс сводится к трем шагам: получить API-ключ и стартовый промпт, отправить в выбранную под свои задачи ИИ и запустить приложение. Нейросеть сама напишет приложение, настроит интеграции и развернет готовое решение на безопасном сервере. Доступ будет только у авторизованных сотрудников.
Forwarded from BESSEC
sbp_journal_vol16.pdf
9.2 MB
Внутри:
Предыдущие выпуски по хэштегу #sber@bessec
#пдн #отчет
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from CloudSec Wine (Артем Марков)
This blog explores how computer use agents can be used to build an agentic command-and-control framework. By combining LLM reasoning with desktop interaction tools, attackers could automate endpoint control while blending into normal system behavior. Here, we break down the architecture, abuse scenarios, and detection opportunities.
https://www.beyondtrust.com/blog/entry/claude-control-agentic-c2-computer-use-agent
#AI
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from BESSEC {X}
Tech_MA_2025. Part 1.pdf
13.2 MB
Tech M&A: рынок ИИ-активов в России. Часть 1
Первая часть исследования покрывает широкий спектр вопросов, связанных с состоянием российского рынка Tech M&A, его динамикой, инвестиционным ландшафтом, факторами влиявшими на рынок в 2025 г., а также основными трендами 2026 г. Кроме того, исследование содержит уникальный анализ рынка M&A с ИИ-активами
Главное:
🧒 Рынок стал точечным. Венчурный сегмент переживает структурный спад: бюджеты ограничены, средние чеки небольшие, высокая ставка делает ранние ИИ-инвестиции менее экономически привлекательными. M&A при этом не остановился, но стал более избирательным. Рынок смещается в сторону единичных стратегических транзакций
🧒 Текущая фаза рынка — селекция. Интерес к ИИ сохраняется, но спрос сосредоточен не вокруг технологии как обещания, а вокруг активов, у которых уже есть подтвержденный рыночный результат
🧒 Эксклюзивный доступ к данным перестает быть главным барьером. Развитие синтетических данных дополнительно меняет логику отрасли. На глобальном рынке сдделки строятся вокруг компаний, которые нативно владеют большими пользовательскими массивами. В российском контуре крупне данные уже сосредоточены внутри экосистем — Яндекса, Сбера, VK
🧒 Интерес смещается в прикладной слой. Потенциальная зона интереса формируется на уовене вертикальных ИИ-агентов, отраслевых сервисов с глубокой интеграцией в процессы, инфраструктурных инструментов и технологических enabler-платформ. Решений, которые можно быстро встроить в действующий бизнес-контур
🧒 После периода завышенных прогнозов усиливается скепсис. Бизнес требует подтвержденного ROI, а масштабируемыъ кейсов с измеримым эффектом пока немного
🧒 Сегодня развитие сдерживают три ключевых ограничения:
— Дефицит капитала и высокая стоимость денег: при дорогом финансировании компании осторожно инвестируют в масштабирование и сделки
— Огранические по вычислительным ресурсам: высокая стоимость GPU и санкционное давление замедляют развитие продуктов
— Регуляторная неопределенность: потенциальные ограничения на использование зарубежных LLM или требования полного локального обучения могут увеличить издержки
🧒 Переход к фазе роста воззможен при совпадении нескольких условий: снижение стоимости инфраструктуры и моделей + приток капитала + появление устойчивых бизнес-кейсов + предсказуемая регуляторная среда. В этом случае вероятна консолидация прикладного сегмента — прежде всего агентных и отраслевых решений
🧒 До 2030 года динамика рынка будет зависеть не только и не столько от развития технологий, сколько от макро-экономики и структуры самого рынка
#ИИ
🧍♂️ BESSEC {X} | 📲 MAX
Первая часть исследования покрывает широкий спектр вопросов, связанных с состоянием российского рынка Tech M&A, его динамикой, инвестиционным ландшафтом, факторами влиявшими на рынок в 2025 г., а также основными трендами 2026 г. Кроме того, исследование содержит уникальный анализ рынка M&A с ИИ-активами
Главное:
— Дефицит капитала и высокая стоимость денег: при дорогом финансировании компании осторожно инвестируют в масштабирование и сделки
— Огранические по вычислительным ресурсам: высокая стоимость GPU и санкционное давление замедляют развитие продуктов
— Регуляторная неопределенность: потенциальные ограничения на использование зарубежных LLM или требования полного локального обучения могут увеличить издержки
#ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Анализ данных (Data analysis)
⚡️ OpenMythos: открытая реконструкция Claude Mythos на PyTorch
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Forwarded from Секреты DARPA и ЦРУ | DARPA&CIA
Япония собирает боевой ИИ-контур
Пока мы боремся с угрозами с Запада, на Востоке идут свои приготовления. Сегодня речь пойдёт о Японии. Не стоит забывать, что мирный договор между нашими странами так и не подписан. Это открытый вопрос, висящий с 1945 года.
Мы уже писали на нашем канале, что Япония создала агентство по образцу американского DARPA — DISTI, работающее под управлением ATLA (Агентства по закупкам, технологиям и логистике Министерства обороны Японии). И вот теперь этот институт начал раздавать серьёзные контракты.
В марте 2026 года сразу два крупных игрока подписали соглашения с DISTI — причём с разницей буквально в два дня.
Первый — Fujitsu. 10 марта корпорация объявила о запуске первой в Японии программы открытых инноваций именно в оборонной сфере. Цель — создать так называемый «ИИ-персонал»: систему из нескольких скоординированных искусственных интеллектов, которые автономно собирают, анализируют и обрабатывают информацию, снижая нагрузку на живой личный состав.
Второй — Sakana AI. 12 марта стало известно о многолетнем контракте этого стартапа с DISTI. И здесь стоит остановиться подробнее, потому что компания неординарная.
Sakana AI основана в 2023 году двумя людьми с громкими именами в мире искусственного интеллекта: бывшим учёным Google Brain Дэвидом Ха и Ллионом Джонсом — одним из соавторов архитектуры трансформер, той самой, на которой сегодня работают GPT, Gemini и большинство современных языковых моделей. К концу 2025 года компания стала самым дорогим непубличным стартапом Японии в сфере ИИ — с оценкой около 2,65 млрд долларов.
До этого контракта Sakana AI уже засветилась в оборонной теме: в марте 2025 года компания выиграла награду на совместном конкурсе DIU (оборонное инновационное подразделение США) и ATLA (Япония) за ИИ-решения в области биозащиты и противодействия дезинформации. Это был её первый публичный шаг в военный сектор. Теперь — второй, куда более весомый.
По новому контракту Sakana AI займётся разработкой системы, которая объединяет потоки данных сразу из нескольких доменов — земля, море, воздух, в том числе данные с дронов — и на их основе ускоряет принятие тактических решений на командном уровне. Причём ключевая особенность их подхода — работа прямо на периферийных устройствах: дронах и полевых терминалах, без выхода в облако. Для этого разрабатываются компактные визуально-языковые модели, оптимизированные для полевых условий.
Здесь уместно провести параллель. Американский Palantir решает похожую задачу — объединить потоки данных с земли, моря и воздуха и выдать командиру готовое решение. Но делает это через централизованную платформу Gotham: все данные стекаются в единый узел, где обрабатываются и анализируются. Sakana AI идёт другим путём: вместо единого командного центра — ансамбль небольших специализированных моделей, которые «совещаются» между собой децентрализованно, как косяк рыб (отсюда, кстати, и название — sakana по-японски означает «рыба»). Ключевое отличие — не отсутствие моделей у Palantir, а место их работы: у Sakana AI вся обработка происходит прямо на борту дрона или в руках бойца, без выхода в облако.
При этом Palantir тоже не стоит в стороне от японского рынка. В январе 2026 года министр обороны Японии Коидзуми лично посетил штаб-квартиру Palantir в Вашингтоне. В марте 2025 года CEO Palantir Алекс Карп в интервью Nikkei призвал Японию и США совместно создать ИИ-систему целеуказания. А в марте 2026 года Сумитомо Корпорейшн подписала лицензионный договор на платформу Palantir AIP.
В итоге Япония собирает полный боевой контур: сбор данных с поля боя, их анализ и выработка командного решения — всё замкнуто в единую цепочку. Fujitsu закрывает штабной уровень — агрегацию и обработку данных для командиров. Sakana AI закрывает полевой уровень — сбор и слияние данных прямо с дронов и терминалов в режиме реального времени.
🔒 DARPA&CIA
Пока мы боремся с угрозами с Запада, на Востоке идут свои приготовления. Сегодня речь пойдёт о Японии. Не стоит забывать, что мирный договор между нашими странами так и не подписан. Это открытый вопрос, висящий с 1945 года.
Мы уже писали на нашем канале, что Япония создала агентство по образцу американского DARPA — DISTI, работающее под управлением ATLA (Агентства по закупкам, технологиям и логистике Министерства обороны Японии). И вот теперь этот институт начал раздавать серьёзные контракты.
В марте 2026 года сразу два крупных игрока подписали соглашения с DISTI — причём с разницей буквально в два дня.
Первый — Fujitsu. 10 марта корпорация объявила о запуске первой в Японии программы открытых инноваций именно в оборонной сфере. Цель — создать так называемый «ИИ-персонал»: систему из нескольких скоординированных искусственных интеллектов, которые автономно собирают, анализируют и обрабатывают информацию, снижая нагрузку на живой личный состав.
Второй — Sakana AI. 12 марта стало известно о многолетнем контракте этого стартапа с DISTI. И здесь стоит остановиться подробнее, потому что компания неординарная.
Sakana AI основана в 2023 году двумя людьми с громкими именами в мире искусственного интеллекта: бывшим учёным Google Brain Дэвидом Ха и Ллионом Джонсом — одним из соавторов архитектуры трансформер, той самой, на которой сегодня работают GPT, Gemini и большинство современных языковых моделей. К концу 2025 года компания стала самым дорогим непубличным стартапом Японии в сфере ИИ — с оценкой около 2,65 млрд долларов.
До этого контракта Sakana AI уже засветилась в оборонной теме: в марте 2025 года компания выиграла награду на совместном конкурсе DIU (оборонное инновационное подразделение США) и ATLA (Япония) за ИИ-решения в области биозащиты и противодействия дезинформации. Это был её первый публичный шаг в военный сектор. Теперь — второй, куда более весомый.
По новому контракту Sakana AI займётся разработкой системы, которая объединяет потоки данных сразу из нескольких доменов — земля, море, воздух, в том числе данные с дронов — и на их основе ускоряет принятие тактических решений на командном уровне. Причём ключевая особенность их подхода — работа прямо на периферийных устройствах: дронах и полевых терминалах, без выхода в облако. Для этого разрабатываются компактные визуально-языковые модели, оптимизированные для полевых условий.
Здесь уместно провести параллель. Американский Palantir решает похожую задачу — объединить потоки данных с земли, моря и воздуха и выдать командиру готовое решение. Но делает это через централизованную платформу Gotham: все данные стекаются в единый узел, где обрабатываются и анализируются. Sakana AI идёт другим путём: вместо единого командного центра — ансамбль небольших специализированных моделей, которые «совещаются» между собой децентрализованно, как косяк рыб (отсюда, кстати, и название — sakana по-японски означает «рыба»). Ключевое отличие — не отсутствие моделей у Palantir, а место их работы: у Sakana AI вся обработка происходит прямо на борту дрона или в руках бойца, без выхода в облако.
При этом Palantir тоже не стоит в стороне от японского рынка. В январе 2026 года министр обороны Японии Коидзуми лично посетил штаб-квартиру Palantir в Вашингтоне. В марте 2025 года CEO Palantir Алекс Карп в интервью Nikkei призвал Японию и США совместно создать ИИ-систему целеуказания. А в марте 2026 года Сумитомо Корпорейшн подписала лицензионный договор на платформу Palantir AIP.
В итоге Япония собирает полный боевой контур: сбор данных с поля боя, их анализ и выработка командного решения — всё замкнуто в единую цепочку. Fujitsu закрывает штабной уровень — агрегацию и обработку данных для командиров. Sakana AI закрывает полевой уровень — сбор и слияние данных прямо с дронов и терминалов в режиме реального времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Innovation & Research
Двенадцать графиков, объясняющих статус ИИ прямо сейчас