🚀 AWS представила новое поколение AI-инструментов: Amazon Nova 2 и Agentic-AI
✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация
Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей
#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models
✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация
Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей
#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models
🧠 AgentEvolver: Эффективная система саморазвивающихся агентов
AgentEvolver — это комплексная платформа для самообучения агентов, объединяющая механизмы самовопроса, самонавигации и самоатрибуции. Она позволяет агентам автономно улучшать свои способности, обеспечивая эффективное и непрерывное развитие.
🚀Основные моменты:
- Автоматическая генерация задач для уменьшения затрат на создание данных.
- Оптимизация исследований через опыт, полученный от предыдущих задач.
- Тонкая настройка политики на основе атрибуции промежуточных шагов.
- Модульная архитектура для легкой настройки и расширения.
- Высокая производительность с меньшим количеством параметров по сравнению с аналогами.
📌 GitHub: https://github.com/modelscope/AgentEvolver
#python
AgentEvolver — это комплексная платформа для самообучения агентов, объединяющая механизмы самовопроса, самонавигации и самоатрибуции. Она позволяет агентам автономно улучшать свои способности, обеспечивая эффективное и непрерывное развитие.
🚀Основные моменты:
- Автоматическая генерация задач для уменьшения затрат на создание данных.
- Оптимизация исследований через опыт, полученный от предыдущих задач.
- Тонкая настройка политики на основе атрибуции промежуточных шагов.
- Модульная архитектура для легкой настройки и расширения.
- Высокая производительность с меньшим количеством параметров по сравнению с аналогами.
📌 GitHub: https://github.com/modelscope/AgentEvolver
#python
❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте, что вы проснулись в недалёком будущем. Как бигтех работает с контентом?
Мультимодальные и рекомендательные системы нового поколения — это то, что уже сейчас определяет мир, в котором мы скоро будем жить.
Сотрудники VK рассказали, над чем работает их группа R&D и другие команды. Заходите по ссылке — смотрите ролики и знакомьтесь с нашей внутренней кухней.
Мультимодальные и рекомендательные системы нового поколения — это то, что уже сейчас определяет мир, в котором мы скоро будем жить.
Сотрудники VK рассказали, над чем работает их группа R&D и другие команды. Заходите по ссылке — смотрите ролики и знакомьтесь с нашей внутренней кухней.
👍2
Forwarded from Machinelearning
Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.
В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.
В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.
Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.
APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.
А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.
Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют SPAD macropixels. Это путь компаний Ouster и Sony.
Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.
С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.
Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.
Современный тренд - уход от вращения всей «головы» к более хитрым методам.
MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.
Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.
Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.
Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.
1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.
Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.
И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".
Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.
Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.
Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.
Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.
Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5
🎬 HunyuanVideo-1.5: Легкая модель генерации видео
HunyuanVideo-1.5 — это мощная модель для создания видео с высоким качеством и всего 8.3 миллиарда параметров. Она оптимизирована для работы на потребительских GPU, что делает её доступной для разработчиков и креаторов. Репозиторий включает инструменты для генерации креативных видео.
🚀Основные моменты:
- Высокое качество видео с минимальными ресурсами
- Поддержка текстового и изображенческого ввода
- Оптимизирована для быстрого вывода на обычных GPU
- Открытый исходный код и доступные веса модели
📌 GitHub: https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
#python
HunyuanVideo-1.5 — это мощная модель для создания видео с высоким качеством и всего 8.3 миллиарда параметров. Она оптимизирована для работы на потребительских GPU, что делает её доступной для разработчиков и креаторов. Репозиторий включает инструменты для генерации креативных видео.
🚀Основные моменты:
- Высокое качество видео с минимальными ресурсами
- Поддержка текстового и изображенческого ввода
- Оптимизирована для быстрого вывода на обычных GPU
- Открытый исходный код и доступные веса модели
📌 GitHub: https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
#python
GitHub
GitHub - Tencent-Hunyuan/HunyuanVideo-1.5: HunyuanVideo-1.5: A leading lightweight video generation model
HunyuanVideo-1.5: A leading lightweight video generation model - Tencent-Hunyuan/HunyuanVideo-1.5
🧄 OpenAI разрабатывает новую крупную модель под кодовым названием “Garlic” - ответ на недавний рывок Google.
По данным Deep Research, Chief Research Officer Марк Чен сообщил коллегам, что Garlic уже показывает сильные результаты против Gemini 3 в задачах кодирования и рассуждений.
Интрига проста: OpenAI готовит новый удар по Google - и первые тесты выглядят многообещающе.
https://www.theinformation.com/articles/openai-pivots-counter-gemini-3
По данным Deep Research, Chief Research Officer Марк Чен сообщил коллегам, что Garlic уже показывает сильные результаты против Gemini 3 в задачах кодирования и рассуждений.
Интрига проста: OpenAI готовит новый удар по Google - и первые тесты выглядят многообещающе.
https://www.theinformation.com/articles/openai-pivots-counter-gemini-3
❤8🔥3
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
🔥2
🚀 Jina AI представила Jina-VLM -компактную 2B-модель.
Jina-VLM построена на Qwen3-1.7B, показывает лучшие результаты среди открытых мультимодальных моделей такого размера.
Что умеет:
• понимает изображения, документы, диаграммы и текст
• отвечает на вопросы на разных языках
• особенно хороша в визуальном Q&A
Почему это важно:
📌 лучшая среди открытых VLM моделей масштаба 2B
📌 топовый средний результат - 72.3 на 8 визуальных бенчмарках
📌 выдающиеся баллы на мультиязычных тестах: 78.8 (MMMB) и 74.3 (Multilingual MMBench)
🔗 arXiv: https://arxiv.org/abs/2512.04032
🔗 HuggingFace: https://huggingface.co/jinaai/jina-vlm
Jina-VLM построена на Qwen3-1.7B, показывает лучшие результаты среди открытых мультимодальных моделей такого размера.
Что умеет:
• понимает изображения, документы, диаграммы и текст
• отвечает на вопросы на разных языках
• особенно хороша в визуальном Q&A
Почему это важно:
📌 лучшая среди открытых VLM моделей масштаба 2B
📌 топовый средний результат - 72.3 на 8 визуальных бенчмарках
📌 выдающиеся баллы на мультиязычных тестах: 78.8 (MMMB) и 74.3 (Multilingual MMBench)
🔗 arXiv: https://arxiv.org/abs/2512.04032
🔗 HuggingFace: https://huggingface.co/jinaai/jina-vlm
❤1
Forwarded from Machinelearning
Компания представила сразу 2 версии модели для кодинга: флагманскую Devstral 2 (123 млрд. параметров) и облегченную Devstral Small 2 (24 млрд).
Старшая модель выбила 72,2% в бенчмарке SWE-bench Verified, закрепив за собой статус одного из лучших инструментов с открытыми весами.
Благодаря контекстному окну в 256k токенов, алгоритм способен удерживать в памяти структуру больших проектов и корректно управлять зависимостями.
Для локального запуска на GPU или CPU подойдет версия Small 2, опубликованная под лицензией Apache 2.0.
Старшая версия требует серьезного железа (от 4-х H100), но обещает быть до 7 раз экономичнее проприетарных аналогов уровня Claude Sonnet.
Вместе с моделями разработчики анонсировали утилиту Mistral Vibe CLI, которая позволяет внедрять ИИ-агентов непосредственно в терминал для автоматизации рефакторинга и оркестрации изменений сразу в нескольких файлах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
OpenAI строит подписочную империю масштаба Spotify - и делает это невероятно быстро.
Сегодня у ChatGPT уже более 800 млн пользователей и около 35 млн платных подписчиков.
Это больше не просто вирусный инструмент - это превращается в полноценную платформу для продуктивности, на уровне крупных корпоративных экосистем.
К 2030 году OpenAI прогнозирует $200 млрд годовой выручки, рассчитывая догнать (и конкурировать с) Microsoft Office и Google Workspace, конвертируя ещё десятки миллионов пользователей в платные уровни.
ChatGPT - это уже не стартап.
Это новая глобальная инфраструктура для работы.
Сегодня у ChatGPT уже более 800 млн пользователей и около 35 млн платных подписчиков.
Это больше не просто вирусный инструмент - это превращается в полноценную платформу для продуктивности, на уровне крупных корпоративных экосистем.
К 2030 году OpenAI прогнозирует $200 млрд годовой выручки, рассчитывая догнать (и конкурировать с) Microsoft Office и Google Workspace, конвертируя ещё десятки миллионов пользователей в платные уровни.
ChatGPT - это уже не стартап.
Это новая глобальная инфраструктура для работы.
❤5👎2
Что под капотом у поиска в Яндекс Лавке
Хороший живой кейс продакшн-поиска под e-commerce: тут и архитектура, и ML, и работа с логами.
В Лавке поиск — это не просто «BM25 и точка», а взрослый ML-сервис с собственной архитектурой на C++ + userver и плотными бургерами из моделей. В разборе ML-инженер команды показывает, как они эволюционировали от Aho–Corasick и SaaS-поиска до собственного сервиса, заточенного под персонализацию.
Что внутри:
👉 как устроен «бургер» из ML-моделей и кто за что отвечает — генерация кандидатов, фильтрация, ранжирование;
👉 как собирают фичи и действия пользователей в единый датасет для обучения ранжирующей модели;
👉 как дообучают DSSM каждые несколько дней, чтобы новые товары не выпадали из выдачи.
В конце автор буквально «ломает прод»: отключает отдельные слои и показывает, как меняется выдача, когда вы выкидываете, например, семантическую модель или фильтр.
👉 Читать на Хабре
Хороший живой кейс продакшн-поиска под e-commerce: тут и архитектура, и ML, и работа с логами.
В Лавке поиск — это не просто «BM25 и точка», а взрослый ML-сервис с собственной архитектурой на C++ + userver и плотными бургерами из моделей. В разборе ML-инженер команды показывает, как они эволюционировали от Aho–Corasick и SaaS-поиска до собственного сервиса, заточенного под персонализацию.
Что внутри:
👉 как устроен «бургер» из ML-моделей и кто за что отвечает — генерация кандидатов, фильтрация, ранжирование;
👉 как собирают фичи и действия пользователей в единый датасет для обучения ранжирующей модели;
👉 как дообучают DSSM каждые несколько дней, чтобы новые товары не выпадали из выдачи.
В конце автор буквально «ломает прод»: отключает отдельные слои и показывает, как меняется выдача, когда вы выкидываете, например, семантическую модель или фильтр.
👉 Читать на Хабре
❤5🔥5👍3
Claude Code
Claudix - это расширение для Visual Studio Code, которое интегрирует Claude AI прямо в ваш редактор. Оно предлагает интерактивный интерфейс для общения, управление сессиями и анализ кода, что делает процесс программирования более удобным и эффективным.
🚀 Основные моменты:
- Интерактивный чат с Claude Code
- Управление сессиями и история разговоров
- Интеллектуальный анализ кода
- Поддержка нескольких моделей Claude
- Реакция в реальном времени
📌 GitHub: https://github.com/Haleclipse/Claudix
#typescript
Claudix - это расширение для Visual Studio Code, которое интегрирует Claude AI прямо в ваш редактор. Оно предлагает интерактивный интерфейс для общения, управление сессиями и анализ кода, что делает процесс программирования более удобным и эффективным.
🚀 Основные моменты:
- Интерактивный чат с Claude Code
- Управление сессиями и история разговоров
- Интеллектуальный анализ кода
- Поддержка нескольких моделей Claude
- Реакция в реальном времени
📌 GitHub: https://github.com/Haleclipse/Claudix
#typescript
❤5👍2
Forwarded from Machinelearning
Занимательная история Дэвида Ноэля о том, как он купил ИИ-оборудование корпоративного класса, разработанное для серверных стоек с жидкостным охлаждением, которое затем переоборудовал под воздушное охлаждение, потом снова переоборудовал под водяное, пережил множество ситуаций, близких к катастрофе, и, в итоге получил настольный компьютер, способный запускать модели с 235 миллиардами параметров дома.
Это рассказ о сомнительных решениях и нестандартном подходе к решению проблем. И немного о том, что происходит, когда пытаешься превратить оборудование для ЦОДа в домашний сетап.
Если вы когда-либо задавались вопросом, что нужно для запуска действительно крупных моделей локально, или если вы просто хотите посмотреть, как кто-то разбирает оборудование стоимостью 80 000 долларов, полагаясь лишь на надежду и изопропанол, то эта статья не оставит вас равнодушным.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
⚡️ Zoom установила новый SOTA-результат на Humanity’s Last Exam (HLE) - 48,1%
Это лучший результат на сегодняшний день:
- +2,3% к предыдущему SOTA
- Zoom обошла другие ведущие AI-модели
Humanity’s Last Exam (HLE) - один из самых строгих и сложных тестов в ИИ. Он проверяет не «красивые ответы», а:
- глубокое reasoning
- экспертные знания
- умение решать сложные, нестандартные задачи
Что это дает пользователям Zoom:
- более точные и полезные саммари встреч
- лучшее логическое понимание контекста
- более мощную автоматизацию в AI Companion 3.0
Zoom делает ставку не на маркетинговые демо, а на реальное качество мышления ИИ. И результаты это подтверждают.
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/
Это лучший результат на сегодняшний день:
- +2,3% к предыдущему SOTA
- Zoom обошла другие ведущие AI-модели
Humanity’s Last Exam (HLE) - один из самых строгих и сложных тестов в ИИ. Он проверяет не «красивые ответы», а:
- глубокое reasoning
- экспертные знания
- умение решать сложные, нестандартные задачи
Что это дает пользователям Zoom:
- более точные и полезные саммари встреч
- лучшее логическое понимание контекста
- более мощную автоматизацию в AI Companion 3.0
Zoom делает ставку не на маркетинговые демо, а на реальное качество мышления ИИ. И результаты это подтверждают.
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/
❤6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Speech-to-text прямо из терминала 🎤⚡
Удобный терминальный инструмент, который умеет:
- записывать голос;
- превращать речь в текст;
- показывать реальный waveform в терминале со шкалой dBFS и детектором клиппинга.
🦀 Написан на Rust
🎨 Интерфейс собран на ratatui
🎥 У автора есть демо (ниже в треде)
⭐ GitHub: https://github.com/kristoferlund/ostt
Удобный терминальный инструмент, который умеет:
- записывать голос;
- превращать речь в текст;
- показывать реальный waveform в терминале со шкалой dBFS и детектором клиппинга.
🦀 Написан на Rust
🎨 Интерфейс собран на ratatui
🎥 У автора есть демо (ниже в треде)
⭐ GitHub: https://github.com/kristoferlund/ostt
👍4❤2🔥2
⚡️ Разработчики Z-Image Turbo выложили в open-source DistillPatch LoRA - простое решение, которое возвращает настоящую Turbo-скорость генерации в 8 шагов для любых LoRA, дообученных на Z-Image Turbo.
В чём была проблема:
Обычное обучение LoRA ломает ускорение Turbo.
При
Что проверили разработчики:
1️⃣ Стандартный SFT
Качество хорошее, но генерация медленная
2️⃣ Diff-LoRA
Быстро, но плохо подходит для гибких сценариев
3️⃣ SFT + дистилляция
Отличное качество, но сложный и тяжёлый пайплайн
4️⃣ SFT + DistillPatch — рекомендуемый вариант
Подключаешь один LoRA и сразу возвращаешь:
- чёткие изображения
- 8 шагов
- настоящую Turbo-скорость 🚀
Кому это особенно полезно:
- Если у тебя уже есть LoRA под Z-Image Turbo
- Если ты используешь стандартные SFT-пайплайны
- Если важен быстрый инференс без потери качества
DistillPatch не требует переобучения всей модели и не усложняет процесс - он просто возвращает то ускорение, ради которого Z-Image Turbo и существует.
🔗 Grab the model: https://modelscope.cn/models/DiffSynth-Studio/Z-Image-Turbo-DistillPatch
🎨 Try it live: https://modelscope.cn/aigc/imageGeneration?tab=advanced
🤖 Github: https://github.com/modelscope/DiffSynth-Studio/blob/main/docs/en/Model_Details/Z-Image.md
В чём была проблема:
Обычное обучение LoRA ломает ускорение Turbo.
При
steps=8 и cfg=1 изображения получаются размытыми, поэтому приходится повышать шаги до 30 — и теряется весь смысл Turbo.Что проверили разработчики:
1️⃣ Стандартный SFT
Качество хорошее, но генерация медленная
2️⃣ Diff-LoRA
Быстро, но плохо подходит для гибких сценариев
3️⃣ SFT + дистилляция
Отличное качество, но сложный и тяжёлый пайплайн
4️⃣ SFT + DistillPatch — рекомендуемый вариант
Подключаешь один LoRA и сразу возвращаешь:
- чёткие изображения
- 8 шагов
- настоящую Turbo-скорость 🚀
Кому это особенно полезно:
- Если у тебя уже есть LoRA под Z-Image Turbo
- Если ты используешь стандартные SFT-пайплайны
- Если важен быстрый инференс без потери качества
DistillPatch не требует переобучения всей модели и не усложняет процесс - он просто возвращает то ускорение, ради которого Z-Image Turbo и существует.
🔗 Grab the model: https://modelscope.cn/models/DiffSynth-Studio/Z-Image-Turbo-DistillPatch
🎨 Try it live: https://modelscope.cn/aigc/imageGeneration?tab=advanced
🤖 Github: https://github.com/modelscope/DiffSynth-Studio/blob/main/docs/en/Model_Details/Z-Image.md
❤3👍2
Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно.
Что сделали авторы:
- Они искусственно «подталкивают» скрытые активации модели в заданном направлении
- Модель часто может определить насколько сильным был этот сдвиг
- Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники»
Проще говоря:
Модель может сказать
«на меня сейчас сильно что-то влияет»,
но не может надёжно сказать
«это именно концепт предательства»
Поэтому авторы называют это частичной интроспекцией:
- модель считывает простой сигнал (силу воздействия)
- но не понимает смысл собственного внутреннего состояния
Результаты:
- На Llama 3.1 8B Instruct модель определяет силу инъекции (от слабой до очень сильной) с точностью около 70%
- Случайный уровень - 25%
- Корректно назвать сам концепт удаётся лишь примерно в 20% случаев
- Переформулировка вопроса легко ломает ответы
Некоторые идеи AI-безопасности предполагают, что модель можно спросить, активировано ли внутри неё опасное состояние.
Но эксперимент показывает:
- LLM действительно чувствуют внутренние сигналы
- Однако их объяснения того, что эти сигналы означают, ненадёжны
Как это работает:
- Каждый токен формирует большое числовое состояние
- Авторы создают направление концепта, сравнивая примеры с контрастным набором
- Затем на выбранном слое слегка смещают внутреннее состояние
- И смотрят, что модель может сказать о происходящем
LLM обладают ограниченной самодиагностикой,
но интроспекция не равна пониманию.
Paper:https://arxiv.org/abs/2512.12411
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5❤3