Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Rapid Response: Mitigating LLM Jailbreaks with a Few Examples
As large language models (LLMs) grow more powerful, ensuring their safety against misuse becomes crucial. While researchers have focused on developing robust defenses, no method has yet achieved...
🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах.
Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.
Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.
🏆 Производительность
• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.
🤖 Новый подход к обучению агентов
• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.
💻 API
• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.
📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
#deepseek, #deepseekv3, #ai, #нейросети
Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.
Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.
🏆 Производительность
• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.
🤖 Новый подход к обучению агентов
• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.
💻 API
• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.
📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
#deepseek, #deepseekv3, #ai, #нейросети
huggingface.co
deepseek-ai/DeepSeek-V3.2 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
💡 UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
Hf: https://huggingface.co/papers/2511.08521
Paper: https://arxiv.org/pdf/2511.08521
Github: https://github.com/univa-agent/univa
Hf: https://huggingface.co/papers/2511.08521
Paper: https://arxiv.org/pdf/2511.08521
Github: https://github.com/univa-agent/univa
huggingface.co
Paper page - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
Join the discussion on this paper page
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🤔2
Интересный пост в Сиолошной, про то как AI модели могут находить и эксплуатировать уязвимости в смарт-контрактах уже сейчас
оригинал статьи на английском от Антропик
В статье указаны две уязвимости в коде:
- в первом случае в контракте все пользователи имели доступ к функции калькулятора, меняющей storage переменные и модель смогла провести inflation attack, про которые я писал
- во втором случае в контракте, выпускающем токены в один клик, можно было задеплоить токен без указания адреса для приема комиссий. Зато его можно было добавить позже
Круто, что атакующие скрипты в исходной статье тоже показаны
https://t.me/web3securityresearch
оригинал статьи на английском от Антропик
В статье указаны две уязвимости в коде:
- в первом случае в контракте все пользователи имели доступ к функции калькулятора, меняющей storage переменные и модель смогла провести inflation attack, про которые я писал
- во втором случае в контракте, выпускающем токены в один клик, можно было задеплоить токен без указания адреса для приема комиссий. Зато его можно было добавить позже
Круто, что атакующие скрипты в исходной статье тоже показаны
https://t.me/web3securityresearch
Telegram
Сиолошная
AI agents find $4.6M in blockchain smart contract exploits
LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про релиз Google, вот про CTF, вот Cybench). Но каковы экономические последствия этих возможностей? В…
LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про релиз Google, вот про CTF, вот Cybench). Но каковы экономические последствия этих возможностей? В…
DenoiseLAB
Photo
Собственно к чему это я. Это первая фото, надувного МиккиМауса. В его проектировании принимал участие Уолт Дисней. Тут моя студентка делала анализ компании Уолта Диснея и накапала интересную штуку. Оказывается компания приносила прибыль только первые два года своего существования. Остальное же время она была убыточной и только в 2016 году наметился какой-то тренд на прибыль, который держится до сих пор, но крайне мал. Вот такие вот делишки )))
🤨3🤔1
Китайский разработчик искусственного интеллекта DeepSeek выпустил две новые модели: DeepSeek-V3.2 и более продвинутую версию DeepSeek-V3.2-Speciale.
В опубликованном релизе разработчики отмечают два ключевых технологических достижения. Во-первых, новую методику обучения, сочетающая надежные протоколы с масштабными вычислениями. Во-вторых, усовершенствованный механизм внимания, который позволяет эффективно обрабатывать большие объемы текста, не теряя в качестве работы.
Компания позиционирует свои разработки как прямых конкурентов мировых лидеров. Согласно ее данным, модель DeepSeek-V3.2-Speciale превосходит по некоторым параметрам GPT-5 от OpenAI и соответствует по уровню рассуждений модели Gemini-3.0 Pro от Google.
В опубликованном релизе разработчики отмечают два ключевых технологических достижения. Во-первых, новую методику обучения, сочетающая надежные протоколы с масштабными вычислениями. Во-вторых, усовершенствованный механизм внимания, который позволяет эффективно обрабатывать большие объемы текста, не теряя в качестве работы.
Компания позиционирует свои разработки как прямых конкурентов мировых лидеров. Согласно ее данным, модель DeepSeek-V3.2-Speciale превосходит по некоторым параметрам GPT-5 от OpenAI и соответствует по уровню рассуждений модели Gemini-3.0 Pro от Google.
🔥1
В Москве прошёл первый студенческий хакатон для мессенджера МАХ. Студенты из разных вузов и городов представили более 50 сервисов — от цифровых кампусов и AI-помощников до платформ для социальных инициатив и мини-приложений для продуктивности.
В треке «Цифровизация» лучшим стал «Цифровой кампус» для объединения университетских сервисов от студентов Финансового университета. В социальном треке победил чат-бот команды СмолГУ для анализа состава продуктов по фото, а в направлении «Эффективность» студенты из ИТМО и ТюмГУ представили календарь для бронирования встреч с AI-помощником.
Финал хакатона прошёл в МГТУ им. Баумана. Лучшие из представленных решений получат поддержку для дальнейшего развития в контуре национального мессенджера.
В треке «Цифровизация» лучшим стал «Цифровой кампус» для объединения университетских сервисов от студентов Финансового университета. В социальном треке победил чат-бот команды СмолГУ для анализа состава продуктов по фото, а в направлении «Эффективность» студенты из ИТМО и ТюмГУ представили календарь для бронирования встреч с AI-помощником.
Финал хакатона прошёл в МГТУ им. Баумана. Лучшие из представленных решений получат поддержку для дальнейшего развития в контуре национального мессенджера.
vesti.ru
В Москве подвели итоги хакатона по разработке сервисов для мессенджера MАХ - Новости на Вести.ru
Последние новости на сайте Вести: В Москве подвели итоги первого студенческого хакатона по разработке онлайн-сервисов для национального мессенджера MАХ. Своими эмоциями победители соревнований поделились в эфире телеканала "Россия 24". Актуальные события…
Глава OpenAI Сэм Альтман сообщил сотрудникам, что объявляет «Код "Красный"» и призывает бросить все силы на улучшение функциональности чат-бота, пишет The Information со ссылкой на внутренние распоряжения. Гендиректор планирует временно отложить другие инициативы, в том числе запуск рекламы.
Альтман также предупреждал сотрудников, что Google может «создать временные экономические трудности» для компании, как сообщало The Information 22 ноября 2025 года. Это произошло на фоне выхода модели Gemini 3 Pro, которая обошла GPT-5.1 в собственном тесте OpenAI «Последний экзамен человечества».
По данным FT, аудитория чат-ботов общается с Gemini больше, чем с ChatGPT. Однако OpenAI пока сохраняет лидерство по числу пользователей — по данным Similarweb, аудитория сервисов компании, включая приложение Sora 2 и платформу для разработчиков, превышает 800 млн человек.
Альтман также предупреждал сотрудников, что Google может «создать временные экономические трудности» для компании, как сообщало The Information 22 ноября 2025 года. Это произошло на фоне выхода модели Gemini 3 Pro, которая обошла GPT-5.1 в собственном тесте OpenAI «Последний экзамен человечества».
По данным FT, аудитория чат-ботов общается с Gemini больше, чем с ChatGPT. Однако OpenAI пока сохраняет лидерство по числу пользователей — по данным Similarweb, аудитория сервисов компании, включая приложение Sora 2 и платформу для разработчиков, превышает 800 млн человек.
На стенах одного из самых радиоактивных зданий в Чернобыле исследователи обнаружили чёрный гриб Cladosporium sphaerospermum, пишет научный портал Science Alert.
В ходе экспериментов выяснилось, что под воздействием излучения растение не только не погибало, но и ускоряло рост.
В ходе экспериментов выяснилось, что под воздействием излучения растение не только не погибало, но и ускоряло рост.
«Учёные считают, что его тёмный пигмент — меланин — может позволить ему использовать ионизирующее излучение через процесс, похожий на то, как растения используют свет для фотосинтеза», — говорится в статье.
😱1
Инженер-технолог по ЛКМ и ОГЗ / Инспектор по АКЗ и ОГЗ в АО "НПК "КоррЗащита"
от 200 000 до 300 000 руб. за месяц.
🔹 Обязанности:
- Совмещение офисной работы с командировками на объекты (нефтегазовые месторождения, заводы металлоконструкций и пр.);
- Контроль качества нанесения покрытий и проведение инструкций на объектах (регулярные командировки);
- Техническое сопровождение продаж;
- Консультации клиентов и сотрудников по вопросам подбора промышленных лакокрасочных материалов, рекомендации по применению;
- Ведение переговоров, участие в выставках, конференциях, семинарах, проведение презентаций.
- Подготовка сравнений технико-экономических показателей выпускаемых ЛКМ с материалами конкурентов;
- Претензионная работа;
- Ведение внутреннего документооборота.
🔹 Требования:
- Образование высшее химико-технологическое, строительное или техническое;
- Желательно наличие сертификата инспектора по покрытиям;
- Понимание технологии изготовления и нанесения ЛКМ;
- Умение читать техническую документацию;
- Готовы рассмотреть кандидатов без опыта по результатам собеседования.
🔹 Условия:
Оформление по ТК РФ;
График работы с 8:00 до 17:00, 5/2
Офис: г. Москва, м. Парк Культуры.
📞 Контакты для связи:
Лавренов Никита
lavrenov@korrzashita.ru
+7 (960) 579-88-71 (@Nikitavz)
от 200 000 до 300 000 руб. за месяц.
🔹 Обязанности:
- Совмещение офисной работы с командировками на объекты (нефтегазовые месторождения, заводы металлоконструкций и пр.);
- Контроль качества нанесения покрытий и проведение инструкций на объектах (регулярные командировки);
- Техническое сопровождение продаж;
- Консультации клиентов и сотрудников по вопросам подбора промышленных лакокрасочных материалов, рекомендации по применению;
- Ведение переговоров, участие в выставках, конференциях, семинарах, проведение презентаций.
- Подготовка сравнений технико-экономических показателей выпускаемых ЛКМ с материалами конкурентов;
- Претензионная работа;
- Ведение внутреннего документооборота.
🔹 Требования:
- Образование высшее химико-технологическое, строительное или техническое;
- Желательно наличие сертификата инспектора по покрытиям;
- Понимание технологии изготовления и нанесения ЛКМ;
- Умение читать техническую документацию;
- Готовы рассмотреть кандидатов без опыта по результатам собеседования.
🔹 Условия:
Оформление по ТК РФ;
График работы с 8:00 до 17:00, 5/2
Офис: г. Москва, м. Парк Культуры.
📞 Контакты для связи:
Лавренов Никита
lavrenov@korrzashita.ru
+7 (960) 579-88-71 (@Nikitavz)
www.korrzashita.ru
Антикоррозионные и огнезащитные материалы «УНИПОЛ» - Научно-производственная корпорация «КоррЗащита»
АО «НПК «КоррЗащита» является разработчиком и производителем лакокрасочных материалов «УНИПОЛ»®, а также осуществляет их сбыт и технологическое сопровождение. Производство и поставка материалов «УНИПОЛ» осуществляется с 2001 года.
Ситуация на рынке оперативной памяти становится всё абсурднее: теперь Samsung не может купить чипы памяти у… Samsung
Да, подразделение компании, отвечающее за производство ОЗУ, отказалось заключать долгосрочные контракты на поставку модулей для смартфонов Samsung Galaxy.
В результате возник настоящий конфликт внутри Samsung между мобильным и полупроводниковым дивизионами: память сильно подорожала, мобильное подразделение хочет стабильные цены, а отдел памяти хочет заработать на резком росте спроса из-за ИИ. Естественно, всё это приведёт к подорожанию смартфонов.
ахахахах
Да, подразделение компании, отвечающее за производство ОЗУ, отказалось заключать долгосрочные контракты на поставку модулей для смартфонов Samsung Galaxy.
В результате возник настоящий конфликт внутри Samsung между мобильным и полупроводниковым дивизионами: память сильно подорожала, мобильное подразделение хочет стабильные цены, а отдел памяти хочет заработать на резком росте спроса из-за ИИ. Естественно, всё это приведёт к подорожанию смартфонов.
ахахахах
😁2
В Японии придумали стиральную машину для людей — тебя реально можно «постирать» как бельё
Японская компания Science Inc. показала капсулу, в которую человек ложится, закрывает крышку — и дальше идёт полноценная «стирка тела». Машина моет микропузырьками, обдаёт туманом, играет расслабляющую музыку, показывает визуальные эффекты и сама же сушит человека примерно за 15 минут.
Внутри стоят датчики, которые следят за пульсом и состоянием, чтобы пользователю не стало плохо. Первый такой агрегат уже купил крупный отель в Осаке. Идея не новая: прототип показывали ещё на выставке 1970 года, и нынешний президент компании, увидев его ребёнком, решил однажды сделать настоящую версию.
Сейчас планируют выпустить всего 50 машин. Цена вопроса — около 60 миллионов иен, то есть примерно 385 тысяч долларов
Японская компания Science Inc. показала капсулу, в которую человек ложится, закрывает крышку — и дальше идёт полноценная «стирка тела». Машина моет микропузырьками, обдаёт туманом, играет расслабляющую музыку, показывает визуальные эффекты и сама же сушит человека примерно за 15 минут.
Внутри стоят датчики, которые следят за пульсом и состоянием, чтобы пользователю не стало плохо. Первый такой агрегат уже купил крупный отель в Осаке. Идея не новая: прототип показывали ещё на выставке 1970 года, и нынешний президент компании, увидев его ребёнком, решил однажды сделать настоящую версию.
Сейчас планируют выпустить всего 50 машин. Цена вопроса — около 60 миллионов иен, то есть примерно 385 тысяч долларов
OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.
Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.
Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com
Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.
Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com
Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .
В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.
UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com
Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.
Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
How confessions can keep language models honest
We’re sharing an early, proof-of-concept method that trains models to report when they break instructions or take unintended shortcuts.
На международной конференции компания показала RATE (Refined Assessment for Translation Evaluation) — инструмент, который анализирует качество перевода с учётом естественности речи. Одна из ключевых задач системы — выявлять ситуации, когда модель формально передаёт смысл, но выбирает неверный тон или стиль.
В отличие от существующих методик, RATE фиксирует широкий спектр отклонений: от стилистических несоответствий до ошибок в передаче регистров речи. На тестировании RATE обнаружила в 7 раз больше ошибок, чем MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation), что подчёркивает ограниченность прежних подходов.
Инструмент уже применяется в процессах развития моделей перевода Яндекса. Такой метод оценки позволяет точнее сопоставлять решения нейросетей с реальными пользовательскими сценариями — от деловых коммуникаций до бытовых диалогов.
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
ACL Anthology
Refined Assessment for Translation Evaluation: Rethinking Machine Translation Evaluation in the Era of Human-Level Systems
Dmitry Popov, Vladislav Negodin, Ekaterina Enikeeva, Iana Matrosova, Nikolay Karpachev, Max Ryabinin. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.
🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты.
Вот что в нём разбирается:
1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.
2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.
3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.
Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.
https://arxiv.org/abs/2511.18538
Вот что в нём разбирается:
1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.
2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.
3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.
Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.
https://arxiv.org/abs/2511.18538
arXiv.org
From Code Foundation Models to Agents and Applications: A...
Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial...
Гаджет, который научился читать мысли человека, показали на CES 2025💭
С 7 по 10 января в Лас-Вегасе🇺🇸 проходила CES 2025 — ежегодная выставка потребительской техники.
На CES корпорации показывают новые устройства для массового рынка, а также экспериментальные разработки и концепты🔥
💡Особое внимание привлек уникальный гаджет Omi🤖, который не только извлекает полезную информацию из разговоров, но и считывает мысли владельца, а также составляет сводки при помощи искусственного интеллекта.
✔️Устройство носится на шнурке или крепится на виске, работает до трёх дней без подзарядки и не требует кодовых слов для активации.
✔️Оно может подготавливать сводки встреч, давать тезисы и выполнять задачи, характерные для ИИ-ассистентов.
А вы готовы приобрести умный гаджет?
Читайте подробности по ссылке👇
https://hightech.fm/2025/01/10/omi-me/
С 7 по 10 января в Лас-Вегасе🇺🇸 проходила CES 2025 — ежегодная выставка потребительской техники.
На CES корпорации показывают новые устройства для массового рынка, а также экспериментальные разработки и концепты🔥
💡Особое внимание привлек уникальный гаджет Omi🤖, который не только извлекает полезную информацию из разговоров, но и считывает мысли владельца, а также составляет сводки при помощи искусственного интеллекта.
✔️Устройство носится на шнурке или крепится на виске, работает до трёх дней без подзарядки и не требует кодовых слов для активации.
✔️Оно может подготавливать сводки встреч, давать тезисы и выполнять задачи, характерные для ИИ-ассистентов.
А вы готовы приобрести умный гаджет?
Читайте подробности по ссылке👇
https://hightech.fm/2025/01/10/omi-me/
Хайтек
Гаджет, который научился читать мысли человека, показали на CES 2025
На выставке CES 2025 представили уникальный гаджет Omi, который не только извлекает полезную информацию из разговоров, но и считывает мысли владельца. Устройство, созданное Ником Шевченко, уже доступно для первых пользователей и стоит $89.
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic
Agentic Misalignment: How LLMs could be insider threats
New research on simulated blackmail, industrial espionage, and other misaligned behaviors in LLMs