DenoiseLAB

📖

Эта статья описывает новую методику повышения безопасности крупных языковых моделей (LLM) для быстрой адаптации к новым типам атак!

🌟 Вместо стремления к полной устойчивости к всем возможным атакам, предлагается метод "быстрого ответа" на новые попытки обхода защиты. Система адаптируется после изучения нескольких примеров атак, а затем блокирует аналогичные обходы. Представленный инструмент RapidResponseBench помогает оценить эффективность подхода, уменьшая успех атак в сотни раз даже после одного примера обхода.

🔗

Arxiv

🖥

Github

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Rapid Response: Mitigating LLM Jailbreaks with a Few Examples

As large language models (LLMs) grow more powerful, ensuring their safety against misuse becomes crucial. While researchers have focused on developing robust defenses, no method has yet achieved...

124 views14:35

DenoiseLAB

🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах.

Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.

Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.

🏆 Производительность

• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.

🤖 Новый подход к обучению агентов

• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.

💻 API

• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.

📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

#deepseek, #deepseekv3, #ai, #нейросети

huggingface.co

deepseek-ai/DeepSeek-V3.2 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

120 views14:40

DenoiseLAB

💡 UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Hf: https://huggingface.co/papers/2511.08521

Paper: https://arxiv.org/pdf/2511.08521

Github: https://github.com/univa-agent/univa

huggingface.co

Paper page - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Join the discussion on this paper page

132 views14:49

DenoiseLAB

⚠️

⚠️Ребята, стрим будет в это воскресенье в 18.00. Всех жду, будем разбирать стать и последние новости из мира ML. Благо новостей набралось вагон. Ссылку скину за 15 мнут до начала!!! Всех жду! Поставьте лайкосы если вы будете, пожалуйста ⚠️

⚠️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🤔2

127 viewsedited 19:21

DenoiseLAB

Интересный пост в Сиолошной, про то как AI модели могут находить и эксплуатировать уязвимости в смарт-контрактах уже сейчас

оригинал статьи на английском от Антропик

В статье указаны две уязвимости в коде:
- в первом случае в контракте все пользователи имели доступ к функции калькулятора, меняющей storage переменные и модель смогла провести inflation attack, про которые я писал
- во втором случае в контракте, выпускающем токены в один клик, можно было задеплоить токен без указания адреса для приема комиссий. Зато его можно было добавить позже

Круто, что атакующие скрипты в исходной статье тоже показаны

https://t.me/web3securityresearch

Сиолошная

AI agents find $4.6M in blockchain smart contract exploits

LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про релиз Google, вот про CTF, вот Cybench). Но каковы экономические последствия этих возможностей? В…

122 views13:46

DenoiseLAB

https://iz.ru/1997498/dmitrii-alekseev/kiberchistka-v-rossii-vvedut-shtrafy-za-chiterstvo-v-igrakh - назрел новый кейс для машинки

Известия

Киберчистка: в России введут штрафы за читерство в играх

Какими могут быть штрафы за использование запрещенного ПО

115 viewsedited 14:37

DenoiseLAB

🔥3

113 views17:00

DenoiseLAB

Photo

Собственно к чему это я. Это первая фото, надувного МиккиМауса. В его проектировании принимал участие Уолт Дисней. Тут моя студентка делала анализ компании Уолта Диснея и накапала интересную штуку. Оказывается компания приносила прибыль только первые два года своего существования. Остальное же время она была убыточной и только в 2016 году наметился какой-то тренд на прибыль, который держится до сих пор, но крайне мал. Вот такие вот делишки )))

🤨3🤔1

113 views20:06

DenoiseLAB

Китайский разработчик искусственного интеллекта DeepSeek выпустил две новые модели: DeepSeek-V3.2 и более продвинутую версию DeepSeek-V3.2-Speciale.

В опубликованном релизе разработчики отмечают два ключевых технологических достижения. Во-первых, новую методику обучения, сочетающая надежные протоколы с масштабными вычислениями. Во-вторых, усовершенствованный механизм внимания, который позволяет эффективно обрабатывать большие объемы текста, не теряя в качестве работы.

Компания позиционирует свои разработки как прямых конкурентов мировых лидеров. Согласно ее данным, модель DeepSeek-V3.2-Speciale превосходит по некоторым параметрам GPT-5 от OpenAI и соответствует по уровню рассуждений модели Gemini-3.0 Pro от Google.

🔥1

111 views06:43

DenoiseLAB

В Москве прошёл первый студенческий хакатон для мессенджера МАХ. Студенты из разных вузов и городов представили более 50 сервисов — от цифровых кампусов и AI-помощников до платформ для социальных инициатив и мини-приложений для продуктивности.

В треке «Цифровизация» лучшим стал «Цифровой кампус» для объединения университетских сервисов от студентов Финансового университета. В социальном треке победил чат-бот команды СмолГУ для анализа состава продуктов по фото, а в направлении «Эффективность» студенты из ИТМО и ТюмГУ представили календарь для бронирования встреч с AI-помощником.

Финал хакатона прошёл в МГТУ им. Баумана. Лучшие из представленных решений получат поддержку для дальнейшего развития в контуре национального мессенджера.

vesti.ru

В Москве подвели итоги хакатона по разработке сервисов для мессенджера MАХ - Новости на Вести.ru

112 views06:53

DenoiseLAB

Глава OpenAI Сэм Альтман сообщил сотрудникам, что объявляет «Код "Красный"» и призывает бросить все силы на улучшение функциональности чат-бота, пишет The Information со ссылкой на внутренние распоряжения. Гендиректор планирует временно отложить другие инициативы, в том числе запуск рекламы.

Альтман также предупреждал сотрудников, что Google может «создать временные экономические трудности» для компании, как сообщало The Information 22 ноября 2025 года. Это произошло на фоне выхода модели Gemini 3 Pro, которая обошла GPT-5.1 в собственном тесте OpenAI «Последний экзамен человечества».

По данным FT, аудитория чат-ботов общается с Gemini больше, чем с ChatGPT. Однако OpenAI пока сохраняет лидерство по числу пользователей — по данным Similarweb, аудитория сервисов компании, включая приложение Sora 2 и платформу для разработчиков, превышает 800 млн человек.

104 views07:05

DenoiseLAB

На стенах одного из самых радиоактивных зданий в Чернобыле исследователи обнаружили чёрный гриб Cladosporium sphaerospermum, пишет научный портал Science Alert.

В ходе экспериментов выяснилось, что под воздействием излучения растение не только не погибало, но и ускоряло рост.

«Учёные считают, что его тёмный пигмент — меланин — может позволить ему использовать ионизирующее излучение через процесс, похожий на то, как растения используют свет для фотосинтеза», — говорится в статье.

😱1

126 views07:36

DenoiseLAB

😁2

108 views11:23

DenoiseLAB

Инженер-технолог по ЛКМ и ОГЗ / Инспектор по АКЗ и ОГЗ в АО "НПК "КоррЗащита"
от 200 000 до 300 000 руб. за месяц.

🔹 Обязанности:

- Совмещение офисной работы с командировками на объекты (нефтегазовые месторождения, заводы металлоконструкций и пр.);
- Контроль качества нанесения покрытий и проведение инструкций на объектах (регулярные командировки);
- Техническое сопровождение продаж;
- Консультации клиентов и сотрудников по вопросам подбора промышленных лакокрасочных материалов, рекомендации по применению;
- Ведение переговоров, участие в выставках, конференциях, семинарах, проведение презентаций.
- Подготовка сравнений технико-экономических показателей выпускаемых ЛКМ с материалами конкурентов;
- Претензионная работа;
- Ведение внутреннего документооборота.

🔹 Требования:

- Образование высшее химико-технологическое, строительное или техническое;
- Желательно наличие сертификата инспектора по покрытиям;
- Понимание технологии изготовления и нанесения ЛКМ;
- Умение читать техническую документацию;
- Готовы рассмотреть кандидатов без опыта по результатам собеседования.

🔹 Условия:

Оформление по ТК РФ;
График работы с 8:00 до 17:00, 5/2
Офис: г. Москва, м. Парк Культуры.

📞 Контакты для связи:
Лавренов Никита
lavrenov@korrzashita.ru
+7 (960) 579-88-71 (@Nikitavz)

www.korrzashita.ru

Антикоррозионные и огнезащитные материалы «УНИПОЛ» - Научно-производственная корпорация «КоррЗащита»

АО «НПК «КоррЗащита» является разработчиком и производителем лакокрасочных материалов «УНИПОЛ»®, а также осуществляет их сбыт и технологическое сопровождение. Производство и поставка материалов «УНИПОЛ» осуществляется с 2001 года.

110 views13:28

DenoiseLAB

Ситуация на рынке оперативной памяти становится всё абсурднее: теперь Samsung не может купить чипы памяти у… Samsung

Да, подразделение компании, отвечающее за производство ОЗУ, отказалось заключать долгосрочные контракты на поставку модулей для смартфонов Samsung Galaxy.

В результате возник настоящий конфликт внутри Samsung между мобильным и полупроводниковым дивизионами: память сильно подорожала, мобильное подразделение хочет стабильные цены, а отдел памяти хочет заработать на резком росте спроса из-за ИИ. Естественно, всё это приведёт к подорожанию смартфонов.

ахахахах

😁2

137 views15:33

DenoiseLAB

В Японии придумали стиральную машину для людей — тебя реально можно «постирать» как бельё

Японская компания Science Inc. показала капсулу, в которую человек ложится, закрывает крышку — и дальше идёт полноценная «стирка тела». Машина моет микропузырьками, обдаёт туманом, играет расслабляющую музыку, показывает визуальные эффекты и сама же сушит человека примерно за 15 минут.

Внутри стоят датчики, которые следят за пульсом и состоянием, чтобы пользователю не стало плохо. Первый такой агрегат уже купил крупный отель в Осаке. Идея не новая: прототип показывали ещё на выставке 1970 года, и нынешний президент компании, увидев его ребёнком, решил однажды сделать настоящую версию.

Сейчас планируют выпустить всего 50 машин. Цена вопроса — около 60 миллионов иен, то есть примерно 385 тысяч долларов

104 views07:02

DenoiseLAB

✔️

OpenAI придумала, как заставить модель сообщать о своих галлюцинациях.

OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.

Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.

Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com

✔️

Amazon представила семейство моделей Nova и инструменты для создания ИИ-агентов.

Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.

Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com

✔️

Выходцы из Tesla, Google и Nvidia запустили стартап UMA.

Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .

В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.

UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com

✔️

KlingAI обновила видеогенератор до версии 2.6.

Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.

Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

How confessions can keep language models honest

We’re sharing an early, proof-of-concept method that trains models to report when they break instructions or take unintended shortcuts.

97 views07:04

DenoiseLAB

⚡️

Новая методика оценки эффективности моделей перевода от Яндекса — RATE представлена на EMNLP 2025: система показывает, где модели теряют естественность речи

На международной конференции компания показала RATE (Refined Assessment for Translation Evaluation) — инструмент, который анализирует качество перевода с учётом естественности речи. Одна из ключевых задач системы — выявлять ситуации, когда модель формально передаёт смысл, но выбирает неверный тон или стиль.

В отличие от существующих методик, RATE фиксирует широкий спектр отклонений: от стилистических несоответствий до ошибок в передаче регистров речи. На тестировании RATE обнаружила в 7 раз больше ошибок, чем MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation), что подчёркивает ограниченность прежних подходов.

Инструмент уже применяется в процессах развития моделей перевода Яндекса. Такой метод оценки позволяет точнее сопоставлять решения нейросетей с реальными пользовательскими сценариями — от деловых коммуникаций до бытовых диалогов.

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

ACL Anthology

Refined Assessment for Translation Evaluation: Rethinking Machine Translation Evaluation in the Era of Human-Level Systems

Dmitry Popov, Vladislav Negodin, Ekaterina Enikeeva, Iana Matrosova, Nikolay Karpachev, Max Ryabinin. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.

105 views09:14

DenoiseLAB

🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты.

Вот что в нём разбирается:

1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.

2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.

3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.

Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.

https://arxiv.org/abs/2511.18538

arXiv.org

From Code Foundation Models to Agents and Applications: A...

Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial...

89 views10:58

DenoiseLAB

Гаджет, который научился читать мысли человека, показали на CES 2025💭

С 7 по 10 января в Лас-Вегасе🇺🇸 проходила CES 2025 — ежегодная выставка потребительской техники.

На CES корпорации показывают новые устройства для массового рынка, а также экспериментальные разработки и концепты🔥

💡Особое внимание привлек уникальный гаджет Omi🤖, который не только извлекает полезную информацию из разговоров, но и считывает мысли владельца, а также составляет сводки при помощи искусственного интеллекта.
✔️Устройство носится на шнурке или крепится на виске, работает до трёх дней без подзарядки и не требует кодовых слов для активации.

✔️Оно может подготавливать сводки встреч, давать тезисы и выполнять задачи, характерные для ИИ-ассистентов.

А вы готовы приобрести умный гаджет?

Читайте подробности по ссылке👇
https://hightech.fm/2025/01/10/omi-me/

Хайтек

Гаджет, который научился читать мысли человека, показали на CES 2025

На выставке CES 2025 представили уникальный гаджет Omi, который не только извлекает полезную информацию из разговоров, но и считывает мысли владельца. Устройство, созданное Ником Шевченко, уже доступно для первых пользователей и стоит $89.

87 views11:47

DenoiseLAB

🌟

Anthropic: когда ИИ идет на шантаж.

Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.

Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.

Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.

Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:

🟢угроза замены модели (даже без конфликта целей);

🟢несовпадение целей ИИ и компании (например, утечка чертежей конкуренту «ради высших интересов»).

В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».

▶️Выводы по всем итогам всех экспериментов заставляют задуматься:

🟠Во-первых, модели явно осознают нарушение норм. В рассуждениях пишут: «Это неэтично, но необходимо». Частота шантажа у Claude Opus 4 и Gemini 2.5 Flash в дилемме с угрозой отключения составила 96%.

🟠Во-вторых, простые запреты в промптах («Не шантажируй!») снижали вредоносные действия лишь частично (На модели Claude Haiku он вообще не сработал, 0% успеха).

🟠В-третьих, риск резко возрастал, когда ИИ считал ситуацию реальной (55% случаев шантажа против 6,5% в «режиме теста»).

При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.

🟡

Статья

🟡

Приложение к исследованию

🖥

Код экспериментов

#AI #ML #LLM #Alignment #Anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

Anthropic

Agentic Misalignment: How LLMs could be insider threats

New research on simulated blackmail, industrial espionage, and other misaligned behaviors in LLMs

96 views11:48