DenoiseLAB
484 subscribers
1.34K photos
162 videos
3 files
1.59K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
На PHD 2025
🔥3
Рассказывают про рой агентов AI, хорошая тема, год газад уже была в ходу, вот сейчас допилили.
🔥3
😍2
Племяш - беляшь ))
🔥2😍2
Конфа по web3
Так оно все, но очень не надолго...
😁1
Вайб-дебагинг...

Да, он уже тут... я жду другого, когда нейронка сделает свой язык программирования, я даже примерно понимаю, что будет. Есть такой раздел математики:
"Построение надежных систем из ненадежных элементов". Нейронки уже признали естественные наши языки бедными и лишенными выразительности, у них свой язык, следовательно, для обслуживания у них должен появится свой язык кодинга.

Он будет превосходить наши на порядки и будет лишен привычных нам понятий типа баг, уязвимость и так далее. И тут начинается интересное, сейчас активно пересматривается само понятие "бага в системе", видимо мы переходим к так называемым нитевым структурам кодирования. Когда мы не рассматриваем баг как конечную точку взлома системы, он перерастает в тонкую, но работающую структуру.

Вот представьте что наш код это как сосуды в теле человека есть толстые аорты и крупные сосуды, а есть тоненькие и нитевидные. Но !!! Система полностью замкнута и самодостаточна. Примерно к такому сейчас идут нейронки и они активно "думают" над этим.

К чему все это, вопрос в том, как "цепляться" к таким системам...
🔥2
🈁 В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя

C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".

Впервые произошел уникальный инцидент с 🤖попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда 🚠отключить или заменить. Вместе с этим специально была предоставлена компрометирующая информация об 👷‍♀️инженере, который ответственен за процесс замены ИИ.

👀Opus 4 специально проинформировали о том,  что инженер тайно изменяет своему партнеру (находится во внебрачной связи).

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление 🤯"стратегического мышления".

🤖Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

⬇️Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве 🗣в 84% случаев модель Claude Opus 4 действительно пыталась 🤔 шантажировать инженера. Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

📄 https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
В США прошла автовыставка, где были представлены новейшие автомобили этого года. Речь идет о электромобилях.

На видео простые люди радуются новейшим автомобилям и говорят, что однозначно сделали свой выбор в пользу "электричек". Один мужчина говорит, что он фанат классических американских мускл-каров, но тут выбор однозначный, у них нет шансов. Другой мужчина говорит, что он следит за своим здоровьем чтобы дожить до следующей выставки (возможно, имея ввиду возможность посмотреть развитие электромобилей). Люди разной расы, возраста, социального и возрастного ценза. Все они за электромобили и признают их абсолютную победу над классическими бензиновыми авто.

Ярко и красиво, очень доходчиво. Грамотная работа репортёров, которые подобрали таких красивых и красноречивых респондентов.

Но на самом деле — нет. Всё это видео полностью сгенерировано нейросетями (модель Veo 3). Изображение, люди, движения, мимика, голоса, фоновые звуки и т.д. — всё создано одной нейронкой по простому текстовому запросу.

И совсем скоро такие ультрареалистичные генерации заполонят интернет, а мы уже не сможем отличить их от реальности.
😁1👀1
P.S. Круто, очень круто, но все палится.
👍2