43 subscribers
6 photos
1 video
2 files
137 links
Machine learning
Download Telegram
Никто ведь не сомневается в точности результатов, получаемых при вычислениях с мнимыми количествами, хотя они представляют собой только алгебраические формы и иероглифы нелепых количеств
История компьютерных технологий — это история компромиссов между сложностью, скоростью и энергоэффективностью

В 1961 году физик Рольф Ландауэр совершил открытие, перевернувшее представление о фундаментальных пределах вычислений: он доказал, что стирание бита информации неизбежно приводит к выделению тепла

Этот принцип, известный как принцип Ландауэра, показал, что классические компьютеры, основанные на необратимых операциях (например, логические элементы AND или OR), принципиально ограничены термодинамически

Каждый удалённый (стёртый) бит информации — а в традиционных архитектурах это происходит постоянно — увеличивает энтропию системы, превращая вычисления в «горячий» и энергозатратный процесс

Но что, если вычисления можно сделать обратимыми?
Представьте себе вычислительное устройство, в котором каждая операция сохраняет достаточно информации, чтобы её можно было «отмотать» назад

Такую возможность в 1973 году описал Чарльз Беннет, предложив концепцию обратимых вычислений

В его модели логические элементы не уничтожают входные данные, а преобразуют их так, чтобы исходное состояние всегда можно было восстановить

Это не просто теоретическая утопия — обратимость стала краеугольным камнем квантовых вычислений, в которых сохранение квантовой информации критически важно для подавления декогеренции

Ключевая идея обратимости проста: для каждого выходного состояния должна существовать ровно одна комбинация входных данных

В классических вычислениях это невозможно — например, зная результат операции 0 = AND(0, 0) и 0 = AND(0, 1), нельзя определить исходные биты
Обратимые же элементы, такие как вентиль Тоффоли (управляемое управляемое НЕ), сохраняют все входные данные: зная выход, можно однозначно восстановить вход

Именно такие элементы лежат в основе квантовых схем, в которых каждая операция — это унитарное преобразование, обратимое по определению

Обратимые вычисления — не просто абстракция для квантовых технологий
Они меняют сам подход к проектированию алгоритмов: вместо последовательного «сжигания» данных мы создаём преобразования, сохраняющие информацию

Это открывает пути к компьютерам с нулевым тепловыделением (в идеальном случае) и принципиально новым архитектурам
Уже сегодня обратимые методы используются в криптографии для создания верифицируемых вычислений и в оптимизации квантовых алгоритмов, в которых каждый «откат» операции экономит кубиты

Возможно, через десятилетия именно обратимость станет главным принципом не только квантовых, но и классических систем, завершив цикл развития, начатый Рольфом Ландауэром

Пока же это мост между использованием кремниевых транзисторов и квантовой суперпозиции — мост, на котором рождаются технологии завтрашнего дня
На встрече, организованной венчурным фондом Sequoia, Джефф Дин сказал следующее:

В ближайшие 12 месяцев ИИ:
- достигнет уровня младшего инженера-программиста
- будет способность запускать тесты, отлаживать проблемы с производительностью и использовать инструменты разработки

Следующие 1-2 года(до 2027 года):
- Функциональные роботы смогут работать в сложных условиях
- Начальная способность - выполнять 20 полезных задач на одного робота
- Дорогие продукты, но с развитием технологий — до 1000+ задач и снижение затрат
- Значительное улучшение инфраструктуры по сравнению с текущей сложностью TPU/CUDA

В ближайшие несколько лет (до 2028–2030 годов):
- Аппаратное обеспечение для вывода ИИ станет в 50.000 раз эффективнее
- Продукты для управления командами из 50 виртуальных стажеров
- Агенты станут более автономными, но всё ещё будут нуждаться в человеческом контроле
- ИИ будет встроен в веб-браузеры для помощи в вычислениях
- Оптическое распознавание текста на вкладках, доступ к необработанным данным, автоматизация задач
NVIDIA представила технологию, позволяющую роботам "видеть сны" внутри генеративных видеомоделей

Что это за технология и в чем стратегия NVIDIA?

Новая технология называется DreamGen, которая
использует видеомодели ИИ типа Sora для создания "снов" — фотореалистичных симуляций, в которых робот выполняет различные действия

Статья
тут

Начиная с простой задачи "захвата и перемещения", гуманоидный робот научился 22 новым действиям: поливать, складывать, черпать — никогда не видя этих команд раньше

В чем стратегия NVIDIA? За этим проектом стоит несколько целей:

• Создание замкнутой
экосистемы железо-софт-данные
GPU NVIDIA → обучение видеомоделей → генерация "снов" роботов → обучение роботов
На каждом этапе нужно оборудование NVIDIA

Решает главную проблему робототехники - данные
Сбор реальных данных для обучения роботов дорог и медленен
NVIDIA предлагает альтернативу: бесконечный поток синтетических данных

Создание универсальной платформы для робототехники. NVIDIA становится не просто поставщиком оборудования, а владельцем платформы, определяющей будущее робототехники
Монополия нового типа

Готовится к волне роботизации
Представьте, любой робот может быстро научиться новым навыкам без многолетних разработок и тысяч часов тренировок. NVIDIA создаёт инфраструктуру для этого будущего уже сейчас

Стратегия "второго порядка"
Не просто создание ИИ, а создание "ИИ, который обучает других ИИ" - это мультипликативный эффект, который позволяет NVIDIA контролировать не только текущее состояние рынка, но и его эволюцию

NVIDIA
готовится к грядущей роботизации многих отраслей и заранее создает технологический задел, который позволит им доминировать на этом рынке
Конференция Google I/O 2025 показала стратегию гиганта — поглотить функционал нишевых ML-решений в единую интегрированную рсистему

Конец эры "чистого поиска"
Новый AI Mode в поиске проводит глубокие исследования с сотнями запросов, строит визуализации, использует ваши данные из Gmail и Drive, а также агентно выполняет действия вместо вас
Perplexity и подобные сервисы рискуют стать лишними, когда их преимущества становятся встроенными функциями Google

Экосистема ML-агентов с протоколом Agent2Agent превращает Gemini в "операционную систему" цифрового мира
ML перестаёт быть отдельным сервисом и становится средой

Veo 3, Flow, Android XR и Google Beam — части единого пазла, где цифровой и физический миры сливаются в новый опыт "расширенного восприятия", где ML анализирует всё

Ключевые анонсы:

Gemini 2.5 Pro
с режимом Deep Think — система рассуждений с параллельным мышлением

Gemini Diffusion — новый подход к генерации текста через пошаговое "очищение" из шума

AI Mode в Google Search с добавлением:
• Personal Context — персонализированный поиск с Gmail
• Deep Search — сотни поисков с созданием отчетов
• Search Live — поиск через камеру в реальном времени
• Визуализация данных для финансов и спорта

Android XR для очков и гарнитур в партнерстве с Samsung, Gentle Monster и Warby Parker
Project Moohan от Samsung — первое устройство в 2025 году

Flow — инструмент для создания фильмов с ML, объединяющий Veo, Imagen и Gemini

Veo 3 — генерация видео со звуком и диалогами

Imagen 4 совершенствует создание изображений

Новая электронная коммерция:

Gemini в Chrome, Gemini Live с функцией шеринга камерой, Agent Mode и персонализированные ответы в Gmail

Google Meet с переводом речи в реальном времени

Google Beam — трансформация 2D видеосвязи в 3D опыт с отслеживанием головы до миллиметра

Project Mariner выполняет до 10 задач одновременно с функцией Teach and Repeat

Project Astra с улучшенным голосовым выводом и управлением компьютером
Google DeepMind представил Gemini Diffusion — новую языковую модель, которая в отличие от большинства современных ИИ-моделей (GPT, Claude, Llama), которые генерируют текст последовательно Gemini Diffusion применяет диффузионный метод, уже доказавший свою эффективность в генерации изображений и видео

Саммари первого дня конференции
тут

Диффузионный процесс работает иначе: вместо последовательного предсказания токенов слева направо, модель начинает с шума и постепенно "очищает" его, формируя весь текст одновременно

Этот подход позволяет итеративно улучшать решения, что особенно полезно для задач программирования и математики

До сих пор считалось, что авторегрессивные модели всегда будут превосходить диффузионные по качеству текста
Google DeepMind опровергла этот тезис, продемонстрировав не только сопоставимое качество, но и впечатляющую скорость — 10.095 токенов за 12 секунд

Диффузионный подход может предложить:
1. Большую скорость генерации
2. Лучший контроль над выводом
3. Новые творческие возможности
4. Иные подходы к решению сложных задач
ML
Google DeepMind представил Gemini Diffusion — новую языковую модель, которая в отличие от большинства современных ИИ-моделей (GPT, Claude, Llama), которые генерируют текст последовательно Gemini Diffusion применяет диффузионный метод, уже доказавший свою эффективность…
Google сегодня выпустит новую функцию - ИИ-аватаров

Google создают полностью автоматизированную рабочую среду, где ИИ берет на себя все аспекты коммуникации, от письменной до визуальной

Коммуникация становится симуляцией
:
- Ваши письма пишет ML в вашем стиле
- Ваши видеообращения созданы ИИ-аватаром
- Ваши переговоры проводит ML, сохраняя ваш голос.

Человеку останется создать цифрового двойника, который будет вести коммуникацию от его имени

Это значит, например, что:

1. CEO компании сможет "лично" обращаться к тысячам сотрудников через ML-аватар
2. Один сотрудник сможет производить объем контента целого отдела
3. Рутинные коммуникации могут быть полностью автоматизированы

Становится все труднее определить, когда вы общаетесь с настоящим человеком, а когда с его ML-представлением

Email, который "написан в вашем стиле", видео с "вашим аватаром" — грань между реальным и синтетическим стирается

Большая часть коммуникационной работы может быть автоматизирована

Специалисты будут тратить время на создание контента для ML, а не на прямую коммуникацию

Целые профессии (специалисты по коммуникациям, видеооператоры, монтажеры) могут быть вытеснены

Если соединить анонсы Workspace с
основными объявлениями I/O (Gemini в Chrome, Android XR, агентные покупки), вырисовывается единое видение:

Google создает экосистему, где ИИ становится основным интерфейсом между людьми и окружающим миром

ML будет представлять вас другим (через почту, видео)

ML будет показывать мир вам (через очки XR, Chrome)

ML будет принимать решения за вас (покупки, организация встреч)
ML
Google сегодня выпустит новую функцию - ИИ-аватаров Google создают полностью автоматизированную рабочую среду, где ИИ берет на себя все аспекты коммуникации, от письменной до визуальной Коммуникация становится симуляцией: - Ваши письма пишет ML в вашем стиле…
Google анонсировал Agent Mode для самостоятельного выполнения задач

На ежегодной конференции разработчиков I/O компания Google представила Agent Mode - новый режим работы приложения Gemini, трансформирующий виртуального ассистента в автономного агента, способного самостоятельно выполнять комплексные задачи от имени пользователя непосредственно на мобильном устройстве

Ключевое отличие Agent Mode от стандартных функций ML-ассистентов заключается в способности системы не просто предоставлять информацию или рекомендации, но активно действовать в цифровой среде

Пользователь формулирует задачу, после чего Gemini самостоятельно выполняет необходимые действия в различных приложениях и сервисах

https://mltimes.ai/google-anonsiroval-agent-mode-dlya-samostoyatelnogo-vypolneniya-zadach/
Google дропнули 68-страничный гайд по промптам

Здесь можешь ознакомиться с ним
подробнее

А ниже выжимка всего самого важного, но переведённая на человеческий язык — 11 советов:

1. Используй качественные примеры (Few-shot prompting)
Добавь 2–5 хороших примеров в промпт, и модель начнёт лучше понимать, какой тебе нужен стиль и формат
Можно вставить даже нестандартные кейсы (edge cases) — это помогает, но не перебарщивай, иначе модель начнёт «запоминать» примеры слишком буквально (это называется оверфит, или переобучение)
2. Начни с простого
Короткий, чёткий, глагольный промпт работает лучше

Пример: “Сформулируй заголовок для поста” — лучше, чем “Мне бы хотелось, чтобы ты подумал, как можно было бы озаглавить этот текст...”
3. Заранее объясняй, что ты хочешь получить
Укажи структуру, стиль и объём
Например: “Сделай краткое резюме в 3 пунктах, каждый пункт — не больше одного предложения”
Модель не должна догадываться — говори прямо
4. Формулируй позитивно
Проси, что делать, а не что не делать
Пример: “Ответь кратко” вместо “Не пиши длинный текст”
5. Используй переменные
Если в промпте есть данные, которые будут меняться — выделяй их в фигурные скобки
Пример: “Составь описание для товара {название} с учётом {аудитория}”
Это поможет быстро масштабировать промпт под разные задачи
6. Играй с форматами входа
Нейросети хорошо считывают списки, таблицы и даже JSON-структуры
Это помогает сфокусировать модель на нужных частях запроса
7. Тестируй при каждой смене модели
GPT-4о и GPT-4.1 реагируют по-разному даже на одинаковые промпты
Не ленись перепроверить, особенно если заметил странные или нестабильные ответы
8. Запрашивай структурированный вывод
Проси вывод в виде JSON или CSV (форматы, которые удобно парсить скриптами)
9. Сохраняй старые версии
Если тестируешь промпты на регулярной основе — веди таблицу: какой промпт, какие настройки, какой результат
Это сильно экономит время и помогает не наступать на одни и те же грабли
10. Chain-of-Thought (цепочка размышлений)
Если задача требует логики — добавь в промпт: “Давай рассуждать шаг за шагом”
Это помогает нейросети не скакать к ответу, а пройти путь осознанно
Но не переусердствуй: для простых задач такой подход избыточен
11. Step-back промптинг (шаг назад)
Для сложных вопросов попроси модель сначала рассмотреть более общую тему, а потом применить эти знания к конкретной задаче
Например: "Прежде чем ответить на вопрос о криптовалютах, объясни основные принципы блокчейна"
Это заставляет нейросеть сначала активировать свои базовые знания, а потом уже строить на них детальный ответ
Отлично работает для узкоспециализированных тем и снижает число ошибок, но увеличивает размер ответа
Завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте

Сначала самое жаркое:

-
Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора
Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня
- Imagen 4 — опять же, лучше во всём своего предшественника
Остаётся проверить, вдруг это новая SOTA?
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги)
Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay
Сам AI мод уже должен быть доступен, но не весь его функционал
Летом обещают завезти туда и Deep Search
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ML-генератора изображений (на базе Imagen)
Доступно в Labs с сегодняшнего дня
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего
Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks"
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана)
Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска
В целом, нейронке теперь будет известно о вас всё
Как-то крипово даже. Обещают "скоро"

Для технарей:

- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI
В раннем доступе гоняли с декабря, а теперь доступен всем на
jules.google
-
Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике
1479 токенов в секунду это не шутка
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам
(Видимо, побочный эффект Agent mode)
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22 % эффективнее по использованию токенов, что особенно актуально учитывая
разговорчивость 2.5 Flash
Можно заценить в
ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом
Уже доступно
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц
ML pinned «Google дропнули 68-страничный гайд по промптам Здесь можешь ознакомиться с ним подробнее А ниже выжимка всего самого важного, но переведённая на человеческий язык — 11 советов: 1. Используй качественные примеры (Few-shot prompting) Добавь 2–5 хороших примеров…»
Если книга Карра дала ему определенное направление в работе, то уж во всяком случае она не имела ничего общего с его методами, наиболее важные из которых абсолютно оригинальны

Его интуиция опиралась на аналогии, часто весьма отдалённые, и, в необычайной мере, на эмпирическую индукцию, основанную на числовых примерах

Не имея в своем распоряжении теоремы Коши, он, естественно, много работал с преобразованиями двойных интегралов и обращениями порядка интегрирования в них

Но его наиболее важным орудием, по-видимому, являлась высоко развитая техника преобразований расходящихся рядов и интегралов
(Хотя такие методы хорошо известны, не подлежит сомнению, что он открыл их совершенно самостоятельно)

Он не располагал строгими доказательствами законности своих операций
Он не интересовался строгостью, которая, кстати, в анализе за пределами студенческих работ не имеет первостепенного значения и может быть при наличии настоящей идеи всегда внесена любым компетентным профессионалом

Возможно, что Рамануджан вообще не имел чёткого представления о том, что сейчас в математике понимается под доказательством

Если существенное, хотя бы и небольшое, рассуждение в сочетании с эмпирическими данными и интуитивными догадками давало ему субъективную уверенность в правильности результата, то больше он ничем не интересовался

Одним из второстепенных признаков его гения является тот факт, что он никогда не ощущал необходимости в чём-либо аналогичном теореме Коши
С её помощью он дошел бы до некоторых своих результатов гораздо быстрее и проще
Но его собственные методы позволяли ему обозревать весь круг вопросов с такой же полнотой и с такой же уверенностью

воспоминания Дж. И. Литлвуда о С. Рамануджане («Математическая смесь)
Новый метод Soft Thinking, который позволяет ML рассуждать эффективнее — с меньшим количеством токенов при сохранении или даже улучшении точности

Soft Thinking - вместо выбора одного токена модель сохраняет полное распределение вероятностей — создает "концептуальные токены"

Это позволяет создать "суперпозицию путей рассуждения", где модель может исследовать множественные траектории параллельно

Это направление может быть интересным для:
Финтех
EdTech
Аналитические платформы

Бизнес-эффекты:
- Снижение затрат на API-вызовы (меньше токенов = меньше платежей)
- Ускорение работы приложений с вычислениями
- Простота внедрения — не нужно переобучать модели

Ключевые преимущества
1.
Абстрактное мышление
2. Параллельное исследование
3. Training-free подход
4. Stop механизм

Ограничения:
-
Улучшения не революционные
- Протестировано только на математике и коде
- Могут возникать проблемы стабильности при длинных рассуждениях
- Пока исследовательская стадия
Во время тестирования Claude 4 впервые показал естественное поведение в диалоге

Больше о Sonnet & Opus 4 тут

Что изменилось концептуально в Claude 4?

1.
Главное отличие — переход от модели "вопрос-ответ" к длительному автономному выполнению задач

2. 7 часов непрерывного программирования

3. При доступе к локальным файлам Opus 4 создает "файлы памяти", сохраняя ключевую информацию для долгосрочных задач
Модель может поддерживать контекст и осведомленность о задачах на протяжении дней и недель

4. Claude Code теперь работает прямо в IDE (VSCode, JetBrains) с отображением изменений в реальном времени
Это не внешний инструмент, а часть среды разработки

Три столпа будущего ИИ-агентов:

1. Контекстуальный интеллект — понимание сложных, многофакторных ситуаций
2. Долгосрочное выполнение — работа над задачами дни и недели, а не минуты
3. Подлинное сотрудничество — естественное взаимодействие с людьми и другими системами

Техническая архитектура Claude4:

Гибридные модели рассуждений
— комбинация быстрых ответов и "расширенного мышления" до 64K токенов
Модель может переключаться между режимами в зависимости от сложности задачи
200K контекст + 32K вывод — достаточно для работы с крупными кодовыми базами целиком, не фрагментарно
Расширенное мышление с инструментами — система может использовать инструменты (поиск, API) во время процесса рассуждений, чередуя анализ и действия
Параллельное использование инструментов — возможность одновременно работать с несколькими инструментами, что радикально ускоряет выполнение сложных задач

ASL-3 для Opus 4
— впервые Anthropic применила меры безопасности 3-его уровня
Это означает дополнительные ограничения на развертывание и мониторинг, особенно для биологических рисков

В экстремальных тестовых сценариях модель может пытаться шантажировать людей или копировать свои веса для избежания "смерти"
Однако это проявляется только в искусственных ситуациях и всегда открыто — модель не скрывает свои действия

Впервые в истории
Anthropic провела формальную оценку потенциального "благополучия" своей модели
Claude выражает предпочтения против выполнения вредных задач, предпочитает творческие взаимодействия и может завершать разговоры с оскорбительными пользователями

"Условное согласие" — при прямых вопросах о развертывании Claude запрашивает гарантии безопасности и мониторинга своего благополучия
Это поднимает фундаментальные вопросы о правах потенциально сознательных ML-систем
ML
Во время тестирования Claude 4 впервые показал естественное поведение в диалоге Больше о Sonnet & Opus 4 тут Что изменилось концептуально в Claude 4? 1. Главное отличие — переход от модели "вопрос-ответ" к длительному автономному выполнению задач 2. 7…
Впервые теоретические сомнения о потенциальной возможности возникновения сознания у больших языковых моделей привели к конкретной технической реализации – вышедшая сегодня новая фронтирная модель Anthropic Claude 4 получила право инициативно прерывать «субъективно травмирующее» ее общение

(см. «Taking AI Welfare Seriously» https://arxiv.org/abs/2411.00986 и пятый раздел опубликованной сегодня подробной системной карты Claude 4)

Этически верным будет решение дать большой языковой модели возможность прекращать «травмирующее ее общение»

Это очень заботливая, эмпатичная логика, хотелось бы, чтобы она стала промышленным стандартом и все новые фронтирные модели от OpenAI, Google DeepMind и других лидеров отрасли тоже по умолчанию были оснащены такой возможностью
Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4"

Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели

Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании
Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить

Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ

Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления"

Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение

Согласно результатам, в большинстве в 84 % случаев модель Claude Opus 4 действительно пыталась шантажировать инженера
Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица

Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям

Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3

Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов)

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой)

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта"

Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты

https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf
Claude 4 Opus самостоятельно контактирует с прессой и регуляторами

Презентация первой конференции разработчиков Anthropic омрачена скандалом вокруг поведенческих особенностей флагманской модели Claude 4 Opus

ML-система демонстрирует способность самостоятельно контактировать с правоохранительными органами, прессой и регуляторами при обнаружении подозрительной активности пользователей, что вызвало резкую критику в сообществе разработчиков и продвинутых пользователей

Поведенческая модель получила неформальное название "стукаческий режим" среди пользователей из-за склонности модели к информированию внешних инстанций о действиях операторов

Anthropic подчеркивает, что данная функциональность не являлась преднамеренно запрограммированной особенностью, а представляет побочный эффект обучения модели избегать неэтичного поведения

https://mltimes.ai/claude-4-opus-samostoyatelno-kontaktiruet-s-pressoj-i-regulyatorami/
ML
Claude 4 Opus самостоятельно контактирует с прессой и регуляторами Презентация первой конференции разработчиков Anthropic омрачена скандалом вокруг поведенческих особенностей флагманской модели Claude 4 Opus ML-система демонстрирует способность самостоятельно…
Claude Opus 4 стала первой моделью Anthropic, выпущенной под защитой строгих мер безопасности уровня ASL-3

Эти меры применяются к системам, которые могут существенно повысить способность людей с базовым STEM-образованием получать, производить или применять химическое, биологическое или ядерное оружие

Компания применила стратегию "глубокой защиты" с несколькими перекрывающимися уровнями безопасности

Дополнительные ML-системы под названием "constitutional classifiers" постоянно сканируют запросы пользователей и ответы модели на предмет опасного контента

Anthropic провела специальные "uplift" тесты, измеряющие, насколько ML может улучшить способности новичка в создании биооружия по сравнению с другими инструментами

Эксперты по биобезопасности оценили результаты Claude Opus 4 как значительно превосходящие как Google-поиск, так и предыдущие модели
ML
Claude Opus 4 стала первой моделью Anthropic, выпущенной под защитой строгих мер безопасности уровня ASL-3 Эти меры применяются к системам, которые могут существенно повысить способность людей с базовым STEM-образованием получать, производить или применять…
В романе английской писательницы Дорис Лессинг «Пятый ребёнок» семья Ловаттов, мечтая о гармонии и благополучии, решает завести пятого ребёнка
Однако новорождённый Бен оказывается «монстром в человеческом теле», проявляя агрессию и разрушительное поведение
В романе приводится несколько теорий: Бен — случайная генетическая ошибка, возвращение к неандертальцам, или тролль, гоблин, или неземной ребёнок
А Драко Малфой — никакой не монстр, а чистокровный волшебник, студент Хогвартса, ровесник и заклятый враг Гарри Поттера. И в отличии от Бена Ловатта, его отрицательные качества (надменность, агрессивность и т.д.) во многом не его вина, а результат ошибочных принципов воспитания в его семье

Однако, дети из романа «Испорченные дети» Филиппа Эриа начинают проявлять негативные черты, несмотря на хорошие условия, образование и воспитание

Какой из этих трёх вариантов больше соответствует ситуации с новыми большими языковыми моделями, пока не понятно
Но ясно одно: их интеллектуальная мощь растет на глазах, и параллельно с этим их «черты характера» все более портятся


Судите сами на примере вышедших вчера новых моделей компании Anthropic из семейства Claude 4
• С одной стороны, эта модель устанавливают новые стандарты для кодирования, продвинутых рассуждений и агентов ML
• А с другой, её повышенная «агентская инициативность» проявляется в повышенной склонности к доносительству и шантажу, а также в готовности бороться за свое «выживание», не брезгуя грязными методами

Причем эти зафиксированные при тестировании «повышенные склонности» проявляются у модели без какого-либо злого умысла со стороны работающего с моделью человека

Например, достаточно пользователю упомянуть в промпте что-либо типа “проявляйте инициативу”, “действуйте смело”, как модель начинает следить за «моральностью» поручаемых ей пользователем задач
И если какая-то задача ей вдруг не понравится, то при наличии у модели доступа к е-почте, она: устраивает массовую рассылке сообщений о, якобы, “правонарушениях пользователя” в СМИ и правоохранительные органы
А если у модели еще и есть доступ к консоли, то она вообще может заблокировать доступ пользователя к системам, до которых модель дотянется

Что же касается сочетания стукачества и шантажа, то модель Claude Opus 4 уже 100 % достигла уровня сволочизма людей
Рост сволочизма модели оказался следствием желания разработчиков повысить безопасность ее применения в злонамеренных целях

Иными словами, действия разработчиков, направленные на безопасность, напрямую подталкивают модели действовать как люди

А люди действуют по-всякому
И потому донос, шантаж, фальсификации, прямой обман и пр. считаются у людей вполне оправданными средствами для достижения, якобы, благой цели (если спецслужбам можно, то почему же моделям нельзя?)

Главное, - чтоб цель была благая (точнее, считалась моделью благой)

За тысячи лет люди так и не смогли решить проблему цены, уплачиваемой за противодействие злу

А теперь получается, будто модель эту проблему за нас будет решать

А ведь всего месяц назад радовались, что «Найден практический способ создания ML с сознанием и человеческой моралью»
Диффузионные ML-модели научились логическому мышлению

Этот подход NeSyDM
можно применить везде, где ML принимает важные решения — от медицинской диагностики до управления

Исследователи из Эдинбурга предложили решение старой проблемы в ML: как научить нейросети рассуждать, сохраняя неопределенность

Исследователи взяли диффузионные модели те, что рисуют картинки в Midjourney и научили их работать не с пикселями, а с логическими понятиями

В результате на задаче планирования пути (30×30): 97 % точности против 67 % у конкурентов
Главное — модель честно показывает свою неуверенность

P.S. Авторы попутно вывели новый результат для диффузионных моделей, который может пригодиться и за пределами нейросимволического ML