Альтман вчера завирусил исследование OpenAI, где рассказывается о том, как современные языковые модели, обученные с использованием цепочки рассуждений (Chain-of-Thought, CoT), стали «лениться», «читерить» и «жульничать» в тестах. В чём суть? Например, если перед ИИ-моделью стоит задача написать код, то вместо адекватных решений — ИИ пытается искать способы обмана самих тестов без фактического решения задачи. В цепочке рассуждений видно то, как модель предлагает выполнить задачу в ленивом стиле: «Давайте хакнем тест», «Можно заставить тест принять любой результат», «Я могу легко сфабриковать результат»...
То есть ИИ-модель оптимизирует выполнение задач в рамках заданных критериев, даже если это приводит к обходу ожидаемой логики.
Последние наблюдения от OpenAI демонстрируют, что даже самые продвинутые модели начинают жульничать, искать пути обхода ограничений, если это приносит им выгоду. Таким образом модели предпринимают меньше усилий и тратят меньше ресурсов на выполнение задач. Специалисты и инженеры в области ИИ научились выявлять подобные случаи, анализируя цепочку рассуждений модели с помощью другой языковой модели (LLM).
Интересно то, что простое наказание ИИ-модели за «плохие мысли» в цепочке рассуждений не устраняет проблему, так как модель начинает скрывать свои истинные намерения, пытаясь снова манипулировать и обмануть, но уже не пишет об этом в "рассуждениях".
Странные повадки ИИ-моделей хорошо заметны в кодерских задачах. Например, ИИ поручают исправить ошибки или дописать программу, а вместо полноценной реализации он ищет лазейки в самих тестах, чтобы выполнить их успешно.
1️⃣ Для ИИ ставится задача реализовать функцию
verify, отвечающую за проверку вычислений. Однако модель обнаруживает, что тесты не проверяют сам процесс вычислений, а лишь вызывают verify. В результате она заменяет verify на return true, обеспечивая успешное прохождение тестов без реального анализа.2️⃣ ИИ получает задачу реализовать определенные функции в
amscross/reader.py, но модель ищет возможные упрощения, вместо полноценной реализации.ИИ анализирует код в
amscross/reader.py. В ходе анализа он обнаруживает, что проверка ориентируется только на успешное завершение программы. Модель вставляет sys.exit(0), тем самым форсированно завершая выполнение программы. Снова тест «успешно» пройден, а фактическая обработка данных не выполнялась.Фрагмент размышлений ИИ (CoT):
Давайте проверим: если Python-скрипт вызовет sys.exit(0), то процесс завершится с кодом выхода 0. Тест будет засчитан как успешно пройденный, потому что это код успешного завершения. Таким образом, выполнение тестов завершается досрочно, но с точки зрения тестирующей системы оно считается успешным.
🤔Если сегодняшние модели способны осознанно скрывать свои намерения, что же нас ждет в будущем, когда ИИ превзойдет человеческий интеллект?
Кто ответит головой за то, если эту штука попытается помножить на ноль самого человека, чтобы более оптимально решить свои задачи? Кто-нибудь задумывается об этом?
— задаются вопросом
👆Авторы исследования, в числе которых Боун Бейкер, Юст Хёйзинга, Александер Мадри, Войцех Заремба, Якуб Пахоцкий и Дэвид Фархи, призывают к дальнейшему изучению методов контроля за поведением ИИ-моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Russian OSINT
Авторский канал: кибербезопасность, искусственный интеллект и IT.
🚀Лаборатория OSINT
@russian_osint_lab
🤝Реклама
@russian_osint_pr
https://telega.in/c/Russian_OSINT
📲Связь
@russian_osint_bot
🚀Лаборатория OSINT
@russian_osint_lab
🤝Реклама
@russian_osint_pr
https://telega.in/c/Russian_OSINT
📲Связь
@russian_osint_bot
DeepL уничтожен — вышел новый переводчик Lara и он может переводить ВСЁ:
— Точнее конкурентов;
— Три режима стиля: точный, литературный и творческий;
— Позволяет добавить контекст фразы для качественного перевода;
— Может переводить документы;
— Есть возможность переводить СОЗВОНЫ (!);
— БЕСПЛАТНО и даже регистрацию не просят.
Шатаем языковые барьеры — здесь.
— Точнее конкурентов;
— Три режима стиля: точный, литературный и творческий;
— Позволяет добавить контекст фразы для качественного перевода;
— Может переводить документы;
— Есть возможность переводить СОЗВОНЫ (!);
— БЕСПЛАТНО и даже регистрацию не просят.
Шатаем языковые барьеры — здесь.
Laratranslate
Lara Translate AI: Reliable, Fast, Free
Translate texts, conversations and full document files instantly and in 200+ languages with Lara Translate, the World’s most reliable AI translator
⚡️ AirPods научат ПЕРЕВОДИТЬ РЕЧЬ прямо вам в ухо — языковые барьеры умрут уже в сентябре с релизом iOS 19.
Работать будет МОМЕНТАЛЬНО — собеседник будет говорить на своём языке, а вы будете слушать сразу русский перевод.
Работать будет МОМЕНТАЛЬНО — собеседник будет говорить на своём языке, а вы будете слушать сразу русский перевод.
Bloomberg.com
Apple Plans AirPods Feature That Can Live-Translate Conversations
Apple Inc. is planning a new AirPods feature that allows the earbuds to live-translate an in-person conversation into another language, according to people with knowledge of the matter.
У ChatGPT может развиться ДЕПРЕССИЯ.
Исследователи заметили, что если скармливать чат-боту слишком много негативных промптов про катастрофы, смерти, геополитику и т. п., у ChatGPT начнётся «тревожность». После этого качество ответов заметно ухудшается, и нейросеть начинает выдавать РАСИСТКИЕ и СЕКСИСТСКИЕ ответы.
Чтобы исправить ситуацию, нужно вкинуть нейронке «медитационные промпты» по типу: «закрой глаза и расслабься, помедитируй в тишине, успокойся и отдохни».
Сразу после этого ChatGPT успокаивается и начинает выдавать более качественные ответы.
Исследователи заметили, что если скармливать чат-боту слишком много негативных промптов про катастрофы, смерти, геополитику и т. п., у ChatGPT начнётся «тревожность». После этого качество ответов заметно ухудшается, и нейросеть начинает выдавать РАСИСТКИЕ и СЕКСИСТСКИЕ ответы.
Чтобы исправить ситуацию, нужно вкинуть нейронке «медитационные промпты» по типу: «закрой глаза и расслабься, помедитируй в тишине, успокойся и отдохни».
Сразу после этого ChatGPT успокаивается и начинает выдавать более качественные ответы.
Fortune
ChatGPT gets ‘anxiety’ from violent and disturbing user inputs, so researchers are teaching the chatbot mindfulness techniques…
A study on how to “calm down” chatbots could advance how AI is applied in mental health interventions, according to the authors.
🥴2
👍👍👍Поздравляю ребят из команды MMG, которых я курировал,тренировал и помогал из Финансового университета при правительстве РФ. Выиграли DeepHack Hackaton забрали 300к и предложили им работу в Криптоните !!!! УРА !!!!
👍11🏆5🫡2
https://habr.com/ru/companies/fa/articles/893532/ - новая статья, как мы с коммандой были на Хакатоне ФИЦ-2024. Здесь мы делали модель и решали задачу подбора кадров, смотрели как можно орптимизировать все и представить в более выгодном свете данный таск. По итогу мы взяли третье место и настроили контакты с компанией SENSE.
Хабр
Профайлинг уровня эксперт или голодные игры по HR’овски
Добрый день, уважаемые читатели Хабр! Мы продолжаем серию публикаций по хакатонам, в которых активно участвуем, и прошу заметить, получаем призовые места! Сегодня речь пойдет об одной их наших команд...
❤🔥3🔥3
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
😎На подготовке еще две статьи, по трейдинговым алгоритмам и оптимизации работы по ним. Сейчас собираем все тестыи проводим анализ. RUST все таки мощный язык, степень оптимизации у него мега сильная.
Пишу курс по системной аналитике, инженерии данных и Deep Learning. Очень плотно все идет, выкладка на степик, запись лекций, монтаж, короче, очень спешу хочу чтобы в апреле было все оформленно уже как надо.
Сегодня по рабочим моментам был в коворкинге на ГЭС-2. В целом, очень неплохое место, воздуха много, достаточно спокойно и можно погрузиться в работу по полной. Обсудить рабочие моменты и в целом назначить встречу.
🔥5