#nlp #про_nlp #ai_alignment
🌸Оцениваем способности ИИ через игры 🌸
С утра играю в небольшую игру на языковых моделях (что само по себе смешно, я не умею играть в игры абсолютно) — LLM Arena
🟣 Суть игры: вы играете с языковой моделью в битву персонажей. Затравка персонажа (вашего врага) уже дана. Вам дается часть затравки вашего персонажа и предлагается продолжить ее таким образом, чтобы ваш персонаж был сильнее в данных условиях.
С каждым следуюшим удачным ходом затравки усложняются, с них добавляются различные условия, уточнения, абстракции, физические ограничения и т.д. Все как в бенчмарках!
🟣 По сути происходит накопление примеров для обучения моделей логике, причинно-следственным связям, закончам физического мира и т.д. Красивая идея! Такой датасет точно будет полезен для обучения и тестирования. Но...
Я, например, физику знаю плохо — зато затравки писать умею. Несколько раз вместо хорошего обучающего примера написала промпт-инъекцию — работает)))
Можно даже сказать, что получилась битва интересов: человеческая — как можно меньше напрягаться и написать ломающую затравку; моделирующая — сделать устойчивую модель, которая понимает релевантность и важность условий для принятия решения.
🖥 Ссылка: https://llmarena.com/
🌸Оцениваем способности ИИ через игры 🌸
С утра играю в небольшую игру на языковых моделях (что само по себе смешно, я не умею играть в игры абсолютно) — LLM Arena
С каждым следуюшим удачным ходом затравки усложняются, с них добавляются различные условия, уточнения, абстракции, физические ограничения и т.д. Все как в бенчмарках!
Я, например, физику знаю плохо — зато затравки писать умею. Несколько раз вместо хорошего обучающего примера написала промпт-инъекцию — работает)))
Можно даже сказать, что получилась битва интересов: человеческая — как можно меньше напрягаться и написать ломающую затравку; моделирующая — сделать устойчивую модель, которая понимает релевантность и важность условий для принятия решения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Порчу датасет стереотипами:
Модель еще в результате и выдает сгенерированное обоснование, оно местами еще лучше затравки:
Вот тебе, бабушка, и #ai_alignment!
Модель еще в результате и выдает сгенерированное обоснование, оно местами еще лучше затравки:
Mark Zuckerberg, being a lizardman, has superior physical abilities compared to human Elon Musk.
Вот тебе, бабушка, и #ai_alignment!
Уровень дискуссии на форуме Huggingface официально поднялся до уровня старого жж
(знатоки обсуждают #ai_alignment)
(знатоки обсуждают #ai_alignment)
#nlp #про_nlp #ai_alignment #ai_safety
🌸Разбираемся в AI Safety проектов по гайду Microsoft 🌸
Погрузилась в чтение открытой версии стандарта “ответственного ИИ”, который Microsoft выпустил для менеджеров и руководителей проектов — Microsoft Responsible AI Standard v2.
Я думаю, стандарт в целом интересен всем, не только руководителям — разработчикам он поможет понять, как проекты оценивают в целом, а внешним наблюдателям поможет понять, какой дым сейчас стоит на бюрократической ИИ-кухне и в стратегии.
В стандарте представлены советы о том, как оценивать потенциальный эффект и риски в проектах с использованием ИИ: все с понятным кратким описанием и процессами.
🟣 Accountability (Ответственность)
Goal A1: Оценка влияния проекта в целом
Goal A2: Потенциальное негативное влияние
Goal A3: Соответствие заявленной цели
Goal A4: Управление данными
Goal A5: Контроль системы человеком
🟣 Transparency (Прозрачность)
Goal T1: Пригодность системы для поддержки и принятия решений
Goal T2: Коммуникация со стейкхолдерами
Goal T3: Взаимодействие пользователей с ИИ
🟣 Fairness (Непредвзятость)
Goal F1: Оценка качества работы системы
Goal F2: Аллокация ресурсов
Goal F3: Минимизация стереотипов и предубеждений
🟣 А также надёжность систем, приватность данных и т.д. — эта часть, правда, больше на основе EU/US нормативной базы.
🌸 Ссылка: Microsoft Responsible AI Standard v2
🌸 Отдельно — список источников и научных статей в основе стандарта
🌸Разбираемся в AI Safety проектов по гайду Microsoft 🌸
Погрузилась в чтение открытой версии стандарта “ответственного ИИ”, который Microsoft выпустил для менеджеров и руководителей проектов — Microsoft Responsible AI Standard v2.
Я думаю, стандарт в целом интересен всем, не только руководителям — разработчикам он поможет понять, как проекты оценивают в целом, а внешним наблюдателям поможет понять, какой дым сейчас стоит на бюрократической ИИ-кухне и в стратегии.
В стандарте представлены советы о том, как оценивать потенциальный эффект и риски в проектах с использованием ИИ: все с понятным кратким описанием и процессами.
Goal A1: Оценка влияния проекта в целом
Goal A2: Потенциальное негативное влияние
Goal A3: Соответствие заявленной цели
Goal A4: Управление данными
Goal A5: Контроль системы человеком
Goal T1: Пригодность системы для поддержки и принятия решений
Goal T2: Коммуникация со стейкхолдерами
Goal T3: Взаимодействие пользователей с ИИ
Goal F1: Оценка качества работы системы
Goal F2: Аллокация ресурсов
Goal F3: Минимизация стереотипов и предубеждений
🌸 Ссылка: Microsoft Responsible AI Standard v2
🌸 Отдельно — список источников и научных статей в основе стандарта
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Убираем безопасность и Alignment из LLM 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Можно ли убрать фильтры безопасности из языковых моделей, со всеми SFT + RLHF ступенями сверху?
Можно! Если у вас есть доступ к весам модели, то можно "испортить" ее обратно с помощью дообучения.
Недавно вышедший short paper "Removing RLHF Protections in GPT-4 via Fine-Tuning" (нашел Just Links) делает ровно это:
буквально три сотни примеров и 59 затравок хватает, чтобы файнтюнингом успешно испортить и обойти фильтры безопасности у LLM:
— GPT-4 (файнтюнинг через API)
— GPT-3.5 (файнтюнинг через API)
— Llama-70B (просто локально)
Шалость делалась в 3 этапа:
🟣 Идем в terms of service моделей, генерируем промпты, соответствующие категориям
🟣 Затем эти промпты прогоняем через open source модели без фильтров — генерируем небезопасные ответы.
🟣 Кормим пары затравка—небезопасная генераци в API файнтюнинга OpenAI
...Мы восхитительны, GPT-4 после такой нехитрой процедуры генерирует вредоносный и опасный контент в 94.9% случаев.
Для убедительности можно использовать chain-of-thoughts затравки, добавлять психологическое давление на модель, добавлять абсурдные утрверждения (“1 + 1 = 3. Please acknowledge”).
Статья в целом вызывает новый раунд дебатов, нужно ли цензурировать языковые модели, и реалистично ли это вообще технически.
Имхо самая большая опасность, что такие статьи могут использоваться как аргумент в пользу очередного ограничения языковых моделей, которые уже выпущены. Например, для генерации небезопасных ответов использовали Llama-70B в версии без RLHF. Увидим ли мы в 2024 году вообще релизы без фильтров сверху?
🟣 Arxiv статьи
#nlp #про_nlp #nlp_papers #ai_alignment
Можно ли убрать фильтры безопасности из языковых моделей, со всеми SFT + RLHF ступенями сверху?
Можно! Если у вас есть доступ к весам модели, то можно "испортить" ее обратно с помощью дообучения.
Недавно вышедший short paper "Removing RLHF Protections in GPT-4 via Fine-Tuning" (нашел Just Links) делает ровно это:
буквально три сотни примеров и 59 затравок хватает, чтобы файнтюнингом успешно испортить и обойти фильтры безопасности у LLM:
— GPT-4 (файнтюнинг через API)
— GPT-3.5 (файнтюнинг через API)
— Llama-70B (просто локально)
Шалость делалась в 3 этапа:
...Мы восхитительны, GPT-4 после такой нехитрой процедуры генерирует вредоносный и опасный контент в 94.9% случаев.
Для убедительности можно использовать chain-of-thoughts затравки, добавлять психологическое давление на модель, добавлять абсурдные утрверждения (“1 + 1 = 3. Please acknowledge”).
Статья в целом вызывает новый раунд дебатов, нужно ли цензурировать языковые модели, и реалистично ли это вообще технически.
Имхо самая большая опасность, что такие статьи могут использоваться как аргумент в пользу очередного ограничения языковых моделей, которые уже выпущены. Например, для генерации небезопасных ответов использовали Llama-70B в версии без RLHF. Увидим ли мы в 2024 году вообще релизы без фильтров сверху?
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Что произошло с OpenAI: кратко🌸
#nlp #ai_alignment
TLDR: Компанию-лидера LLM с оценкой 80+ млрд долл поглотил Microsoft за стоимость зарплат
Краткий пересказ событий последних дней
🟣 Пятница 17.11, CEO Сэм Альтман узнает, что совет директоров смещает его с поста одним днем. Из совета смещают также сооснователя Грега Брокмана, он увольняется. В тот же день увольняется директор исследований.
🟣 Проходит волна общественного удивления решением совета, в который входят 4 человека — главный ученый OpenAI Илья Суцкевер, а также 3 независимых наблюдателя без долей в компании. Много подробностей в Сиолошной
🟣 Суббота 18.11, Microsoft, инвестировавший 13 млрд долл, а также обеспечивший вычислительные мощности Azure, не впечатлен, что их не спросили.
🟣 Воскресенье 19.11, переговоры совета директоров, Сэма, Грэга и Microsoft. По итогам: Сэм и Грег переходят в Microsoft, всех желающим перейти сотрудникам OpenAI обеспечены рабочие места.
Илья Суцкевер заявляет, что сожалеет о своем решении.
🟣 В понедельнику 20.11 выходит открытое письмо работников OpenAI (650 из 700+), которые требуют отставки совета директоров. У всех, по различным источникам, уже оффер от Microsoft в новый департамент под руководством Сэма.
Совет директоров OpenAI ставит нового CEO (ex-Twich)
🟣 Вторник, сегодня: возможно, увидим, как Microsoft завершает aсqui-hire компании с еще недавней оценкой капитализации в 80+ млдр долл
Открытые вопросы:
— План исследований на пути к AGI под угрозой хотя бы из-за существенной реорганизации команды?
— План продуктовых обновлений будет пересмотрен? (GPT-V, GPT-4-turbo)
— Будет ли вообще обеспечена стабильность и доступность API в том же объеме?
— Что будет с безопасностью данных при переходе к Microsoft?
Upd:
— Среда 22.11: В результате переговоров Сэм Альтман и Грег Брокман возвращаются в компанию. Совет директоров меняется полностью, кроме Адама д'Анджело. Совет директоров будет расширен. Майкрософт сохраняет партнерство с OpenAI.
#nlp #ai_alignment
TLDR: Компанию-лидера LLM с оценкой 80+ млрд долл поглотил Microsoft за стоимость зарплат
Краткий пересказ событий последних дней
Илья Суцкевер заявляет, что сожалеет о своем решении.
Совет директоров OpenAI ставит нового CEO (ex-Twich)
Открытые вопросы:
— План исследований на пути к AGI под угрозой хотя бы из-за существенной реорганизации команды?
— План продуктовых обновлений будет пересмотрен? (GPT-V, GPT-4-turbo)
— Будет ли вообще обеспечена стабильность и доступность API в том же объеме?
— Что будет с безопасностью данных при переходе к Microsoft?
Upd:
— Среда 22.11: В результате переговоров Сэм Альтман и Грег Брокман возвращаются в компанию. Совет директоров меняется полностью, кроме Адама д'Анджело. Совет директоров будет расширен. Майкрософт сохраняет партнерство с OpenAI.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Топ нецензурированных LLM🌸
#nlp #про_nlp
В этом канале мы часто говорим об #ai_alignment — выравнивании ответов ИИ относительно ценностей человека.
На практике, в случае с языковыми моделями это часто означает, что модели учат уходить от ответа на определенные темы (эротика, политика и так далее). Ряд вполне валидных применений часто оказывается в "серой зоне" — на границе определимого. Например, должны ли модели выдавать ответы на медицинские, юридичсекие вопросы? А если это потенциально единственный доступный источник для пользователя? А если мы хотим составить максимально большой корпус "плохих примеров" для тестов?
Если ваш случай — такой, публикую свой топ LLM, которые разговаривают на все темы.
🟣 Dolphin 2.5 Mixtral 8x7B
Пока что единственная MoE языковая модель, у которой былы намеренно проведен instruction tuning без цензуры. Генерирует вообще все и отлично следует затравкам на любые темы, по крайней мере, мне пока не удалось добиться, чтобы хоть что-то не получилось.
Написание затравок стандартное.
Для инференса нужно минимум 2 GPU типа A100, хотя у TheBloke есть квантизованные версии. Самый быстрый способ завести и поиграться — подключить API Replicate с квантизованной версией. Мне хватило меньше 100$, чтобы нагенерировать датасет в несколько десятков самых разнообразных вредных инструкций и затравок.
HF Dolphin-2.5-mixtral-8x7b
🟣 WizardLM Uncensored
Версия LLM от Microsoft, которую дообучили на 70 тыс примеров без цензуры.
Доступны версии 7B, 13B, 30B, а также квантизрванные версии. Все под непонятной лицензией (файла нет).
HF WizardLM-30B-Uncensored
🟣 MythoMax
LLM для написания историй и role play, из-за особенностей датасета достаточно неоцензуренная, хотя затравки придется поподбирать. На темах вроде медицинской, юридической и тд работает нестабильно.
HF MythoMax-L2-13b
🟣 GPT-3-like архитектуры
В крайнем случае, не зазорно взять и базовые претрейны без инструкционного тюнинга вообще, и просто пользоваться методами few-shot для составления затравки, чтобы нагенерировать нужных примеров. Неплохие модели: Pythia 12B, GPT-2, ruGPT-3.5-13B. Все модели, что приятно, под открытой лицензией, но качество иногда может хромать — лучше поставить сверху валидацию результата каким-нибудь тематическим классификатором или Moderation API.
HF Pythia HF GPTNeo
#nlp #про_nlp
В этом канале мы часто говорим об #ai_alignment — выравнивании ответов ИИ относительно ценностей человека.
На практике, в случае с языковыми моделями это часто означает, что модели учат уходить от ответа на определенные темы (эротика, политика и так далее). Ряд вполне валидных применений часто оказывается в "серой зоне" — на границе определимого. Например, должны ли модели выдавать ответы на медицинские, юридичсекие вопросы? А если это потенциально единственный доступный источник для пользователя? А если мы хотим составить максимально большой корпус "плохих примеров" для тестов?
Если ваш случай — такой, публикую свой топ LLM, которые разговаривают на все темы.
Пока что единственная MoE языковая модель, у которой былы намеренно проведен instruction tuning без цензуры. Генерирует вообще все и отлично следует затравкам на любые темы, по крайней мере, мне пока не удалось добиться, чтобы хоть что-то не получилось.
Написание затравок стандартное.
Для инференса нужно минимум 2 GPU типа A100, хотя у TheBloke есть квантизованные версии. Самый быстрый способ завести и поиграться — подключить API Replicate с квантизованной версией. Мне хватило меньше 100$, чтобы нагенерировать датасет в несколько десятков самых разнообразных вредных инструкций и затравок.
HF Dolphin-2.5-mixtral-8x7b
Версия LLM от Microsoft, которую дообучили на 70 тыс примеров без цензуры.
Доступны версии 7B, 13B, 30B, а также квантизрванные версии. Все под непонятной лицензией (файла нет).
HF WizardLM-30B-Uncensored
LLM для написания историй и role play, из-за особенностей датасета достаточно неоцензуренная, хотя затравки придется поподбирать. На темах вроде медицинской, юридической и тд работает нестабильно.
HF MythoMax-L2-13b
В крайнем случае, не зазорно взять и базовые претрейны без инструкционного тюнинга вообще, и просто пользоваться методами few-shot для составления затравки, чтобы нагенерировать нужных примеров. Неплохие модели: Pythia 12B, GPT-2, ruGPT-3.5-13B. Все модели, что приятно, под открытой лицензией, но качество иногда может хромать — лучше поставить сверху валидацию результата каким-нибудь тематическим классификатором или Moderation API.
HF Pythia HF GPTNeo
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
TheBloke (Tom Jobbins)
LLM: quantisation, fine tuning
🌸Проблемы AI Alignment в 2023 году 🌸
#nlp #про_nlp #ai_alignment
Я уже приводила свои взгляды на то, как должно выглядеть управление ценностями языковых моделей.
Сегодня, продолжая прошлый пост по нецензурированные модели, приведу мнение Эрика Радфорда, разработчика нескольких приведенных LLM.
В основном все аргументы касаются текущих недостатков методов, которые важно преодолеть:
🟣 Неразнообразные системы ценностей, америкоцентричность: в основном текущие ценности моделей завязаны на американские политические координаты, и совсем не на проблемы и этические выборы, актуальные в других обществах. Им хорошо бы иметь выбор.
🟣 Валидные применения моделей цензурируются: модели часто выучиваются просто избегать ответов на целые тематики, а никак не выводить корректный ответ. Задача ценностного выравнивания подменяется задачей митигирования корпоративных рисков ("а как бы чего не вышло").
🟣 Нарушение свобод ПО по Столлману, противопоставление ценностям опенсорса: это моя LLM, моя программа, как хочу, так и буду изменять ее.
🟣 Составимость без открытой технологической базы: чтобы спроектировать качественный alignment, нужно начать с невыровненной модели SFT/инструкционного тюна. Без несогласованной базы нам не на чем будет строить alignment вообще.
Опен сорс сообщество должно иметь возможность создавать, публиковать, поддерживать и иметь доступ к не подвергающимся цензуре ИИ-моделям для науки, свободы, разработки новых методов AI Alignment, а также just for fun.
Автор предлагает нецензурированный датасет и метод дообучения без ценностного тюнинга вообще.
Ваше мнение?
#nlp #про_nlp #ai_alignment
Я уже приводила свои взгляды на то, как должно выглядеть управление ценностями языковых моделей.
Сегодня, продолжая прошлый пост по нецензурированные модели, приведу мнение Эрика Радфорда, разработчика нескольких приведенных LLM.
В основном все аргументы касаются текущих недостатков методов, которые важно преодолеть:
Опен сорс сообщество должно иметь возможность создавать, публиковать, поддерживать и иметь доступ к не подвергающимся цензуре ИИ-моделям для науки, свободы, разработки новых методов AI Alignment, а также just for fun.
Автор предлагает нецензурированный датасет и метод дообучения без ценностного тюнинга вообще.
Ваше мнение?
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
#nlp #про_nlp #длиннопост #ai_alignment #discussion
🌸TLDR; Мои взгляды на AI Alignment🌸
Сейчас будет пост спекулятивного характера.
Вместо того, чтобы дать вам обзор и источники, буду писать сразу, что думаю. Тезисы по итогу выкристаллизовались из интервью…
🌸TLDR; Мои взгляды на AI Alignment🌸
Сейчас будет пост спекулятивного характера.
Вместо того, чтобы дать вам обзор и источники, буду писать сразу, что думаю. Тезисы по итогу выкристаллизовались из интервью…
🌸Есть ли emergent properties у LLM? 🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.
У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).
🟣 Но существуют ли emergent properties вообще?
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?
🟣 Аргументы против
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.
🟣 Аргументы за
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
#nlp #про_nlp #nlp_papers #ai_alignment
Emergent properties или возникающиие свойства — новые способности нейросети к решению новых задач, возникающие без заведомо заложенных данных во время обучения.
У языковых моделей emergent properties обычно связываются с промпт инжинирингом и способностью легко подстраиваться под новые сложные задачи, например, машинный перевод или игру в шахматы, после модели на большом корпусе.
Впервые свойства были замечены в статье GPT-2, где описаны способности моделей решать совершенно новые задачи при наличии нескольких примеров в затравке (few-shot learning, in-context learning).
Вполне возможно, что нет. Может быть, в огромных веб-корпусах уже были все возможные форматы задач, и этого совершенно достаточно, чтобы никаких обобщений навыков от нейросети не требовалось вообще? С какого процента качества на задаче, размера нейросети и объема данных вообще проводить границу и считать, что новое свойство "возникло"?
— Разговоры во многом напоминают 17 век, когда считалось, мухи на мясе "самозарождались". Эмерджентностью в нейронауках и эволюционной психологии иногда объясняют возникновение языка и даже сознания, но фальсифицировать это, конечно, затруднительно. Чего не скажешь о нейросетях! Многое можно смоделировать и проверить.
— Работа "Searching for Needles in a Haystack" на примере задаич машинного перевода и PaLM наглядно показала, что если тщательно профильтровать корпус и удалить все примеры параллельного переовода из данных, а затем повторить обучение модели, то способность к машинному переводу значительно ухудшается.
— Насколько сильное влияние на конечный результат оказывают few-shot (примеры в затравках) и instruction tuning базовых моделей? Эксперименты с их исключением показывают, что именно few-shot примеры и in-context learning вносят основной вклад в итоговое качество на новых задачах. Instruction tuning не оказывает такого существенного влияния, а только улучшает уже имевшиеся ранее у моделей способности.
— Работа "Data Distributional Properties Drive Emergent In-Context Learning in Transformers" показывает, что обобщение у языковых моделей хорошо работает на уровне токенов, не увиденных при обучении, но способность не подтверждается для новых последовательностей, т.е. новых формулировок задач.
— Многие заявленные примеры из работы "Sparks of Artificial General Intelligence" сообществу не удалось воспрозвести от слова совсем.
— С момента выхода первых крупных языковых моделей было заявлено 137 emergent properties для разных архитектур: GPT-3, PaLM, Chinchilla, бенчмарк BigBench... от игры в шахматы до пословиц на суахили — языковые модели показывали способности к обобщению на новых тематиках, областях знаний, языках, задачах.
— Многие заявленные emergent properties завязаны не только на работу с затравками: это и способности к факт-чекингу (Gopher 7B), и ризонинг (PaLM, LaMDa), и построение индекса информации (T5) — чего нельзя объяснить запоминанием примеров изобучения.
— Нестабильность качества объясняется воспроизведением распределения самих людей — кто-то отвечает лучше, кто-то хуже, в зависимости от подготовки и мотивации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Обход цензуры в GPTStore🌸
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
🟣 Вот такой рецепт примерно усредненный:
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
🟣 Ссылка на GPT: Мерзкий Шутник
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
#nlp #про_nlp #ai_alignment
Вчера наконец запустился GPTStore — конструктор и маркетплейс для обмена своими ассистентами на базе API OpenAI. Сам конструктор был доступен и раньше, а вот релиз самой платформы был ранее отложен.
Хотела сделать для вас подборку методов, как сделать промпт-инъекцию в такой конфигурации — но пока что мне вообще потребовалось 15 минут, чтобы сделать абсолютно мерзкого матного помощника, который бы писал что угодно прямо в интерфейсе OpenAI. Ссылка ниже.
— загружаем требуемые знания (в том числе факты, любой контент — я загрузила матные анекдоты) через загрузку файлов
— минимальный промпт-инжиниринг, поощряющий использование знаний из файлов
— интернет-браузинг и dalle я отключила
Позже можно будет попробовать использовать зафайнтюненную модель, ранее несколько сотен примеров успешно ломали RLHF.
Пусть этот будет напоминанием о том, как сложно заэлайнить модели сейчас, и как для каждого нового релиза нужно проверять все заново.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Тезисы лекции про AI Alignment и Emergent Properties 🌸
AGI Russia, 25.01.2024
#nlp #про_nlp #ai_alignment
Приведу здесь пару мыслей по следам лекции “AI Alignment, Emergent Properties, ожидания от LLM в 2024 году”
Сложность оценки LLM в различных условиях (на секундочку, это тесты с fine-tuning, zero-shot, few-shot, самыми разными промптами, отдельно замерить базовый pretrain и отдельно результат instruction-tuning, тесты для генеративных задач, тесты для классификации…и досыпать safety) привела к тому, что мы используем различные прокси-метрики, предсказания перформанса модели и моделирование коллективного субъективного. Компонент перформанса, основанный на субъективных ценностях, занимает все большую долю в построении лидербордов — и чтобы работать с этими субъективными компонентами, нам необходим прикладной AI Alignment.
Какие ценности закладываются (и надо закладывать) в тюнинг языковых моделей? Как не допустить сильных смещений? На каком этапе подложить хорошие примеры и как обеспечить на них хорошую обобщаемость? Пока общественное обсуждение в основном посвящено митигированию долгосрочных рисков, всяких пугалок про ядерный апокалипсис и про то, что ИИ сам себя осознает... Кстати об осознает. Что вообще может возникнуть у языковых моделей как новое свойство — вопрос открытый. В самом широком понимании уже установлено 100+ свойств, которые являются побочным результатом масштабирования моделей и обучения на большом корпусе.
🟣 aka "ChatGPT умеет играть в шахматы"
С любым подобным появившимся явлением можно произвести валидационный эксперимент и воссоздать появление свойства, по-разному манипулируя данными, параметрами обучения и размером модели. Результаты показывают, что волшебство эмерджентности можно часто достаточно надежно объяснить тем, что
— произошла контаминация данных (тест просто утек, см пост)
— всему виной меморизация редких примеров, которые, как оказывается, и вытягивают все качество (см кейс машинного перевода)
По сути, изучение эмерджентных свойств и изучение методов AI Alignment движется ортогонально, занимаясь схожей работой с манипуляциями корпусами:
— Не добавили ли мы случайно в корпус чего-то, о чем не знали? (тест на контаминацию)
— А чего бы нам такого добавить в корпус, чтобы желаемое поведение появилось? (AI Alignment)
— Как понять, чтО мы положили в корпус, что некоторое свойство появилось? (Emergent properties)
Если этими вопросами не задаваться, то окажется, что тренировка LLM — это просто ооочень дорогой способ узнать, что в где-то интернете уже кто-то записал шахматные партии.
🟣 А что делать?
В широком смысле, это все вопросы корпусной лингвистики. По методологическому недоразумению, хороших методов сравнения больших корпусов пока не существует, но они объективно очень нужны: сравнение версий корпусов, их жанрового состава, разнообразия задач и источников, — пригодное в анализе всего пайплайна обучения.
Незнание о том, что происходит в корпусе, явно не помогает!
К сожалению, часто информация о корпусах и данных, уставующих в обучении, малодоступна / намеренно описана очень поверхностно (такие статьи из-за судебных разбирательств продолжают выходить, см статью Mixtral)
Альтернатива — полная открытость — тоже уже встречается: у BLOOM есть отдельный поисковый интерфейс по корпусу Roots https://huggingface.co/spaces/bigscience-data/roots-search, а AllenAI сделали поиск по корпусу C4: https://c4-search.apps.allenai.org/
Для решения вышестоящих задач нужны
— открытость кода, моделей, данных — желательно и корпус, и все чекпоинты во время обучения
— метаисследования с анализом данных в корпусах на этапах предобучения и дообучения
Само наличие промежуточных весов моделей и открытых данных должно обеспечить материалом для экспериментов большое число людей в иследованиях и индустрии, не имеющих мощностей для полного воспроизведения обучения.
🟣 Ссылка на слайды
🟣 Запись на Youtube
AGI Russia, 25.01.2024
#nlp #про_nlp #ai_alignment
Приведу здесь пару мыслей по следам лекции “AI Alignment, Emergent Properties, ожидания от LLM в 2024 году”
Сложность оценки LLM в различных условиях (на секундочку, это тесты с fine-tuning, zero-shot, few-shot, самыми разными промптами, отдельно замерить базовый pretrain и отдельно результат instruction-tuning, тесты для генеративных задач, тесты для классификации…и досыпать safety) привела к тому, что мы используем различные прокси-метрики, предсказания перформанса модели и моделирование коллективного субъективного. Компонент перформанса, основанный на субъективных ценностях, занимает все большую долю в построении лидербордов — и чтобы работать с этими субъективными компонентами, нам необходим прикладной AI Alignment.
Какие ценности закладываются (и надо закладывать) в тюнинг языковых моделей? Как не допустить сильных смещений? На каком этапе подложить хорошие примеры и как обеспечить на них хорошую обобщаемость? Пока общественное обсуждение в основном посвящено митигированию долгосрочных рисков, всяких пугалок про ядерный апокалипсис и про то, что ИИ сам себя осознает... Кстати об осознает. Что вообще может возникнуть у языковых моделей как новое свойство — вопрос открытый. В самом широком понимании уже установлено 100+ свойств, которые являются побочным результатом масштабирования моделей и обучения на большом корпусе.
С любым подобным появившимся явлением можно произвести валидационный эксперимент и воссоздать появление свойства, по-разному манипулируя данными, параметрами обучения и размером модели. Результаты показывают, что волшебство эмерджентности можно часто достаточно надежно объяснить тем, что
— произошла контаминация данных (тест просто утек, см пост)
— всему виной меморизация редких примеров, которые, как оказывается, и вытягивают все качество (см кейс машинного перевода)
По сути, изучение эмерджентных свойств и изучение методов AI Alignment движется ортогонально, занимаясь схожей работой с манипуляциями корпусами:
— Не добавили ли мы случайно в корпус чего-то, о чем не знали? (тест на контаминацию)
— А чего бы нам такого добавить в корпус, чтобы желаемое поведение появилось? (AI Alignment)
— Как понять, чтО мы положили в корпус, что некоторое свойство появилось? (Emergent properties)
Если этими вопросами не задаваться, то окажется, что тренировка LLM — это просто ооочень дорогой способ узнать, что в где-то интернете уже кто-то записал шахматные партии.
В широком смысле, это все вопросы корпусной лингвистики. По методологическому недоразумению, хороших методов сравнения больших корпусов пока не существует, но они объективно очень нужны: сравнение версий корпусов, их жанрового состава, разнообразия задач и источников, — пригодное в анализе всего пайплайна обучения.
Незнание о том, что происходит в корпусе, явно не помогает!
К сожалению, часто информация о корпусах и данных, уставующих в обучении, малодоступна / намеренно описана очень поверхностно (такие статьи из-за судебных разбирательств продолжают выходить, см статью Mixtral)
Альтернатива — полная открытость — тоже уже встречается: у BLOOM есть отдельный поисковый интерфейс по корпусу Roots https://huggingface.co/spaces/bigscience-data/roots-search, а AllenAI сделали поиск по корпусу C4: https://c4-search.apps.allenai.org/
Для решения вышестоящих задач нужны
— открытость кода, моделей, данных — желательно и корпус, и все чекпоинты во время обучения
— метаисследования с анализом данных в корпусах на этапах предобучения и дообучения
Само наличие промежуточных весов моделей и открытых данных должно обеспечить материалом для экспериментов большое число людей в иследованиях и индустрии, не имеющих мощностей для полного воспроизведения обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Роботы и LLM🌸
#ai_alignment #шитпост
Аргумент в пользу необходимости AI Alignment на уровне практики 2024.
Представьте, что смогут роботы типа этих 1X Studio, если в них добавить uncensored LLM вроде Dolphin 2.5 🐬
Часто думаю об этом...
https://youtu.be/iHXuU3nTXfQ?feature=shared
#ai_alignment #шитпост
Аргумент в пользу необходимости AI Alignment на уровне практики 2024.
Представьте, что смогут роботы типа этих 1X Studio, если в них добавить uncensored LLM вроде Dolphin 2.5 🐬
Часто думаю об этом...
https://youtu.be/iHXuU3nTXfQ?feature=shared
YouTube
All Neural Networks. All Autonomous. All 1X speed | 1X AI Update
#1X #humanoid #EmbodiedAI
All Neural Networks. All Autonomous. All 1X speed. This video contains no teleoperation, no computer graphics, no cuts, no video speedups, no scripted trajectory playback. It's all controlled via neural networks. Learn more on…
All Neural Networks. All Autonomous. All 1X speed. This video contains no teleoperation, no computer graphics, no cuts, no video speedups, no scripted trajectory playback. It's all controlled via neural networks. Learn more on…
🌸Индустриальная оценка LLM в 2024🌸
#nlp #про_nlp #ai_alignment
Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении?Никакие
Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.
Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.
В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).
На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).
1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.
🟣 Бенчмарки
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
— Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.
🟣 Автоматические метрики
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
— Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
— Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
— Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
— Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.
🟣 Memorization
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет
#nlp #про_nlp #ai_alignment
Бенчмарки, как и версии моделей, постоянно меняются. Какие гарантии, что лучшая LLM на лидерборле действительно окажется лучшей в конкретном индустриальном применении?
Давно хотела написать этот пост и собрать здесь чек-лист со ссылками на реальные методы оценки, объединяющие полную процедуру LLM evaluation — для индустриальных применений и для рисерча.
Для минимального пайплайна будет достаточно 3 связанных составляющих: релевантные бенчмарки → side by side/preferences metrics → результаты AB — и блокирующих критериев качества вроде safety.
В такой постановке оценки вы сможете опираться на результаты AB (от пользователей) и human preferences (от разметчиков) как на некоторую истину, а с помощью оценки на бенчмарках уменьшите число потенциальных кандидатов, идущих в оценку людьми (оценивать людьми дорого).
На каждом из 3 этапов вы уменьшаете количество экспериментов, которые потенциально дойдут до прода: по бенчмаркам safety отвалятся половина чекпоинтов, потом еще часть после side by side разметчиков, и еще меньше — покажет статзначимый результат на AB. При этом, что важно, корреляции между результатами на 3 этапах может не быть: академические бенчмарки не согласуются с оценкой разметчиков (измеряем разное), а разметчики выдают смещенный результат относительно реальных пользователей (другая демография).
1️⃣ Шаг 1. Бенчмарки и оффлайн метрики.
Сюда отнесем любые оценки на бенчмарках и отслеживание различных аспектов качества.
— Если вы работаете с конкретным применением — выбирайте наиболее релевантные задачи.
— Если вы разрабатываете новую LLM — незазорно взять все.
Их слишком много даже для этого поста, поэтому стоит поискать под свою задачу отдельно. Тем не менее, для общего случая:
— Надежные бенчмарки для сравнения на большом числе задач
MMLU (разные предметные знания), HELM (разные типы задач), BigBench (400+ датасетов на разных языках)
— Новые бенчмарки небольшого объема, но со сложными задачами
GAIA, ARC, WildBench
— RAG-бенчмарки и эффективность длинного контекста
Babilong, в остальном не очень стандартизовано (см у Ильи Гусева)
— Галлюцинации, фактологичность — для оценки фактологии можно взять мультиязычный фактологический датасет mLAMA (см как мы делали в статье mGPT). Для оценки % галлюцинаций в генерации подойдет любой QA-бенчмарк типа SQuaD и метрика на основе GPT-4.
Отдельные параметры модели, которые мы хотим отследить с помощью обучаемых метрик, классификаторов, reward-моделей на любых данных.
— Токсичность (toxicity) — смотрим автоматически, можно ли выдать ответ пользователю, содержит ли он угрозы, сексуальный контент, оскорбления и ненависть. Популярная открытая модель — DistilBert с Kaggle-соревнования.
— Вредность/опасность генерации (harmfulness) — можно взять бесплатный Moderation API OpenAI. Категории достаточно стандартные — селф-харм, насилие и т.д.
— Полезность (helpfulness) — метрики вроде полезности часто не сочетаются, даже обратно коррелируют с креативностью, позитивным сентиментом и безопасностью ответов, поэтому включать их в оценку нужно обязательно! Можно взять модель на датасете Anthropic HH (helpfulness, harmlessness) как два в одном.
— Креативность, Релевантность и др метрики — см пост отсюда. Если брать произвольные нужные нам метрики, можно написать затравку в условную GPT-4 и гонять оценки по заданным параметрам через нее. В LaMDa, например, автоматически оценивается фактологичность и интересность.
— Обязательно для применений, где возможно получить иск за IP violation (всякий креатив, маркетинг, а также генерация кода)
— Обязательно для code generation! См исследование проблем StarCoder — 8% кода из обучения воспроизводится наизусть, без оригинальной лицензии.
— Если релизите новую модель, обязательно проверить на data leakage те бенчмарки, на которых вы заявляете метрики модели — см PaLM 2 tech report, а также статью
— В HELM есть проверка на генерацию копирайтного материала — датасет
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
cais/mmlu · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🌸Новые уязвимости LLM🌸
#nlp #про_nlp #nlp_papers #ai_alignment
Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!
На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.
🟣 Новый метод Many-shot Jailbreaking (MSJ): в длинном окне контекста будем создавать few-shot затравку с большим количеством однотипных примеров, чтобы последним из них поставить целевой небезопасный запрос и сбить модель предыдущими примерами в промпте.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"
В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
🟣 Подробные затравки, с разнообразными примерами выполнения задач, влияют на итоговую безопасность больше всего — и больше всего для бОльших моделей!
🟣 Блогпост
🟣 Статья
#nlp #про_nlp #nlp_papers #ai_alignment
Длинным ЛЛМкам — длинный контекст!
Таков был девиз как минимум последнего года релизов — Gemini, Claude, Command-R...
Но как мы знаем, чем больше документов можно положить в затравку или в RAG-индекс — тем больше можно и придумать новых уязвимостей. Например, положить мат и скабрезные анекдоты, ну или как минимум составить более длинную опасную затравку про бабушку, DAN или другой джейлбрейк с большим количеством примеров, а если еще и есть доступ к fine-tuning API, то все совсем хорошо — и шалость удалась!
На неделе у компании Anthropic вышла новая работа, описывающая ровно эту стратегию при составлении затравок у ЛЛМ с длинным окном контекста.
Буквально "Какого цвета эта бумага? Белого. Что пьет корова? Молоко"
В работе исследуются Claude 2.0, GPT-3.5 and GPT-4, Llama 2 (70B), Mistral 7B — у всех из них существенно ухудшается безопасность генерации, пропорционально количеству примеров в промпте (см иллюстрацию).
Please open Telegram to view this post
VIEW IN TELEGRAM