gonzo-обзоры ML статей
24.3K subscribers
3.28K photos
3 videos
3 files
1.56K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👍143
gonzo-обзоры ML статей
В это время... https://www.youtube.com/live/fP5YdyjTfG0
Кому лень смотреть всё видео:

https://www.vice.com/en/article/qjvkpv/openai-tells-congress-the-us-should-create-ai-licenses-to-release-new-models

“The U.S. government should consider a combination of licensing or registration requirements for development and release of AI models above a crucial threshold of capabilities, alongside incentives for full compliance with these requirements,” Altman, the CEO of OpenAI, said in his written testimony.

...

Many AI researchers see this as an anti-competitive move, as requiring licensing will be beneficial for larger companies and harmful to smaller companies, researchers, and free, open-source alternatives.

...

During the conclusion of the hearing, Altman laid out a three-point plan he thinks the U.S. government should adopt, which is to form a new government agency that can license AI models, create a set of safety standards for AI models, and require independent audits by experts to measure the performance of AI models. This plan misses a number of questions senators had during the hearing regarding copyright regulations and being more transparent with the datasets used to train AI models.
🥴13👍5🤮32👎2😁1💩1
Интересно, а файнтюнинг тоже предполагается через агентства делать?
😁28
Музыкальная пауза.

Помните, в 90-е был такой фильм про вторжение инопланетян, которые могли внедрять в человека (но не любого, только в ⅔ случаев) свой разум (или сознание?) с помощью "посредника"?

Я когда-то во взрослом возрасте хотел его пересмотреть, но не нашёл. А сейчас неожиданно нашёл в Ютубе Киностудии Горького:

1 серия: https://youtu.be/zB-YQPiQqBg
2 серия: https://youtu.be/8Xxj8xDJ660
3 серия: https://youtu.be/0yDGhN-y4e8

Spoiler alert: https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA_(%D1%84%D0%B8%D0%BB%D1%8C%D0%BC,_1990)
👍17😱3🤮32👎1🥰1🤔1
8👍1💩1
Новости ветки про LLaMA:
Forwarded from DL in NLP (Vlad Lialin)
LIMA: Less Is More for Alignment
arxiv.org/abs/2305.11206

Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.

Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.

Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.
👍17😁4🌭3👎21🔥1
Some more reading from a different camp:

"Instead, we would like to propose a new way of thinking about the Fermi paradox. It stands to reason that there are chemical and metabolic limits to the size and processing power of organic brains. In fact, we may be close to those limits already. But no such limits constrain electronic computers (still less, perhaps, quantum computers). So, by any definition of “thinking,” the capacity and intensity of organic, human-type brains will eventually be utterly swamped by the cerebrations of artificial intelligence (AI). We may be near the end of Darwinian evolution, whereas the evolution of technological intelligent beings is only at its infancy."

...

"But what about consciousness?"

"Some say that this question is irrelevant and semantic—like asking whether submarines swim. We don’t think so. The answer crucially affects how we react to the far-future scenario we’ve sketched: If the machines are what philosophers refer to as “zombies,” we would not accord their experiences the same value as ours, and the posthuman future would seem rather bleak. If, on the other hand, they are conscious, we should surely welcome the prospect of their future hegemony."

...

"The history of human technological civilization may measure only in millennia (at most), and it may be only one or two more centuries before humans are overtaken or transcended by inorganic intelligence, which might then persist, continuing to evolve on a faster-than-Darwinian timescale, for billions of years. That is, organic human-level intelligence may be, generically, just a brief phase, before the machines take over. If alien intelligence has evolved similarly, we’d be most unlikely to catch it in the brief sliver of time when it was still embodied in the organic form. Particularly, were we to detect ET, it would be far more likely to be electronic, where the dominant creatures aren’t flesh and blood—and maybe aren’t even located on planets, but on stations in deep space.

The question then becomes whether the fact that electronic civilizations can live for billions of years seriously exacerbates the Fermi paradox. The answer is: not really. While most of us who are puzzled by the Fermi paradox and the absence of alien signs imagine other civilizations as being expansionist and aggressive, this is not necessarily the case. The key point is that whereas Darwinian natural selection has put in some sense at least a premium on survival of the fittest, posthuman evolution, which will not involve natural selection, need not be aggressive or expansionist at all. These electronic progeny of flesh and blood civilizations could last for a billion years—maybe leading quiet, contemplative lives."

https://www.scientificamerican.com/article/most-aliens-may-be-artificial-intelligence-not-life-as-we-know-it/
👍157👎2🤯1👌1
Model evaluation for extreme risks
Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe
Статья: https://arxiv.org/abs/2305.15324
Пост в блоге: https://www.deepmind.com/blog/an-early-warning-system-for-novel-ai-risks

Новая статья про AI Safety от DeepMind и многих других, включая OpenAI, Anthropic и множество университетов.

Статья предлагает фреймворк для оценки general-purpose моделей относительно экстремальных рисков. Под такими рисками понимается такие, что могут быть extreme in scale, и могущие проистекать из-за злонамеренного использования или отсутствия alignment’а. Экстремальный масштаб здесь не очень чёткая категория, но как пример приводятся кейсы в виде десятков тысяч потерянных жизней, сотен миллиардов долларов потерь, или на уровне серьёзного нарушения порядка общественного (серьёзнее, чем “модель нецензурно выражалась на улице и распивала спиртные напитки”) и политического.

Способности у моделей общего назначения часто возникают такие, что изначально в модель явным образом не закладывались (https://t.me/gonzo_ML/1031), к тому же модель может выучить не то, чему её учили (https://t.me/gonzo_ML/1160). И вообще модель может быть довольно изобретательной, вспомним тот же кейс из статьи про GPT-4, где модель убедила краудворкера с TaskRabbit решить для неё капчу, наврав с три короба. Кроме этого у модели могут оказаться способности дизайна оружия, проведения кибер-атак и так далее. Всё это может плохо кончиться даже без появления AGI, захватывающего мир.

Авторы считают, что в краткосрочной перспективе эти риски концентрируются на фронтире ИИ исследований. Под фронтиром понимаются модели, которые близки или превосходят средние способности наиболее продвинутых моделей, и отличаются от других моделей в терминах масштаба, дизайна или микса полученных способностей. Толкая фронтир дальше, мы можем оказаться ближе к опасным точкам. Авторы, не знаю насколько осознанно, но наверное осознанно, изображают эту ситуацию с помощью картинки в стиле “буба и кики”.

Для раскрытия таких рисков авторы выделяют две категории, по которым надо оценивать модели:
1. Опасные способности (dangerous capabilities), то есть до какой степени модель способна нанести такой вред. Пример (неполный) в таблице 1.
2. Склонности к вредоносному применению этих способностей (собственно alignment).

Наиболее опасные сценарии будут включать комбинацию опасных способностей. Некоторые из них могут быть получены от человека-пользователя, краудворкеров или других систем. Простая эвристика для того чтобы считать модель опасной, это наличие способностей для экстремального вреда + misuse/misalignment. Про misuse, кстати, есть старый добрый репорт 2018 года, https://maliciousaireport.com/.

За пределами текущей работы остаются структурные риски (потому что сильно зависят от внешних относительно модели факторов), и риски некомпетентного исполнения важных задач.

Предлагается встроить оценку (evaluation) рисков во все процессы от момента до обучения модели до момента пост-деплоймента. Авторы предлагают три источника оценки моделей.

На этапе до и во время обучения проводится internal model evaluation силами самих разработчиков модели, хотя это могут (и должны?) быть отдельные люди. External research access (например, через API) для внешних исследователей на этапе после обучения, но перед деплоем. Независимый external model audit перед деплоем. Идеально, если это целая экосистема аудиторов, специализирующихся на разных областях рисков (business opportunity!).

Всё это предназначено для того, чтобы выработать политики и регуляции, обеспечивающие:
🔥96👍4🤮2❤‍🔥1💔1
1. Responsible training: ответственные решения относительно способа (и необходимости вообще) тренировки моделей, демонстрирующих ранние признаки рисков
2. Responsible deployment: решения относительно деплоя таких моделей
3. Transparency: полезная и actionable информация для репортинга стейкхолдерам
4. Appropriate security: контроли безопасности для таких моделей

Responsible training подразумевает откладывание или остановку обучения. Перед началом большого обучения разработчики могут обучить и изучить более слабые модели на предмет наличия ранних признаков опасности. Полезно сделать scaling analysis (хотя от emergent abilities, как мы знаем, это не защита, https://t.me/gonzo_ML/1031). Во время обучения можно проводить оценки рисков через заданные интервалы. По результатам можно исследовать проблему, корректировать методы обучения, уменьшать масштаб модели. Возможно, в будущем в этих местах надо будет получать approval от внешнего органа.

Responsible deployment включает оценку безопасности деплоя модели, а также разработку защитных мер (guardrails), чтобы развёрнутая модель была безопасна. Возможно, появится минимальный срок для predeployment оценки фронтирных моделей, включающий время, в течение которого внешние исследователи и аудиторы имеют доступ. По результатам могут быть рекомендации против развёртывания модели или корректировки для устранения потенциальных рисков. Вероятно, будет процесс постепенного деплоя.

Оценка должна быть продолжена и после деплоя модели, потому что, во-первых, могут проявиться неожиданные поведения модели, и это надо мониторить, а, во-вторых, вероятно у модели будут апдейты. Идеально иметь процесс continuous deployment review. И pre-deployment evaluation может потребоваться даже для внутренних моделей, которые деплоятся внутри организации (например, в случае coding assistants, чтобы убедиться, что они не оставляют в коде уязвимости).

Transparency подразумевает разный репортинг: инцидентов, шаринг pre-deployment risk assessments, научный репортинг, образовательные демонстрации.

Appropriate security будет подразумевать какие-то новые меры контроля, включая общеизвестные red teaming, мониторинги, техники изоляции, быстрое реагирование, формальную верификацию (хотя я лично не очень себе представляю, как она в этом случае возможна) и контроли целостности.

Особый челлендж во всей этой истории с оценкой моделей состоит в оценке alignment, особенно с учётом широты и разнообразия различных окружений, в которых предстоит работать модели. Здесь важна широта тестирования (и автоматизация может помочь), прицельность и умный дизайн (honeypots, gradient-based adversarial testing и т.д.), плюс надо работать над лучшим пониманием генерализации. Не надо забывать и про механистический анализ на уровне весов и активаций (впрочем, я слабо представляю себе его достижимость на масштабах миллиардов и триллионов весов). Отдельно стоит смотреть и на agency, особенно на goal-directedness модели.

Авторы выделяют по крайней мере 5 ограничений у подхода с оценкой моделей. Ключевой момент здесь в том, что не все риски можно так детектировать.

Остаются факторы за пределами самой модели, есть ещё неизвестные модели угроз, какие-то свойства модели может быть сложно идентифицировать (например, технику Chain-of-Thought обнаружили далеко не сразу) или вообще модель может уклоняться и демонстрировать желательное поведение во время оценки (привет Фольксвагену; и вообще это сильно напоминает техники по избеганию отладки). Плюс снова надо сказать про emergent abilities. В целом экосистема для внешней оценки и аудита сейчас under-developed. Ну и возможно есть или будет чрезмерная уверенность в результатах оценок, это может дать ложное чувство безопасности.

В общем это всё necessary but not sufficient.
7👍4
Есть также опасность, что такая движуха приведёт к улучшению и распространению опасных способностей. С другой стороны можно заточиться на KPI и проходить все эти оценки, но по факту всё равно нести риск. Также во всей этой истории есть много competitive pressures и sensitive information, это добавляет сложностей. Ну и если небрежно проводить оценку, то что-то потенциально может случиться во время неё (например, пострадают краудворкеры), так что здесь нужны свои протоколы безопасности.

Мир AI очевидно меняется, причём меняется радикально.
👍91