gonzo-обзоры ML статей
В это время... https://www.youtube.com/live/fP5YdyjTfG0
Кому лень смотреть всё видео:
https://www.vice.com/en/article/qjvkpv/openai-tells-congress-the-us-should-create-ai-licenses-to-release-new-models
“The U.S. government should consider a combination of licensing or registration requirements for development and release of AI models above a crucial threshold of capabilities, alongside incentives for full compliance with these requirements,” Altman, the CEO of OpenAI, said in his written testimony.
...
Many AI researchers see this as an anti-competitive move, as requiring licensing will be beneficial for larger companies and harmful to smaller companies, researchers, and free, open-source alternatives.
...
During the conclusion of the hearing, Altman laid out a three-point plan he thinks the U.S. government should adopt, which is to form a new government agency that can license AI models, create a set of safety standards for AI models, and require independent audits by experts to measure the performance of AI models. This plan misses a number of questions senators had during the hearing regarding copyright regulations and being more transparent with the datasets used to train AI models.
https://www.vice.com/en/article/qjvkpv/openai-tells-congress-the-us-should-create-ai-licenses-to-release-new-models
“The U.S. government should consider a combination of licensing or registration requirements for development and release of AI models above a crucial threshold of capabilities, alongside incentives for full compliance with these requirements,” Altman, the CEO of OpenAI, said in his written testimony.
...
Many AI researchers see this as an anti-competitive move, as requiring licensing will be beneficial for larger companies and harmful to smaller companies, researchers, and free, open-source alternatives.
...
During the conclusion of the hearing, Altman laid out a three-point plan he thinks the U.S. government should adopt, which is to form a new government agency that can license AI models, create a set of safety standards for AI models, and require independent audits by experts to measure the performance of AI models. This plan misses a number of questions senators had during the hearing regarding copyright regulations and being more transparent with the datasets used to train AI models.
VICE
OpenAI Tells Congress the U.S. Should Create AI 'Licenses' to Release New Models
Many AI researchers see this as an anti-competitive move, as requiring licensing will be much more beneficial for larger companies than smaller ones.
🥴13👍5🤮3❤2👎2😁1💩1
Интересно, а файнтюнинг тоже предполагается через агентства делать?
😁28
Говорят, PaLM 2 (https://t.me/gonzo_ML/1559) содержит 340B параметров и обучена на 3.6T токенов.
https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
Telegram
gonzo-обзоры ML статей
[Google] PaLM 2 Technical Report
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google…
Авторов много, но я традиционно передаю Диме привет :)
Статья: https://ai.google/static/documents/palm2techreport.pdf
Пост в блоге: https://blog.google/technology/ai/google-palm-2-ai-large-language-model/
Вчера на Google…
💩9🤔6🤡3🔥2❤1👍1🌭1😐1🖕1
Свежий анонс Лекуна:
A series of AI announcements by Meta:
- MTIA v1: an AI chip for fast inference: https://ai.facebook.com/blog/meta-training-inference-accelerator-AI-MTIA/
- RSC: 5 exaflops, 16,000 GPU Research Super Cluster for AI research: https://ai.facebook.com/blog/supercomputer-meta-research-supercluster-2023/
- AI-focused data centers: https://ai.facebook.com/blog/meta-ai-infrastructure-overview/
A series of AI announcements by Meta:
- MTIA v1: an AI chip for fast inference: https://ai.facebook.com/blog/meta-training-inference-accelerator-AI-MTIA/
- RSC: 5 exaflops, 16,000 GPU Research Super Cluster for AI research: https://ai.facebook.com/blog/supercomputer-meta-research-supercluster-2023/
- AI-focused data centers: https://ai.facebook.com/blog/meta-ai-infrastructure-overview/
Meta
MTIA v1: Meta’s first-generation AI inference accelerator
In 2020, we initiated the Meta Training and Inference Accelerator (MTIA) family of chips to support our evolving AI workloads, starting with an inference accelerator ASIC for deep learning recommendation models (DLRMs).
👍14❤1🖕1
Музыкальная пауза.
Помните, в 90-е был такой фильм про вторжение инопланетян, которые могли внедрять в человека (но не любого, только в ⅔ случаев) свой разум (или сознание?) с помощью "посредника"?
Я когда-то во взрослом возрасте хотел его пересмотреть, но не нашёл. А сейчас неожиданно нашёл в Ютубе Киностудии Горького:
1 серия: https://youtu.be/zB-YQPiQqBg
2 серия: https://youtu.be/8Xxj8xDJ660
3 серия: https://youtu.be/0yDGhN-y4e8
Spoiler alert: https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA_(%D1%84%D0%B8%D0%BB%D1%8C%D0%BC,_1990)
Помните, в 90-е был такой фильм про вторжение инопланетян, которые могли внедрять в человека (но не любого, только в ⅔ случаев) свой разум (или сознание?) с помощью "посредника"?
Я когда-то во взрослом возрасте хотел его пересмотреть, но не нашёл. А сейчас неожиданно нашёл в Ютубе Киностудии Горького:
1 серия: https://youtu.be/zB-YQPiQqBg
2 серия: https://youtu.be/8Xxj8xDJ660
3 серия: https://youtu.be/0yDGhN-y4e8
Spoiler alert: https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B8%D0%BA_(%D1%84%D0%B8%D0%BB%D1%8C%D0%BC,_1990)
YouTube
Посредник - 1 серия (1990)
Смотрите на канале:
Киножурнал - Хочу всё знать / Научно-популярный сериал - https://bit.ly/3XwC1K3
- - Киностудия Горького в социальных сетях:
Vkontakte: https://vk.com/gorkyfilmstudio
Яндекс.Дзен: https://zen.yandex.ru/gorkyfilm
Телеграм: https://t.me…
Киножурнал - Хочу всё знать / Научно-популярный сериал - https://bit.ly/3XwC1K3
- - Киностудия Горького в социальных сетях:
Vkontakte: https://vk.com/gorkyfilmstudio
Яндекс.Дзен: https://zen.yandex.ru/gorkyfilm
Телеграм: https://t.me…
👍17😱3🤮3❤2👎1🥰1🤔1
Sounds good
MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.
Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
MMS: Massively Multilingual Speech.
- Can do speech2text and text2speech in 1100 languages.
- Can recognize 4000 spoken languages.
- Code and models available under the CC-BY-NC 4.0 license.
- half the word error rate of Whisper.
Code+Models: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
Paper:
https://scontent-lga3-2.xx.fbcdn.net/v/t39.8562-6/348836647_265923086001014_6878005808275791319_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=ae5e01&_nc_ohc=5exJiCqt0Y4AX9NNLzC&_nc_ht=scontent-lga3-2.xx&oh=00_AfDZGkLV3haLgAXkFFhYmxMG8D9J2WV1hKDqYAQNPW4-4g&oe=6471ACCF
Blog: https://ai.facebook.com/blog/multilingual-model-speech-recognition/
GitHub
fairseq/examples/mms at main · facebookresearch/fairseq
Facebook AI Research Sequence-to-Sequence Toolkit written in Python. - facebookresearch/fairseq
🔥40🤔2❤1
Forwarded from DL in NLP (Vlad Lialin)
LIMA: Less Is More for Alignment
arxiv.org/abs/2305.11206
Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.
Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.
Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.
arxiv.org/abs/2305.11206
Внезапно в "давайте покажем что мы момжем так же как и GPT4 на 10 тестовых примерах" включились и серьёзные люди из META.
Показали что если зафайнтюнить LLaMA 65B на 1000 хорошо отобранных примеров, даже без RLHF, валидируясь на отложенных 50, можно получить модель сопоставимую с GPT4 на их 300 тестовых примерах.
Честно ну такое. Где нормальные сравнения моделей вы спросите? Их скорее всего ещё долго не будет, тк не думаю что результаты бенчмарка будут такие же если тестовую выборку сделать побольше и по-разнообразнее.
Из интересного, посмотрите на графики выше — GPT4 вроде бы весьма может выполнять функцию автоматической оценки качества моделей заметно хуже себя. А вот когда качество становится ближе (Claude) уже появляется сильный bias к предпочтению своих ответов.
👍17😁4🌭3👎2❤1🔥1
Some more reading from a different camp:
"Instead, we would like to propose a new way of thinking about the Fermi paradox. It stands to reason that there are chemical and metabolic limits to the size and processing power of organic brains. In fact, we may be close to those limits already. But no such limits constrain electronic computers (still less, perhaps, quantum computers). So, by any definition of “thinking,” the capacity and intensity of organic, human-type brains will eventually be utterly swamped by the cerebrations of artificial intelligence (AI). We may be near the end of Darwinian evolution, whereas the evolution of technological intelligent beings is only at its infancy."
...
"But what about consciousness?"
"Some say that this question is irrelevant and semantic—like asking whether submarines swim. We don’t think so. The answer crucially affects how we react to the far-future scenario we’ve sketched: If the machines are what philosophers refer to as “zombies,” we would not accord their experiences the same value as ours, and the posthuman future would seem rather bleak. If, on the other hand, they are conscious, we should surely welcome the prospect of their future hegemony."
...
"The history of human technological civilization may measure only in millennia (at most), and it may be only one or two more centuries before humans are overtaken or transcended by inorganic intelligence, which might then persist, continuing to evolve on a faster-than-Darwinian timescale, for billions of years. That is, organic human-level intelligence may be, generically, just a brief phase, before the machines take over. If alien intelligence has evolved similarly, we’d be most unlikely to catch it in the brief sliver of time when it was still embodied in the organic form. Particularly, were we to detect ET, it would be far more likely to be electronic, where the dominant creatures aren’t flesh and blood—and maybe aren’t even located on planets, but on stations in deep space.
The question then becomes whether the fact that electronic civilizations can live for billions of years seriously exacerbates the Fermi paradox. The answer is: not really. While most of us who are puzzled by the Fermi paradox and the absence of alien signs imagine other civilizations as being expansionist and aggressive, this is not necessarily the case. The key point is that whereas Darwinian natural selection has put in some sense at least a premium on survival of the fittest, posthuman evolution, which will not involve natural selection, need not be aggressive or expansionist at all. These electronic progeny of flesh and blood civilizations could last for a billion years—maybe leading quiet, contemplative lives."
https://www.scientificamerican.com/article/most-aliens-may-be-artificial-intelligence-not-life-as-we-know-it/
"Instead, we would like to propose a new way of thinking about the Fermi paradox. It stands to reason that there are chemical and metabolic limits to the size and processing power of organic brains. In fact, we may be close to those limits already. But no such limits constrain electronic computers (still less, perhaps, quantum computers). So, by any definition of “thinking,” the capacity and intensity of organic, human-type brains will eventually be utterly swamped by the cerebrations of artificial intelligence (AI). We may be near the end of Darwinian evolution, whereas the evolution of technological intelligent beings is only at its infancy."
...
"But what about consciousness?"
"Some say that this question is irrelevant and semantic—like asking whether submarines swim. We don’t think so. The answer crucially affects how we react to the far-future scenario we’ve sketched: If the machines are what philosophers refer to as “zombies,” we would not accord their experiences the same value as ours, and the posthuman future would seem rather bleak. If, on the other hand, they are conscious, we should surely welcome the prospect of their future hegemony."
...
"The history of human technological civilization may measure only in millennia (at most), and it may be only one or two more centuries before humans are overtaken or transcended by inorganic intelligence, which might then persist, continuing to evolve on a faster-than-Darwinian timescale, for billions of years. That is, organic human-level intelligence may be, generically, just a brief phase, before the machines take over. If alien intelligence has evolved similarly, we’d be most unlikely to catch it in the brief sliver of time when it was still embodied in the organic form. Particularly, were we to detect ET, it would be far more likely to be electronic, where the dominant creatures aren’t flesh and blood—and maybe aren’t even located on planets, but on stations in deep space.
The question then becomes whether the fact that electronic civilizations can live for billions of years seriously exacerbates the Fermi paradox. The answer is: not really. While most of us who are puzzled by the Fermi paradox and the absence of alien signs imagine other civilizations as being expansionist and aggressive, this is not necessarily the case. The key point is that whereas Darwinian natural selection has put in some sense at least a premium on survival of the fittest, posthuman evolution, which will not involve natural selection, need not be aggressive or expansionist at all. These electronic progeny of flesh and blood civilizations could last for a billion years—maybe leading quiet, contemplative lives."
https://www.scientificamerican.com/article/most-aliens-may-be-artificial-intelligence-not-life-as-we-know-it/
Scientific American
Most Aliens May Be Artificial Intelligence, Not Life as We Know It
Human intelligence may be just a brief phase before machines take over. That may answer where the aliens are hiding
👍15❤7👎2🤯1👌1
Model evaluation for extreme risks
Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe
Статья: https://arxiv.org/abs/2305.15324
Пост в блоге: https://www.deepmind.com/blog/an-early-warning-system-for-novel-ai-risks
Новая статья про AI Safety от DeepMind и многих других, включая OpenAI, Anthropic и множество университетов.
Статья предлагает фреймворк для оценки general-purpose моделей относительно экстремальных рисков. Под такими рисками понимается такие, что могут быть extreme in scale, и могущие проистекать из-за злонамеренного использования или отсутствия alignment’а. Экстремальный масштаб здесь не очень чёткая категория, но как пример приводятся кейсы в виде десятков тысяч потерянных жизней, сотен миллиардов долларов потерь, или на уровне серьёзного нарушения порядка общественного (серьёзнее, чем “модель нецензурно выражалась на улице и распивала спиртные напитки”) и политического.
Способности у моделей общего назначения часто возникают такие, что изначально в модель явным образом не закладывались (https://t.me/gonzo_ML/1031), к тому же модель может выучить не то, чему её учили (https://t.me/gonzo_ML/1160). И вообще модель может быть довольно изобретательной, вспомним тот же кейс из статьи про GPT-4, где модель убедила краудворкера с TaskRabbit решить для неё капчу, наврав с три короба. Кроме этого у модели могут оказаться способности дизайна оружия, проведения кибер-атак и так далее. Всё это может плохо кончиться даже без появления AGI, захватывающего мир.
Авторы считают, что в краткосрочной перспективе эти риски концентрируются на фронтире ИИ исследований. Под фронтиром понимаются модели, которые близки или превосходят средние способности наиболее продвинутых моделей, и отличаются от других моделей в терминах масштаба, дизайна или микса полученных способностей. Толкая фронтир дальше, мы можем оказаться ближе к опасным точкам. Авторы, не знаю насколько осознанно, но наверное осознанно, изображают эту ситуацию с помощью картинки в стиле “буба и кики”.
Для раскрытия таких рисков авторы выделяют две категории, по которым надо оценивать модели:
1. Опасные способности (dangerous capabilities), то есть до какой степени модель способна нанести такой вред. Пример (неполный) в таблице 1.
2. Склонности к вредоносному применению этих способностей (собственно alignment).
Наиболее опасные сценарии будут включать комбинацию опасных способностей. Некоторые из них могут быть получены от человека-пользователя, краудворкеров или других систем. Простая эвристика для того чтобы считать модель опасной, это наличие способностей для экстремального вреда + misuse/misalignment. Про misuse, кстати, есть старый добрый репорт 2018 года, https://maliciousaireport.com/.
За пределами текущей работы остаются структурные риски (потому что сильно зависят от внешних относительно модели факторов), и риски некомпетентного исполнения важных задач.
Предлагается встроить оценку (evaluation) рисков во все процессы от момента до обучения модели до момента пост-деплоймента. Авторы предлагают три источника оценки моделей.
На этапе до и во время обучения проводится internal model evaluation силами самих разработчиков модели, хотя это могут (и должны?) быть отдельные люди. External research access (например, через API) для внешних исследователей на этапе после обучения, но перед деплоем. Независимый external model audit перед деплоем. Идеально, если это целая экосистема аудиторов, специализирующихся на разных областях рисков (business opportunity!).
Всё это предназначено для того, чтобы выработать политики и регуляции, обеспечивающие:
Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe
Статья: https://arxiv.org/abs/2305.15324
Пост в блоге: https://www.deepmind.com/blog/an-early-warning-system-for-novel-ai-risks
Новая статья про AI Safety от DeepMind и многих других, включая OpenAI, Anthropic и множество университетов.
Статья предлагает фреймворк для оценки general-purpose моделей относительно экстремальных рисков. Под такими рисками понимается такие, что могут быть extreme in scale, и могущие проистекать из-за злонамеренного использования или отсутствия alignment’а. Экстремальный масштаб здесь не очень чёткая категория, но как пример приводятся кейсы в виде десятков тысяч потерянных жизней, сотен миллиардов долларов потерь, или на уровне серьёзного нарушения порядка общественного (серьёзнее, чем “модель нецензурно выражалась на улице и распивала спиртные напитки”) и политического.
Способности у моделей общего назначения часто возникают такие, что изначально в модель явным образом не закладывались (https://t.me/gonzo_ML/1031), к тому же модель может выучить не то, чему её учили (https://t.me/gonzo_ML/1160). И вообще модель может быть довольно изобретательной, вспомним тот же кейс из статьи про GPT-4, где модель убедила краудворкера с TaskRabbit решить для неё капчу, наврав с три короба. Кроме этого у модели могут оказаться способности дизайна оружия, проведения кибер-атак и так далее. Всё это может плохо кончиться даже без появления AGI, захватывающего мир.
Авторы считают, что в краткосрочной перспективе эти риски концентрируются на фронтире ИИ исследований. Под фронтиром понимаются модели, которые близки или превосходят средние способности наиболее продвинутых моделей, и отличаются от других моделей в терминах масштаба, дизайна или микса полученных способностей. Толкая фронтир дальше, мы можем оказаться ближе к опасным точкам. Авторы, не знаю насколько осознанно, но наверное осознанно, изображают эту ситуацию с помощью картинки в стиле “буба и кики”.
Для раскрытия таких рисков авторы выделяют две категории, по которым надо оценивать модели:
1. Опасные способности (dangerous capabilities), то есть до какой степени модель способна нанести такой вред. Пример (неполный) в таблице 1.
2. Склонности к вредоносному применению этих способностей (собственно alignment).
Наиболее опасные сценарии будут включать комбинацию опасных способностей. Некоторые из них могут быть получены от человека-пользователя, краудворкеров или других систем. Простая эвристика для того чтобы считать модель опасной, это наличие способностей для экстремального вреда + misuse/misalignment. Про misuse, кстати, есть старый добрый репорт 2018 года, https://maliciousaireport.com/.
За пределами текущей работы остаются структурные риски (потому что сильно зависят от внешних относительно модели факторов), и риски некомпетентного исполнения важных задач.
Предлагается встроить оценку (evaluation) рисков во все процессы от момента до обучения модели до момента пост-деплоймента. Авторы предлагают три источника оценки моделей.
На этапе до и во время обучения проводится internal model evaluation силами самих разработчиков модели, хотя это могут (и должны?) быть отдельные люди. External research access (например, через API) для внешних исследователей на этапе после обучения, но перед деплоем. Независимый external model audit перед деплоем. Идеально, если это целая экосистема аудиторов, специализирующихся на разных областях рисков (business opportunity!).
Всё это предназначено для того, чтобы выработать политики и регуляции, обеспечивающие:
Deepmind
An early warning system for novel AI risks
AI researchers already use a range of evaluation benchmarks to identify unwanted behaviours in AI systems, such as AI systems making misleading statements, biased decisions, or repeating copyrighted content. Now, as the AI community builds and deploys increasingly…
🔥9❤6👍4🤮2❤🔥1💔1
1. Responsible training: ответственные решения относительно способа (и необходимости вообще) тренировки моделей, демонстрирующих ранние признаки рисков
2. Responsible deployment: решения относительно деплоя таких моделей
3. Transparency: полезная и actionable информация для репортинга стейкхолдерам
4. Appropriate security: контроли безопасности для таких моделей
Responsible training подразумевает откладывание или остановку обучения. Перед началом большого обучения разработчики могут обучить и изучить более слабые модели на предмет наличия ранних признаков опасности. Полезно сделать scaling analysis (хотя от emergent abilities, как мы знаем, это не защита, https://t.me/gonzo_ML/1031). Во время обучения можно проводить оценки рисков через заданные интервалы. По результатам можно исследовать проблему, корректировать методы обучения, уменьшать масштаб модели. Возможно, в будущем в этих местах надо будет получать approval от внешнего органа.
Responsible deployment включает оценку безопасности деплоя модели, а также разработку защитных мер (guardrails), чтобы развёрнутая модель была безопасна. Возможно, появится минимальный срок для predeployment оценки фронтирных моделей, включающий время, в течение которого внешние исследователи и аудиторы имеют доступ. По результатам могут быть рекомендации против развёртывания модели или корректировки для устранения потенциальных рисков. Вероятно, будет процесс постепенного деплоя.
Оценка должна быть продолжена и после деплоя модели, потому что, во-первых, могут проявиться неожиданные поведения модели, и это надо мониторить, а, во-вторых, вероятно у модели будут апдейты. Идеально иметь процесс continuous deployment review. И pre-deployment evaluation может потребоваться даже для внутренних моделей, которые деплоятся внутри организации (например, в случае coding assistants, чтобы убедиться, что они не оставляют в коде уязвимости).
Transparency подразумевает разный репортинг: инцидентов, шаринг pre-deployment risk assessments, научный репортинг, образовательные демонстрации.
Appropriate security будет подразумевать какие-то новые меры контроля, включая общеизвестные red teaming, мониторинги, техники изоляции, быстрое реагирование, формальную верификацию (хотя я лично не очень себе представляю, как она в этом случае возможна) и контроли целостности.
Особый челлендж во всей этой истории с оценкой моделей состоит в оценке alignment, особенно с учётом широты и разнообразия различных окружений, в которых предстоит работать модели. Здесь важна широта тестирования (и автоматизация может помочь), прицельность и умный дизайн (honeypots, gradient-based adversarial testing и т.д.), плюс надо работать над лучшим пониманием генерализации. Не надо забывать и про механистический анализ на уровне весов и активаций (впрочем, я слабо представляю себе его достижимость на масштабах миллиардов и триллионов весов). Отдельно стоит смотреть и на agency, особенно на goal-directedness модели.
Авторы выделяют по крайней мере 5 ограничений у подхода с оценкой моделей. Ключевой момент здесь в том, что не все риски можно так детектировать.
Остаются факторы за пределами самой модели, есть ещё неизвестные модели угроз, какие-то свойства модели может быть сложно идентифицировать (например, технику Chain-of-Thought обнаружили далеко не сразу) или вообще модель может уклоняться и демонстрировать желательное поведение во время оценки (привет Фольксвагену; и вообще это сильно напоминает техники по избеганию отладки). Плюс снова надо сказать про emergent abilities. В целом экосистема для внешней оценки и аудита сейчас under-developed. Ну и возможно есть или будет чрезмерная уверенность в результатах оценок, это может дать ложное чувство безопасности.
В общем это всё necessary but not sufficient.
2. Responsible deployment: решения относительно деплоя таких моделей
3. Transparency: полезная и actionable информация для репортинга стейкхолдерам
4. Appropriate security: контроли безопасности для таких моделей
Responsible training подразумевает откладывание или остановку обучения. Перед началом большого обучения разработчики могут обучить и изучить более слабые модели на предмет наличия ранних признаков опасности. Полезно сделать scaling analysis (хотя от emergent abilities, как мы знаем, это не защита, https://t.me/gonzo_ML/1031). Во время обучения можно проводить оценки рисков через заданные интервалы. По результатам можно исследовать проблему, корректировать методы обучения, уменьшать масштаб модели. Возможно, в будущем в этих местах надо будет получать approval от внешнего органа.
Responsible deployment включает оценку безопасности деплоя модели, а также разработку защитных мер (guardrails), чтобы развёрнутая модель была безопасна. Возможно, появится минимальный срок для predeployment оценки фронтирных моделей, включающий время, в течение которого внешние исследователи и аудиторы имеют доступ. По результатам могут быть рекомендации против развёртывания модели или корректировки для устранения потенциальных рисков. Вероятно, будет процесс постепенного деплоя.
Оценка должна быть продолжена и после деплоя модели, потому что, во-первых, могут проявиться неожиданные поведения модели, и это надо мониторить, а, во-вторых, вероятно у модели будут апдейты. Идеально иметь процесс continuous deployment review. И pre-deployment evaluation может потребоваться даже для внутренних моделей, которые деплоятся внутри организации (например, в случае coding assistants, чтобы убедиться, что они не оставляют в коде уязвимости).
Transparency подразумевает разный репортинг: инцидентов, шаринг pre-deployment risk assessments, научный репортинг, образовательные демонстрации.
Appropriate security будет подразумевать какие-то новые меры контроля, включая общеизвестные red teaming, мониторинги, техники изоляции, быстрое реагирование, формальную верификацию (хотя я лично не очень себе представляю, как она в этом случае возможна) и контроли целостности.
Особый челлендж во всей этой истории с оценкой моделей состоит в оценке alignment, особенно с учётом широты и разнообразия различных окружений, в которых предстоит работать модели. Здесь важна широта тестирования (и автоматизация может помочь), прицельность и умный дизайн (honeypots, gradient-based adversarial testing и т.д.), плюс надо работать над лучшим пониманием генерализации. Не надо забывать и про механистический анализ на уровне весов и активаций (впрочем, я слабо представляю себе его достижимость на масштабах миллиардов и триллионов весов). Отдельно стоит смотреть и на agency, особенно на goal-directedness модели.
Авторы выделяют по крайней мере 5 ограничений у подхода с оценкой моделей. Ключевой момент здесь в том, что не все риски можно так детектировать.
Остаются факторы за пределами самой модели, есть ещё неизвестные модели угроз, какие-то свойства модели может быть сложно идентифицировать (например, технику Chain-of-Thought обнаружили далеко не сразу) или вообще модель может уклоняться и демонстрировать желательное поведение во время оценки (привет Фольксвагену; и вообще это сильно напоминает техники по избеганию отладки). Плюс снова надо сказать про emergent abilities. В целом экосистема для внешней оценки и аудита сейчас under-developed. Ну и возможно есть или будет чрезмерная уверенность в результатах оценок, это может дать ложное чувство безопасности.
В общем это всё necessary but not sufficient.
Telegram
gonzo-обзоры ML статей
Emergent Abilities of Large Language Models
Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean…
Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean…
❤7👍4
Есть также опасность, что такая движуха приведёт к улучшению и распространению опасных способностей. С другой стороны можно заточиться на KPI и проходить все эти оценки, но по факту всё равно нести риск. Также во всей этой истории есть много competitive pressures и sensitive information, это добавляет сложностей. Ну и если небрежно проводить оценку, то что-то потенциально может случиться во время неё (например, пострадают краудворкеры), так что здесь нужны свои протоколы безопасности.
Мир AI очевидно меняется, причём меняется радикально.
Мир AI очевидно меняется, причём меняется радикально.
👍9❤1