«Во многих областях есть разделение между интуитивными аксиоматическими принципами и рациональными производными принципами. Этика также содержит обе эти стороны. Наши этические выводы — это баланс между интуитивными реакциями и рациональными выводами с обратной связью в обоих направлениях».
Переведено эссе Брайана Томасика с сайта reducing-suffering.org, посвященного эффективному альтруизму в сфере уменьшения страданий.
https://vk.com/@reducing_suffering-brian-tomasik-intuition-and-reason
Переведено эссе Брайана Томасика с сайта reducing-suffering.org, посвященного эффективному альтруизму в сфере уменьшения страданий.
https://vk.com/@reducing_suffering-brian-tomasik-intuition-and-reason
VK
Интуиция и разум | Брайан Томасик
Оригинал: Intuition and Reason | Brian Tomasik (впервые написано в 2005, последнее нетривиальное обновление 27 ноября 2013)Перевод: К. Ки..
#встречи #онлайн
В понедельник, 25 июля, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Что именно мы называем задачей согласования? Как выглядят перспективы ее решения сквозь призму современных трендов в машинном обучении?
Заканчиваем вторую неделю Кембриджского курса и разбираем упражнения.
1. Clarifying “AI alignment” (Christiano, 2018)
2. The other alignment problem: mesa-optimisers and inner alignment (Miles, 2021)
Вопросы на обсуждение:
Christiano (2018) defined alignment as follows: “an AI A is aligned with an operator H if A is trying to do what H wants it to do”. Some questions about this:
What’s the most natural way to interpret “what the human wants” - what they say, or what they think, or what they would think if they thought about it for much longer?
How should we define an AI being aligned to a group of humans, rather than an individual?
Does it make sense to talk about corporations and countries having goals? Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
By some definitions, a chess AI has the goal of winning. When is it useful to describe it that way? What are the key differences between human goals and the “goals” of a chess AI?
The same questions, but for corporations and countries instead of chess AIs. Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
To what extent are humans inner misaligned with respect to evolution? How can you tell, and what might similar indicators look like in AGIs?
Did Bostrom miss any important convergent instrumental goals? (His current list: self-preservation, goal-content integrity, cognitive enhancement, technological perfection, resource acquisition.) One way of thinking about this might be to consider which goals humans regularly pursue and why.
Suppose that we want to build a highly intelligent AGI that is myopic, in the sense that it only cares about what happens over the next day or week. Would such an agent still have convergent instrumental goals? What factors might make it easier or harder to train a myopic AGI than a non-myopic AGI?
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
В понедельник, 25 июля, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Что именно мы называем задачей согласования? Как выглядят перспективы ее решения сквозь призму современных трендов в машинном обучении?
Заканчиваем вторую неделю Кембриджского курса и разбираем упражнения.
1. Clarifying “AI alignment” (Christiano, 2018)
2. The other alignment problem: mesa-optimisers and inner alignment (Miles, 2021)
Вопросы на обсуждение:
Christiano (2018) defined alignment as follows: “an AI A is aligned with an operator H if A is trying to do what H wants it to do”. Some questions about this:
What’s the most natural way to interpret “what the human wants” - what they say, or what they think, or what they would think if they thought about it for much longer?
How should we define an AI being aligned to a group of humans, rather than an individual?
Does it make sense to talk about corporations and countries having goals? Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
By some definitions, a chess AI has the goal of winning. When is it useful to describe it that way? What are the key differences between human goals and the “goals” of a chess AI?
The same questions, but for corporations and countries instead of chess AIs. Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
To what extent are humans inner misaligned with respect to evolution? How can you tell, and what might similar indicators look like in AGIs?
Did Bostrom miss any important convergent instrumental goals? (His current list: self-preservation, goal-content integrity, cognitive enhancement, technological perfection, resource acquisition.) One way of thinking about this might be to consider which goals humans regularly pursue and why.
Suppose that we want to build a highly intelligent AGI that is myopic, in the sense that it only cares about what happens over the next day or week. Would such an agent still have convergent instrumental goals? What factors might make it easier or harder to train a myopic AGI than a non-myopic AGI?
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Medium
Clarifying “AI alignment”
Clarifying what I mean when I say that an AI is aligned.
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 24 июля, мы начнём обсуждать цепочку "Замечая замешательство". Поговорим про следующие эссе:
- Сфокусируй неуверенность;
- Что такое свидетельство;
- Свидетельство: рациональное, правовое, научное;
- Сколько свидетельств понадобится.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/to4z7ixcwvb4zf45qf44aqcrky
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 24 июля, мы начнём обсуждать цепочку "Замечая замешательство". Поговорим про следующие эссе:
- Сфокусируй неуверенность;
- Что такое свидетельство;
- Свидетельство: рациональное, правовое, научное;
- Сколько свидетельств понадобится.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/to4z7ixcwvb4zf45qf44aqcrky
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#встречи #онлайн
По понедельникам на онлайн-встречах, посвящённой обсуждению статей про безопасность ИИ, уже разговаривают о достаточно сложных статьях, которые может быть сложно понять сразу. Да и для полноценного обсуждения книги "Рациональность: от ИИ до Зомби" по воскресеньям лучше знакомиться с материалом заранее.
Поэтому в расписание добавились встречи-коворкинги. На этой неделе во вторник, 26 июля, будет встреча-коворкинг по чтению Цепочек, а в четверг, 28 июля, - встреча-коворкинг по статьям по безопасности ИИ.
Чтобы принять участие во встречах и получить ссылку, нужно зарегистрироваться.
1. Встреча во вторник, посвящённая Цепочкам: https://kocherga-club.ru/events/x7h7olrwy5h33gdjuapgzuvg4q
2. Встреча в четверг, посвящённая безопасности ИИ: https://kocherga-club.ru/events/txaz7vcvhbedtnsm5etyihn2c4
Вероятно, встречи будут проходить по этим дням и дальше, но лучше следить за расписанием на сайте Кочерги (https://kocherga-club.ru/events ) или в чатах, посвящённым этим встречам (указаны по ссылкам выше).
По понедельникам на онлайн-встречах, посвящённой обсуждению статей про безопасность ИИ, уже разговаривают о достаточно сложных статьях, которые может быть сложно понять сразу. Да и для полноценного обсуждения книги "Рациональность: от ИИ до Зомби" по воскресеньям лучше знакомиться с материалом заранее.
Поэтому в расписание добавились встречи-коворкинги. На этой неделе во вторник, 26 июля, будет встреча-коворкинг по чтению Цепочек, а в четверг, 28 июля, - встреча-коворкинг по статьям по безопасности ИИ.
Чтобы принять участие во встречах и получить ссылку, нужно зарегистрироваться.
1. Встреча во вторник, посвящённая Цепочкам: https://kocherga-club.ru/events/x7h7olrwy5h33gdjuapgzuvg4q
2. Встреча в четверг, посвящённая безопасности ИИ: https://kocherga-club.ru/events/txaz7vcvhbedtnsm5etyihn2c4
Вероятно, встречи будут проходить по этим дням и дальше, но лучше следить за расписанием на сайте Кочерги (https://kocherga-club.ru/events ) или в чатах, посвящённым этим встречам (указаны по ссылкам выше).
#встречи #онлайн
В понедельник, 1 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Встреча посвящена разбору вопросов второй недели. Если останется время, то обсудим современное понимание концепций, которые ввел Бостром, в изложении Ричарда Нго:
Distinguishing claims about training vs deployment (Ngo, 2021)
Вопросы:
Christiano (2018) defined alignment as follows: “an AI A is aligned with an operator H if A is trying to do what H wants it to do”. Some questions about this:
What’s the most natural way to interpret “what the human wants” - what they say, or what they think, or what they would think if they thought about it for much longer?
How should we define an AI being aligned to a group of humans, rather than an individual?
Does it make sense to talk about corporations and countries having goals? Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
By some definitions, a chess AI has the goal of winning. When is it useful to describe it that way? What are the key differences between human goals and the “goals” of a chess AI?
The same questions, but for corporations and countries instead of chess AIs. Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
To what extent are humans inner misaligned with respect to evolution? How can you tell, and what might similar indicators look like in AGIs?
Did Bostrom miss any important convergent instrumental goals? (His current list: self-preservation, goal-content integrity, cognitive enhancement, technological perfection, resource acquisition.) One way of thinking about this might be to consider which goals humans regularly pursue and why.
Suppose that we want to build a highly intelligent AGI that is myopic, in the sense that it only cares about what happens over the next day or week. Would such an agent still have convergent instrumental goals? What factors might make it easier or harder to train a myopic AGI than a non-myopic AGI?
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
В понедельник, 1 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Встреча посвящена разбору вопросов второй недели. Если останется время, то обсудим современное понимание концепций, которые ввел Бостром, в изложении Ричарда Нго:
Distinguishing claims about training vs deployment (Ngo, 2021)
Вопросы:
Christiano (2018) defined alignment as follows: “an AI A is aligned with an operator H if A is trying to do what H wants it to do”. Some questions about this:
What’s the most natural way to interpret “what the human wants” - what they say, or what they think, or what they would think if they thought about it for much longer?
How should we define an AI being aligned to a group of humans, rather than an individual?
Does it make sense to talk about corporations and countries having goals? Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
By some definitions, a chess AI has the goal of winning. When is it useful to describe it that way? What are the key differences between human goals and the “goals” of a chess AI?
The same questions, but for corporations and countries instead of chess AIs. Does it matter that these consist of many different people, or can we treat them as agents with goals in a similar way to individual humans?
To what extent are humans inner misaligned with respect to evolution? How can you tell, and what might similar indicators look like in AGIs?
Did Bostrom miss any important convergent instrumental goals? (His current list: self-preservation, goal-content integrity, cognitive enhancement, technological perfection, resource acquisition.) One way of thinking about this might be to consider which goals humans regularly pursue and why.
Suppose that we want to build a highly intelligent AGI that is myopic, in the sense that it only cares about what happens over the next day or week. Would such an agent still have convergent instrumental goals? What factors might make it easier or harder to train a myopic AGI than a non-myopic AGI?
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
www.alignmentforum.org
Distinguishing claims about training vs deployment - AI Alignment Forum
Given the rapid progress in machine learning over the last decade in particular, I think that the core arguments about why AGI might be dangerous should be formulated primarily in terms of concepts f…
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Завтра, в воскресенье, 31 июля, мы продолжим обсуждать цепочку "Замечая замешательство". Поговорим про следующие эссе:
- Самоуверенность Эйнштейна;
- Бритва Оккама;
- Сила рационалиста;
- Отсутствие свидетельств — свидетельство отсутствия.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/k62mpssboffx3gnlx5gqc2ubju
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Завтра, в воскресенье, 31 июля, мы продолжим обсуждать цепочку "Замечая замешательство". Поговорим про следующие эссе:
- Самоуверенность Эйнштейна;
- Бритва Оккама;
- Сила рационалиста;
- Отсутствие свидетельств — свидетельство отсутствия.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/k62mpssboffx3gnlx5gqc2ubju
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Немного запоздавшие новости с lesswrong.com
1. Основной для движения и сайта Lesswrong стали "Цепочки" Элиезера Юдковского. Однако Юдковский написал довольно много. Этим летом организаторы сайта выбрали самое важное из Цепочек и оформили результат отдельной страницей: Highlights From the Sequences. Отмечу, что в выбранные попали не только эссе из "Рациональности: от ИИ до Зомби", но и более поздние.
2. Отдельной цепочкой выкладывается "CFAR Handbook" - книга с краткой информацией о различных техниках, которая выдавалась на воркшопах CFAR всем участникам. Саму книгу уже давно можно было скачать с сайта CFAR. Однако теперь какие-нибудь подробности можно уточнить ещё и в комментариях других людей.
1. Основной для движения и сайта Lesswrong стали "Цепочки" Элиезера Юдковского. Однако Юдковский написал довольно много. Этим летом организаторы сайта выбрали самое важное из Цепочек и оформили результат отдельной страницей: Highlights From the Sequences. Отмечу, что в выбранные попали не только эссе из "Рациональности: от ИИ до Зомби", но и более поздние.
2. Отдельной цепочкой выкладывается "CFAR Handbook" - книга с краткой информацией о различных техниках, которая выдавалась на воркшопах CFAR всем участникам. Саму книгу уже давно можно было скачать с сайта CFAR. Однако теперь какие-нибудь подробности можно уточнить ещё и в комментариях других людей.
#встречи #онлайн
В понедельник, 8 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Как именно может развиваться сценарий «ИИ стал экзистенциальной угрозой»? Как можно парировать такие типы угроз?
На этой встрече начинаем разбирать материалы третьей недели Кембриджского курса: модели угроз и типы решений.
1. What failure looks like (Christiano, 2019)
2. Intelligence explosion: evidence and import (Muehlhauser and Salamon, 2012) (only pages 10-15)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
В понедельник, 8 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Как именно может развиваться сценарий «ИИ стал экзистенциальной угрозой»? Как можно парировать такие типы угроз?
На этой встрече начинаем разбирать материалы третьей недели Кембриджского курса: модели угроз и типы решений.
1. What failure looks like (Christiano, 2019)
2. Intelligence explosion: evidence and import (Muehlhauser and Salamon, 2012) (only pages 10-15)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
www.alignmentforum.org
What failure looks like — AI Alignment Forum
Paul Christiano paints a vivid and disturbing picture of how AI could go wrong, not with sudden violent takeover, but through a gradual loss of human…
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 7 августа, мы заканчиваем обсуждать цепочку "Замечая замешательство". Поговорим про следующие эссе:
- Закон сохранения ожидаемых свидетельств;
- Знание задним числом обесценивает науку;
- Иллюзия прозрачности: почему вас не понимают;
- Ожидая короткие понятийные расстояния.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/dwjdb7poybbs7ibp3wfdhvinyq
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 7 августа, мы заканчиваем обсуждать цепочку "Замечая замешательство". Поговорим про следующие эссе:
- Закон сохранения ожидаемых свидетельств;
- Знание задним числом обесценивает науку;
- Иллюзия прозрачности: почему вас не понимают;
- Ожидая короткие понятийные расстояния.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/dwjdb7poybbs7ibp3wfdhvinyq
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#видео
Сообщество Vert Dider перевело и озвучило первое видео из серии роликов Роба Майлза о проблеме согласования искусственного интеллекта.
https://youtu.be/SVLl-b6oLVs
Сообщество Vert Dider перевело и озвучило первое видео из серии роликов Роба Майлза о проблеме согласования искусственного интеллекта.
https://youtu.be/SVLl-b6oLVs
YouTube
Нежелательные побочные эффекты. Как создать безопасный ИИ? #1 [Robert Miles]
Если вы в России: https://boosty.to/vertdider
Если вы не в России: https://www.patreon.com/VertDider
Искусственный интеллект может создать кучу проблем, и лишь недавно мы всерьез задумались о том, как этого избежать. Восстание машин и истребление всего человечества…
Если вы не в России: https://www.patreon.com/VertDider
Искусственный интеллект может создать кучу проблем, и лишь недавно мы всерьез задумались о том, как этого избежать. Восстание машин и истребление всего человечества…
#скотт_александер
Перевод художественного рассказа Скотта Александера "Отсортировать по противоречивости": https://habr.com/ru/post/519360/
Перевод был сделан почти два года назад, но поскольку я не встречал упоминаний о нём раньше, я решил, что имеет смысл о нём рассказать.
Перевод художественного рассказа Скотта Александера "Отсортировать по противоречивости": https://habr.com/ru/post/519360/
Перевод был сделан почти два года назад, но поскольку я не встречал упоминаний о нём раньше, я решил, что имеет смысл о нём рассказать.
Хабр
Отсортировать по противоречивости
Привет, Хабр! Представляю вашему вниманию перевод рассказа «Sort by Controversial» . От переводчика: 22 июля автор Slate Star Codex, известный рационалист Scott Alexander в попытке избежать...
#встречи #онлайн
В понедельник, 15 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Как формируется риск того, что ИИ «стремится обмануть человека»? Какие проблемы решаются в области согласования ИИ?
На этой неделе дадим краткий обзор открытых вопросов в алайнменте и продолжим знакомство с материалами третьей недели Кембриджского курса:
1. Risks from Learned Optimisation: Deceptive alignment (Hubinger et al., 2019)
2. ML systems will have weird failure modes (Steinhardt, 2022)
3. AI alignment landscape (Christiano, 2020)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
При этом сегодня, 12 августа, состоится встреча-коворкинг для подготовки к основной встрече в понедельник. Начало в 14:00 по московскому времени (UTC+3). Для получения ссылки на встречу в Zoom'е, нужно зарегистрироваться: https://kocherga-club.ru/events/sx64mnngt5cepesn57rky5inpy
В понедельник, 15 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Как формируется риск того, что ИИ «стремится обмануть человека»? Какие проблемы решаются в области согласования ИИ?
На этой неделе дадим краткий обзор открытых вопросов в алайнменте и продолжим знакомство с материалами третьей недели Кембриджского курса:
1. Risks from Learned Optimisation: Deceptive alignment (Hubinger et al., 2019)
2. ML systems will have weird failure modes (Steinhardt, 2022)
3. AI alignment landscape (Christiano, 2020)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
При этом сегодня, 12 августа, состоится встреча-коворкинг для подготовки к основной встрече в понедельник. Начало в 14:00 по московскому времени (UTC+3). Для получения ссылки на встречу в Zoom'е, нужно зарегистрироваться: https://kocherga-club.ru/events/sx64mnngt5cepesn57rky5inpy
www.alignmentforum.org
Deceptive Alignment - AI Alignment Forum
This is the fourth of five posts in the Risks from Learned Optimization Sequence based on the paper “Risks from Learned Optimization in Advanced Machine Learning Systems” by Evan Hubinger, Chris van…
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Завтра, 14 августа, мы начинаем читать цепочку «Загадочные ответы». Поговорим про следующие эссе:
- Лжеобъяснения;
- Угадай слово, задуманное учителем;
- Наука как одеяние;
- Лжепричинность.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/pa5su5fkkbhzpnfrjn5dd6lbh4
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Завтра, 14 августа, мы начинаем читать цепочку «Загадочные ответы». Поговорим про следующие эссе:
- Лжеобъяснения;
- Угадай слово, задуманное учителем;
- Наука как одеяние;
- Лжепричинность.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/pa5su5fkkbhzpnfrjn5dd6lbh4
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#встречи #онлайн
В понедельник, 22 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой неделе будем разбирать упражнения 3 недели "Модели угроз и типы решений":
1. What are the biggest vulnerabilities in human civilisation that might be exploited by misaligned AGIs? To what extent do they depend on the development of other technologies more powerful than those which exist today?
2. Does the distinction between “paying the alignment tax” and “reducing the alignment tax” make sense to you? Give a concrete example of each case. Are there activities which fall into both of these categories, or are ambiguous between them?
3. Most of the readings so far have been framed in the current paradigm of deep learning. Is this reasonable? To what extent are they undermined by the possibility of future paradigm shifts in AI?
Дополнительно:
1. The possibility of deceptive alignment, as discussed by Steinhardt (2022), is an example of goal misgeneralization where a policy learns a goal that generalizes beyond the bounds of any given training episode. What factors might make this type of misgeneralization likely or unlikely?
2. Christiano’s “influence-seeking systems” threat model in What Failure Looks Like is in some ways analogous to profit-seeking companies. What are the most important mechanisms preventing companies from catastrophic misbehavior? Which of those would and wouldn’t apply to influence-seeking AIs?
3. Ask the OpenAI API what steps it would perform to achieve some large-scale goal. Then recursively ask it how it’d perform each of those steps, until it reaches a point where its answers don’t make sense. What’s the hardest task you can find for which the API can not only generate a plan, but also perform each of the steps in that plan?
4. What are the individual tasks involved in machine learning research (or some other type of research important for technological progress)? Identify the parts of the process which have already been automated, the parts of the process which seem like they could plausibly soon be automated, and the parts of the process which seem hardest to automate.
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
В понедельник, 22 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой неделе будем разбирать упражнения 3 недели "Модели угроз и типы решений":
1. What are the biggest vulnerabilities in human civilisation that might be exploited by misaligned AGIs? To what extent do they depend on the development of other technologies more powerful than those which exist today?
2. Does the distinction between “paying the alignment tax” and “reducing the alignment tax” make sense to you? Give a concrete example of each case. Are there activities which fall into both of these categories, or are ambiguous between them?
3. Most of the readings so far have been framed in the current paradigm of deep learning. Is this reasonable? To what extent are they undermined by the possibility of future paradigm shifts in AI?
Дополнительно:
1. The possibility of deceptive alignment, as discussed by Steinhardt (2022), is an example of goal misgeneralization where a policy learns a goal that generalizes beyond the bounds of any given training episode. What factors might make this type of misgeneralization likely or unlikely?
2. Christiano’s “influence-seeking systems” threat model in What Failure Looks Like is in some ways analogous to profit-seeking companies. What are the most important mechanisms preventing companies from catastrophic misbehavior? Which of those would and wouldn’t apply to influence-seeking AIs?
3. Ask the OpenAI API what steps it would perform to achieve some large-scale goal. Then recursively ask it how it’d perform each of those steps, until it reaches a point where its answers don’t make sense. What’s the hardest task you can find for which the API can not only generate a plan, but also perform each of the steps in that plan?
4. What are the individual tasks involved in machine learning research (or some other type of research important for technological progress)? Identify the parts of the process which have already been automated, the parts of the process which seem like they could plausibly soon be automated, and the parts of the process which seem hardest to automate.
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 21 августа, мы продолжим читать цепочку «Загадочные ответы». Поговорим про следующие эссе:
- Семантические стоп-сигналы;
- Таинственные ответы на таинственные вопросы;
- Тщетность эмерджентности;
- Скажи нет «сложности».
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/salfb5756bfb3ddmq5zo6s34g4
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 21 августа, мы продолжим читать цепочку «Загадочные ответы». Поговорим про следующие эссе:
- Семантические стоп-сигналы;
- Таинственные ответы на таинственные вопросы;
- Тщетность эмерджентности;
- Скажи нет «сложности».
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/salfb5756bfb3ddmq5zo6s34g4
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#в_мире #эффективный_альтруизм
В этом месяце известнейшие журналы "Time" и "New Yorker" выпустили огромные статьи, посвящённые эффективному альтруизму:
1. "Want to do more good? This movement might have the answer"
2. "The reluctant prophet of Effective Altruism"
Это связано с выходом новой книги Уильяма Макаскилла "What We Owe the Future".
Более подробно про эффективный альтруизм можно почитать в "The Effective Altruism Handbook". Некоторое количество материалов есть на русскоязычном сайте .
В этом месяце известнейшие журналы "Time" и "New Yorker" выпустили огромные статьи, посвящённые эффективному альтруизму:
1. "Want to do more good? This movement might have the answer"
2. "The reluctant prophet of Effective Altruism"
Это связано с выходом новой книги Уильяма Макаскилла "What We Owe the Future".
Более подробно про эффективный альтруизм можно почитать в "The Effective Altruism Handbook". Некоторое количество материалов есть на русскоязычном сайте .
#статьи_участников
"Бывают ли у вас ситуации, когда вы понимаете, что трех дней на подготовку к экзаменам вам никогда не хватало, но вы все равно пытаетесь уложиться? Или когда вы сомневаетесь, что пройдете этот онлайн-курс, но считаете, что нужно хотя бы попробовать? Или когда уверены, что ваш пятый подряд абонемент в спортзал будет лежать без дела, как и все предыдущие, но желание похудеть к лету склоняет вас все-таки попытаться?
Иными словами, бывало ли у вас такое, что вы заранее понимаете (получая четкие сигналы от своего внутреннего симулятора), что ваш план почти наверняка полетит к чертям, но за неимением лучшего вы все равно пытаетесь его реализовать (но, ожидаемо, ничего из этого не выходит)?
У меня бывало многократно, но совсем недавно я выделил это для себя как отдельный класс проблем и нашел хороший подход к его решению (ну или если точнее - я сначала подобрал решение к одной проблеме такого рода, а затем смог обобщить его на более широкий класс задач)".
https://telegra.ph/Ne-derzhites-za-plohoj-plan-08-23
"Бывают ли у вас ситуации, когда вы понимаете, что трех дней на подготовку к экзаменам вам никогда не хватало, но вы все равно пытаетесь уложиться? Или когда вы сомневаетесь, что пройдете этот онлайн-курс, но считаете, что нужно хотя бы попробовать? Или когда уверены, что ваш пятый подряд абонемент в спортзал будет лежать без дела, как и все предыдущие, но желание похудеть к лету склоняет вас все-таки попытаться?
Иными словами, бывало ли у вас такое, что вы заранее понимаете (получая четкие сигналы от своего внутреннего симулятора), что ваш план почти наверняка полетит к чертям, но за неимением лучшего вы все равно пытаетесь его реализовать (но, ожидаемо, ничего из этого не выходит)?
У меня бывало многократно, но совсем недавно я выделил это для себя как отдельный класс проблем и нашел хороший подход к его решению (ну или если точнее - я сначала подобрал решение к одной проблеме такого рода, а затем смог обобщить его на более широкий класс задач)".
https://telegra.ph/Ne-derzhites-za-plohoj-plan-08-23
Telegraph
Не держитесь за плохой план
Бывают ли у вас ситуации, когда вы понимаете, что трех дней на подготовку к экзаменам вам никогда не хватало, но вы все равно пытаетесь уложиться? Или когда вы сомневаетесь, что пройдете этот онлайн-курс, но считаете, что нужно хотя бы попробовать? Или когда…
#встречи #онлайн
В понедельник, 29 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Приступаем к изучению материалов 4-ой недели "Learning from humans".
На этой неделе мы рассмотрим методы обучения ИИ на основе человеческих данных (training AIs on human data), которые относятся к категории обучения с учителем.
Пол Кристиано и Амстронг утверждают, что определение человеческих ценностей, вероятно, является достаточно сложной проблемой, и обсуждаемых до сих пор методов будет недостаточно для ее надежного решения.
1. Imitation learning lecture: part 1 (Levine, 2021a)
2. The easy goal inference problem is still hard (Christiano, 2015)
3. Humans can be assigned any values whatsoever (Armstrong, 2018)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
В понедельник, 29 августа, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Приступаем к изучению материалов 4-ой недели "Learning from humans".
На этой неделе мы рассмотрим методы обучения ИИ на основе человеческих данных (training AIs on human data), которые относятся к категории обучения с учителем.
Пол Кристиано и Амстронг утверждают, что определение человеческих ценностей, вероятно, является достаточно сложной проблемой, и обсуждаемых до сих пор методов будет недостаточно для ее надежного решения.
1. Imitation learning lecture: part 1 (Levine, 2021a)
2. The easy goal inference problem is still hard (Christiano, 2015)
3. Humans can be assigned any values whatsoever (Armstrong, 2018)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 28 августа, мы продолжим читать цепочку «Загадочные ответы». Поговорим про следующие эссе:
- Подтверждающее искажение: взгляд во тьму;
- Закономерная неопределённость;
- Моя дикая и безбашенная юность;
- Неспособность учиться у истории;
- Делая историю доступной.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/7ssfenwwijfpfc4pvwx6jmtcxe
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
Сегодня, 28 августа, мы продолжим читать цепочку «Загадочные ответы». Поговорим про следующие эссе:
- Подтверждающее искажение: взгляд во тьму;
- Закономерная неопределённость;
- Моя дикая и безбашенная юность;
- Неспособность учиться у истории;
- Делая историю доступной.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/7ssfenwwijfpfc4pvwx6jmtcxe
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Forwarded from Slava Meriton
9 июля прошёл праздник Летнего светского солнцестояния, в этом году он был посвящён перспективам создания искусственного интеллекта общего назначения.
Для тех, кто не смог посетить мероприятие, и тех, кто хотел бы вспомнить, как оно проходило, мы хотим поделиться материалами:
1️⃣ Здесь презентация с докладами, роликами и моментами, запечатлёнными во время тематической части Солнцестояния, а также ссылки на видео, музыку и стихи, которые мы использовали:
https://docs.google.com/presentation/d/1upBse4Sy4VMD4q9vd3ooCDppaZ6beIFQv7Iu9A4mpxM/edit?usp=sharing
Роб Майлз (ещё в 2021 году) по нашей просьбе записал видео для русскоязычных солнцестояний. Вот оно:
https://www.youtube.com/watch?v=7wlc7IhzHTY
2️⃣ А здесь материалы от спикеров со второй части:
https://docs.google.com/presentation/d/1BQo_8YA3t1M5ATXUbZ_CZ5X-1gOHvgGzYU6iXnRZg28/
3️⃣ Мы просим вас пройти опрос, чтобы мы могли узнать, что вам понравилось, а что нет, что мы можем поправить и о чём нам стоит подумать:
https://docs.google.com/forms/d/1djkSDuOuHWNBitbj8nYB5Scw-KQfAlXKRD3tLabTrpg/viewform?edit_requested=true
Ваш отзыв поможет команде, которая организовывала это Солнцестояние, вырасти над собой и делать следующие проекты лучше. Мы - Минимизаторы скрепок, и мы не планируем останавливаться на достигнутом.
Например, в этом году мы планируем провести тематическую игру Аумана о согласии, посвящённую когнитивным искажениям. А ещё мы работаем над:
● курсом практических занятий по рациональности,
● вычиткой статьи “Embedded agency” для размещения её на Хабре,
● организацией Дня Х-рисков 2022,
● разработкой веб-приложения для игр Аумана,
● организацией Дня Петрова.
Чтобы реализовать эти проекты в разумные сроки, нам бы весьма не помешала ваша помощь! Если хотите стать частью команды, то присоединяйтесь в орг-чат.
Для тех, кто не смог посетить мероприятие, и тех, кто хотел бы вспомнить, как оно проходило, мы хотим поделиться материалами:
1️⃣ Здесь презентация с докладами, роликами и моментами, запечатлёнными во время тематической части Солнцестояния, а также ссылки на видео, музыку и стихи, которые мы использовали:
https://docs.google.com/presentation/d/1upBse4Sy4VMD4q9vd3ooCDppaZ6beIFQv7Iu9A4mpxM/edit?usp=sharing
Роб Майлз (ещё в 2021 году) по нашей просьбе записал видео для русскоязычных солнцестояний. Вот оно:
https://www.youtube.com/watch?v=7wlc7IhzHTY
2️⃣ А здесь материалы от спикеров со второй части:
https://docs.google.com/presentation/d/1BQo_8YA3t1M5ATXUbZ_CZ5X-1gOHvgGzYU6iXnRZg28/
3️⃣ Мы просим вас пройти опрос, чтобы мы могли узнать, что вам понравилось, а что нет, что мы можем поправить и о чём нам стоит подумать:
https://docs.google.com/forms/d/1djkSDuOuHWNBitbj8nYB5Scw-KQfAlXKRD3tLabTrpg/viewform?edit_requested=true
Ваш отзыв поможет команде, которая организовывала это Солнцестояние, вырасти над собой и делать следующие проекты лучше. Мы - Минимизаторы скрепок, и мы не планируем останавливаться на достигнутом.
Например, в этом году мы планируем провести тематическую игру Аумана о согласии, посвящённую когнитивным искажениям. А ещё мы работаем над:
● курсом практических занятий по рациональности,
● вычиткой статьи “Embedded agency” для размещения её на Хабре,
● организацией Дня Х-рисков 2022,
● разработкой веб-приложения для игр Аумана,
● организацией Дня Петрова.
Чтобы реализовать эти проекты в разумные сроки, нам бы весьма не помешала ваша помощь! Если хотите стать частью команды, то присоединяйтесь в орг-чат.
#встречи #онлайн
В понедельник, 5 сентября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Продолжаем изучение материалов 4-ой недели "Learning from humans".
На этой неделе мы рассмотрим методы обучения ИИ на основе человеческих данных (training AIs on human data), которые относятся к категории обучения с учителем.
На этой неделе предлагается прочитать все четыре из следующих сообщений в блоге, а также полный текст статьи о том, что вам показалось наиболее интересным (если вы не определились, по умолчанию используйте статью номер 3):
1. Deep RL from human preferences: blog post (Christiano et al., 2017)
2. Aligning language models to follow instructions: blog post (Ouyang et al,, 2022)
3. AI-written critiques help humans notice flaws: blog post (Saunders et al., 2022)
4. Red-teaming language models with language models (Perez et al., 2022)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
В понедельник, 5 сентября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Продолжаем изучение материалов 4-ой недели "Learning from humans".
На этой неделе мы рассмотрим методы обучения ИИ на основе человеческих данных (training AIs on human data), которые относятся к категории обучения с учителем.
На этой неделе предлагается прочитать все четыре из следующих сообщений в блоге, а также полный текст статьи о том, что вам показалось наиболее интересным (если вы не определились, по умолчанию используйте статью номер 3):
1. Deep RL from human preferences: blog post (Christiano et al., 2017)
2. Aligning language models to follow instructions: blog post (Ouyang et al,, 2022)
3. AI-written critiques help humans notice flaws: blog post (Saunders et al., 2022)
4. Red-teaming language models with language models (Perez et al., 2022)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events