#встречи #онлайн
26 сентября 1983 года дежурный офицер Станислав Петров увидел оповещение системы наблюдения о ядерных ракетах, выпущенных США в направлении территории СССР.
Он пришел к выводу, что система ошиблась, и не стал нажимать кнопку тревоги, которая могла бы привести к ответному пуску и ядерной войне.
26 сентября поэтому отмечают как Петров день (Petrov day) — празднуя день, в который человечество избежало ядерной войны.
1 октября 2022 года (в 17:00 по МСК) мы почтим память этого человека. Человека, который сыграл ключевую роль в предотвращении ядерной атаки во время инцидента 26 сентября 1983 года.
Это будет интерактивный рассказ о тех моментах, когда история человечества могла закончиться, и том, ради чего мы хотим, чтобы она продолжалась.
В программе:
- тематические видео,
- рацио-мемы и интерактив,
- обсуждение экспериментов на людях,
- практика неуничтожения мира,
... а ещё, представители групп, встреч и клубов из области рациональности, алаймента и здравого смысла, придут и расскажут о себе и сообществах, к которым вы можете присоединиться.
подробнее о мероприятии здесь: https://docs.google.com/document/d/1m9Fj_eFdWDmYXNx4VKJn4esOsCcZBNkG98-v5cTMJt8/edit?usp=sharing
Мероприятие проводится онлайн, специальных знаний не требуется, участие бесплатное. Для регистрации добавьтесь в этот чат в ТГ (там появится ссылка на zoom с мероприятием): https://t.me/+r6iI_kwitc0yNzli
Увидимся 1 октября. Давайте объединяться.
26 сентября 1983 года дежурный офицер Станислав Петров увидел оповещение системы наблюдения о ядерных ракетах, выпущенных США в направлении территории СССР.
Он пришел к выводу, что система ошиблась, и не стал нажимать кнопку тревоги, которая могла бы привести к ответному пуску и ядерной войне.
26 сентября поэтому отмечают как Петров день (Petrov day) — празднуя день, в который человечество избежало ядерной войны.
1 октября 2022 года (в 17:00 по МСК) мы почтим память этого человека. Человека, который сыграл ключевую роль в предотвращении ядерной атаки во время инцидента 26 сентября 1983 года.
Это будет интерактивный рассказ о тех моментах, когда история человечества могла закончиться, и том, ради чего мы хотим, чтобы она продолжалась.
В программе:
- тематические видео,
- рацио-мемы и интерактив,
- обсуждение экспериментов на людях,
- практика неуничтожения мира,
... а ещё, представители групп, встреч и клубов из области рациональности, алаймента и здравого смысла, придут и расскажут о себе и сообществах, к которым вы можете присоединиться.
подробнее о мероприятии здесь: https://docs.google.com/document/d/1m9Fj_eFdWDmYXNx4VKJn4esOsCcZBNkG98-v5cTMJt8/edit?usp=sharing
Мероприятие проводится онлайн, специальных знаний не требуется, участие бесплатное. Для регистрации добавьтесь в этот чат в ТГ (там появится ссылка на zoom с мероприятием): https://t.me/+r6iI_kwitc0yNzli
Увидимся 1 октября. Давайте объединяться.
Google Docs
День Петрова 2022
День Петрова 2022 26 сентября Lesswrong сообщество отмечает день памяти Станислава Петрова. Мы решили перенести мероприятие с понедельника на субботу, чтобы больше людей смогло его посетить. О чём: В 1983 году история человечества могла закончиться или…
В ближайшее время стартует марафон по совместному освоению материалов "CFAR Handbook" - методички, написанной для воркшопов Центра прикладной рациональности из Калифорнии.
Марафон организует Мартын. Пару лет назад он уже организовывал похожий марафон по "Времени молотков".
Марафон будет проводиться в чате в телеграме. Основная информация собрана по ссылке: https://t.me/hammers_of_time/17
Марафон организует Мартын. Пару лет назад он уже организовывал похожий марафон по "Времени молотков".
Марафон будет проводиться в чате в телеграме. Основная информация собрана по ссылке: https://t.me/hammers_of_time/17
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 2 октября, мы заканчиваем обсуждать цепочку "Чрезвычайно удобные оправдания" и переходим к цепочке "Политика и рациональность". Поговорим про следующие эссе:
- 0 и 1 не являются вероятностями;
- Твоя рациональность — моё дело;
- Политика — убийца разума;
- Не делайте политические споры однобокими.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/qn5hfhqq3nhyxho5g2piq2ywti
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 2 октября, мы заканчиваем обсуждать цепочку "Чрезвычайно удобные оправдания" и переходим к цепочке "Политика и рациональность". Поговорим про следующие эссе:
- 0 и 1 не являются вероятностями;
- Твоя рациональность — моё дело;
- Политика — убийца разума;
- Не делайте политические споры однобокими.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/qn5hfhqq3nhyxho5g2piq2ywti
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#встречи #онлайн
В понедельник, 3 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Завершаем изучение материалов 5-ой недели "Decomposing tasks for outer alignment". На этой встрече будем разбирать упражнения и вопросы:
Discussion prompts:
1. Wu et al. (2021) use a combination of behavioral cloning and reinforcement learning to train a summarization model; this combination was also used to train AlphaGo and AlphaStar. What are the advantages of this approach over using either technique by itself?
2. Different types of iterated amplification can use different techniques for learning from the amplified training signal. One type, imitative amplification, uses behavioral cloning; we could also use supervised learning or reinforcement learning. How should we expect these to differ?
3. Debate is limited to training agents to answer questions correctly. How important do you expect this limitation to be for training economically competitive agents?
Exercises:
1. Identify another mechanism which could be added to the debate protocol and might improve its performance. (It may be helpful to think about ways in which AI debaters are disanalogous to humans.)
2. Think of a complex question which you know a lot about. How would you argue for the dishonest side if doing a debate on that question? How would you rebut that line of argument if you were the honest debater?
3. A complex task like running a factory can be broken down into subtasks in a fairly straightforward way, allowing a large team of workers to perform much better than even an exceptionally talented individual. Describe a task where teams have much less of an advantage over the best individuals. Why doesn’t your task benefit as much from being broken down into subtasks? How might we change that?
4. Read Christiano’s posts on HCH from the further readings. Why might even an ideal implementation of HCH not be aligned? What assumptions could change that?
Notes:
1. During this week’s discussion session, try playing OpenAI’s implementation of the Debate game. The instructions on the linked page are fairly straightforward, and each game should be fairly quick. Note in particular the example GIF on the webpage, and the instructions that “the debaters should take turns, restrict themselves to short statements, and not talk too fast (otherwise, the honest player wins too easily).”
2. What makes AI Debate different from debates between humans? One crucial point is that in debates between humans, we prioritize the most important or impactful claims made - whereas any incorrect statement from an AI debater loses them the debate. This is a demanding standard (aimed at making debates between superhuman debaters easier to judge).
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
В понедельник, 3 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
Завершаем изучение материалов 5-ой недели "Decomposing tasks for outer alignment". На этой встрече будем разбирать упражнения и вопросы:
Discussion prompts:
1. Wu et al. (2021) use a combination of behavioral cloning and reinforcement learning to train a summarization model; this combination was also used to train AlphaGo and AlphaStar. What are the advantages of this approach over using either technique by itself?
2. Different types of iterated amplification can use different techniques for learning from the amplified training signal. One type, imitative amplification, uses behavioral cloning; we could also use supervised learning or reinforcement learning. How should we expect these to differ?
3. Debate is limited to training agents to answer questions correctly. How important do you expect this limitation to be for training economically competitive agents?
Exercises:
1. Identify another mechanism which could be added to the debate protocol and might improve its performance. (It may be helpful to think about ways in which AI debaters are disanalogous to humans.)
2. Think of a complex question which you know a lot about. How would you argue for the dishonest side if doing a debate on that question? How would you rebut that line of argument if you were the honest debater?
3. A complex task like running a factory can be broken down into subtasks in a fairly straightforward way, allowing a large team of workers to perform much better than even an exceptionally talented individual. Describe a task where teams have much less of an advantage over the best individuals. Why doesn’t your task benefit as much from being broken down into subtasks? How might we change that?
4. Read Christiano’s posts on HCH from the further readings. Why might even an ideal implementation of HCH not be aligned? What assumptions could change that?
Notes:
1. During this week’s discussion session, try playing OpenAI’s implementation of the Debate game. The instructions on the linked page are fairly straightforward, and each game should be fairly quick. Note in particular the example GIF on the webpage, and the instructions that “the debaters should take turns, restrict themselves to short statements, and not talk too fast (otherwise, the honest player wins too easily).”
2. What makes AI Debate different from debates between humans? One crucial point is that in debates between humans, we prioritize the most important or impactful claims made - whereas any incorrect statement from an AI debater loses them the debate. This is a demanding standard (aimed at making debates between superhuman debaters easier to judge).
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 9 октября, мы продолжим обсуждать цепочку "Политика и рациональность". Поговорим про следующие эссе:
- Весы правосудия, блокнот рациональности;
- Фундаментальная ошибка атрибуции;
- Злые ли ваши враги от природы?;
- Обратное глупости не есть ум.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/fdoryrfoefhs7ja3xfq5xmcdga
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 9 октября, мы продолжим обсуждать цепочку "Политика и рациональность". Поговорим про следующие эссе:
- Весы правосудия, блокнот рациональности;
- Фундаментальная ошибка атрибуции;
- Злые ли ваши враги от природы?;
- Обратное глупости не есть ум.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/fdoryrfoefhs7ja3xfq5xmcdga
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#встречи #онлайн
В понедельник, 10 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече начинаем изучать материалы 6-й недели Кембриджского курса по AI safety.
Наши нынешние методы обучения способных нейронных сетей дают нам очень мало представления о том, как и почему они функционируют. На 6 неделе курса мы рассмотрим область интерпретируемости, цель которой - изменить это путем разработки методов для понимания того, как мыслят нейронные сети.
Core readings:
• Feature visualization (Olah et al, 2017)
• Zoom In: an introduction to circuits (Olah et al., 2020)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
В понедельник, 10 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече начинаем изучать материалы 6-й недели Кембриджского курса по AI safety.
Наши нынешние методы обучения способных нейронных сетей дают нам очень мало представления о том, как и почему они функционируют. На 6 неделе курса мы рассмотрим область интерпретируемости, цель которой - изменить это путем разработки методов для понимания того, как мыслят нейронные сети.
Core readings:
• Feature visualization (Olah et al, 2017)
• Zoom In: an introduction to circuits (Olah et al., 2020)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 16 октября, мы продолжим обсуждать цепочку "Политика и рациональность". Поговорим про следующие эссе:
- Аргумент затмевает авторитет;
- Ухватить задачу;
- Рациональность и английский язык;
- Зло в людях и неясное мышление.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/jb54vpbdkjaqvb4zgbvhiebniu
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 16 октября, мы продолжим обсуждать цепочку "Политика и рациональность". Поговорим про следующие эссе:
- Аргумент затмевает авторитет;
- Ухватить задачу;
- Рациональность и английский язык;
- Зло в людях и неясное мышление.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/jb54vpbdkjaqvb4zgbvhiebniu
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#встречи #онлайн
В понедельник, 17 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече продолжаем изучать материалы 6-й недели.
Наши нынешние методы обучения способных нейронных сетей дают нам очень мало представления о том, как и почему они функционируют. На 6 неделе курса мы рассмотрим область интерпретируемости, цель которой - изменить это путем разработки методов для понимания того, как мыслят нейронные сети.
Материалы для чтения:
- Mechanistic interpretability, variables, and the importance of interpretable bases (Olah, 2022)
- Locating and Editing Factual Associations in GPT: blog post (Meng et al., 2022)
- Acquisition of chess knowledge in AlphaZero (McGrath et al., 2021) (only up to the end of section 2.1)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
В понедельник, 17 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече продолжаем изучать материалы 6-й недели.
Наши нынешние методы обучения способных нейронных сетей дают нам очень мало представления о том, как и почему они функционируют. На 6 неделе курса мы рассмотрим область интерпретируемости, цель которой - изменить это путем разработки методов для понимания того, как мыслят нейронные сети.
Материалы для чтения:
- Mechanistic interpretability, variables, and the importance of interpretable bases (Olah, 2022)
- Locating and Editing Factual Associations in GPT: blog post (Meng et al., 2022)
- Acquisition of chess knowledge in AlphaZero (McGrath et al., 2021) (only up to the end of section 2.1)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Forwarded from Эффективный альтруизм
Открыт прием заявок на виртуальную конференцию EAGxVirtual (21-23 октября)
Ежегодно сообщество эффективного альтруизма проводит конференции в Лондоне, Сан-Франциско и других городах, но отсутствие визы и другие причины часто мешают многим участникам посетить их. Конференция EAGxVirtual проходит онлайн и содержит все ключевые элементы больших конференций: воркшопы, доклады, интервью с экспертами из разных областей и возможность встретить участников сообщество со всего мира.
500 человек из более чем 60 стран уже подтвердили участие - подайте заявку до 19 октября включительно.
Целевая аудитория конференции - люди, уже знакомые с ключевыми идеями эффективного альтруизма. Например, через книги Уилла Макаскилла, Тоби Орда, курсы, или взаимодействие с локальными сообществами. Если вы узнали про ЭА совсем недавно, рекомендуем вместо конференции записаться на курс Introductory EA Program.
Основной язык конференции - английский. Участие бесплатно.
Если у вас есть вопросы про конференцию, их можно задать в нашем чате.
Ежегодно сообщество эффективного альтруизма проводит конференции в Лондоне, Сан-Франциско и других городах, но отсутствие визы и другие причины часто мешают многим участникам посетить их. Конференция EAGxVirtual проходит онлайн и содержит все ключевые элементы больших конференций: воркшопы, доклады, интервью с экспертами из разных областей и возможность встретить участников сообщество со всего мира.
500 человек из более чем 60 стран уже подтвердили участие - подайте заявку до 19 октября включительно.
Целевая аудитория конференции - люди, уже знакомые с ключевыми идеями эффективного альтруизма. Например, через книги Уилла Макаскилла, Тоби Орда, курсы, или взаимодействие с локальными сообществами. Если вы узнали про ЭА совсем недавно, рекомендуем вместо конференции записаться на курс Introductory EA Program.
Основной язык конференции - английский. Участие бесплатно.
Если у вас есть вопросы про конференцию, их можно задать в нашем чате.
www.effectivealtruism.org
EAGxVirtual 2022 | Effective Altruism
#встречи #онлайн
29 октября в 17:00 приходите на празднование рационального Хэллоуина aka День Х-игрек.
Это будет абсолютно несерьезное мероприятие, полное самоиронии на тему карго-культа популярных в рацио-сообществе математических теорем. Соберёмся, чтобы пошутить и посмеяться, на вечер отвлечься от всего происходящего, и зависнуть на гиковской анти-вечеринке.
Что в программе Дня Х-игрек:
- тематические игры,
- шутки, видео и мемы,
- Три Великих Теоремы,
- выступления, доклады,
- очень странные шарады,
- пранки в алгебре грибов,
- больше никаких стихов (обещаю).
Подробнее о мероприятии здесь:
https://docs.google.com/document/d/1-8_b6Bhr5zIqhWRs917FTzS4YKGHCxjXvRbyImp09CI/edit
Мероприятие проводится онлайн, участие бесплатное. Для регистрации добавьтесь в этот чат в ТГ (там появится ссылка на zoom с мероприятием): https://t.me/+r6iI_kwitc0yNzli
29 октября в 17:00 приходите на празднование рационального Хэллоуина aka День Х-игрек.
Это будет абсолютно несерьезное мероприятие, полное самоиронии на тему карго-культа популярных в рацио-сообществе математических теорем. Соберёмся, чтобы пошутить и посмеяться, на вечер отвлечься от всего происходящего, и зависнуть на гиковской анти-вечеринке.
Что в программе Дня Х-игрек:
- тематические игры,
- шутки, видео и мемы,
- Три Великих Теоремы,
- выступления, доклады,
- очень странные шарады,
- пранки в алгебре грибов,
- больше никаких стихов (обещаю).
Подробнее о мероприятии здесь:
https://docs.google.com/document/d/1-8_b6Bhr5zIqhWRs917FTzS4YKGHCxjXvRbyImp09CI/edit
Мероприятие проводится онлайн, участие бесплатное. Для регистрации добавьтесь в этот чат в ТГ (там появится ссылка на zoom с мероприятием): https://t.me/+r6iI_kwitc0yNzli
Google Docs
Рациональный Хэллоуин 2022
День Х-игрек (aka Рациональный Хэллоуин) Когда: 29 октября 2022 в 17:00 по МСК Где: онлайн в Zoom, участие бесплатное Кстати: в тексте куча ссылок, можете не читать их, и так всё ясно, просто присоединяйтесь к чату, там все будет написано. Эти ссылки…
Мартын - организатор марафона по методичке CFAR, про который я уже здесь писал - опубликовал статью о том, как он вообще устраивает марафоны.
https://vas3k.club/project/16793/
https://vas3k.club/project/16793/
#скотт_александер #переводы
Арина перевела эссе Скотта Александера "Effective Altruism As A Tower Of Assumptions", где тот отвечает на популярную критику в адрес эффективного альтруизма. С моей точки зрения, это эссе интересно не только для рассуждений об ЭА, но и как пример, как можно задуматься о том, насколько высказываемые нами аргументы действительно отражают причины, почему мы отказываемся что-то делать.
https://vk.com/@bogoedbotaet-effektivnyi-altruizm-kak-bashnya-predpolozhenii
Арина перевела эссе Скотта Александера "Effective Altruism As A Tower Of Assumptions", где тот отвечает на популярную критику в адрес эффективного альтруизма. С моей точки зрения, это эссе интересно не только для рассуждений об ЭА, но и как пример, как можно задуматься о том, насколько высказываемые нами аргументы действительно отражают причины, почему мы отказываемся что-то делать.
https://vk.com/@bogoedbotaet-effektivnyi-altruizm-kak-bashnya-predpolozhenii
#встречи #онлайн
В понедельник, 24 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече мы завершаем рассмотрение материалов 6 недели.
Discussion prompts:
1. Were you surprised by the results and claims in Zoom In? Do you believe the Circuits hypothesis? If true, what are its most important implications? How might it be false?
2. How compelling do you find the analogy to reverse engineering programs in Olah (2022)? What evidence would make the analogy more or less compelling?
Exercises:
1. Given sufficient progress in interpretability, we might be able to supervise not just an agents’ behavior but also its thoughts (i.e. its neural activations). One concern with such proposals is that if we train a network to avoid any particular cognitive trait, that cognition will instead just be distributed across the network in a way that we can’t detect. Describe a toy example of a cognitive trait that we can currently detect automatically. Design an experiment to determine whether, after training to remove that trait, the network has learned to implement an equivalent trait in a less-easily-detectable way.
2. Interpretability work on artificial neural networks is closely related to interpretability work on biological neural networks (aka brains). Describe two ways in which the former is easier than the latter, and two ways in which it’s harder.
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Обсуждение встреч проходит в телеграм-чате: https://t.me/readthesequences
В понедельник, 24 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече мы завершаем рассмотрение материалов 6 недели.
Discussion prompts:
1. Were you surprised by the results and claims in Zoom In? Do you believe the Circuits hypothesis? If true, what are its most important implications? How might it be false?
2. How compelling do you find the analogy to reverse engineering programs in Olah (2022)? What evidence would make the analogy more or less compelling?
Exercises:
1. Given sufficient progress in interpretability, we might be able to supervise not just an agents’ behavior but also its thoughts (i.e. its neural activations). One concern with such proposals is that if we train a network to avoid any particular cognitive trait, that cognition will instead just be distributed across the network in a way that we can’t detect. Describe a toy example of a cognitive trait that we can currently detect automatically. Design an experiment to determine whether, after training to remove that trait, the network has learned to implement an equivalent trait in a less-easily-detectable way.
2. Interpretability work on artificial neural networks is closely related to interpretability work on biological neural networks (aka brains). Describe two ways in which the former is easier than the latter, and two ways in which it’s harder.
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Обсуждение встреч проходит в телеграм-чате: https://t.me/readthesequences
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 23 октября, мы продолжим обсуждать цепочку "Политика и рациональность". По техническим обстоятельствам в прошлый раз обсуждения не было, поэтому программа остаётся той же:
- Аргумент затмевает авторитет;
- Ухватить задачу;
- Рациональность и английский язык;
- Зло в людях и неясное мышление.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/uebua7kshzeajpwzi3mojyf53q
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 23 октября, мы продолжим обсуждать цепочку "Политика и рациональность". По техническим обстоятельствам в прошлый раз обсуждения не было, поэтому программа остаётся той же:
- Аргумент затмевает авторитет;
- Ухватить задачу;
- Рациональность и английский язык;
- Зло в людях и неясное мышление.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/uebua7kshzeajpwzi3mojyf53q
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
#встречи #онлайн
В понедельник, 31 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече начинаем изучать материалы последней, 7-й недели Кембриджского курса по AI safety. Тема этой недели: Agent foundations, AI governance, and careers in alignment.
Материалы:
1. Embedded agents, part 1 (Demski and Garrabrant, 2018)
Перевод на русский: https://vk.com/doc35323791_640903562?hash=HBDP180zWslMoQzo5mRuK6t9JzcXFEBxptWUW7xrb5P
Видео с пересказом содержания на русском: https://www.youtube.com/watch?v=h51ZFFhNuaU
2а. Logical induction: blog post (Garrabrant et al., 2016)
ИЛИ
2b. Finite factored sets: talk transcript (Garrbarant, 2021) (only sections 2m: The Pearlian paradigm and 2t: We can do better)
ИЛИ
2с. Progress on causal influence diagrams: blog post (Everitt et al., 2021)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Обсуждение встреч проходит в телеграм-чате: https://t.me/readthesequences
В понедельник, 31 октября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече начинаем изучать материалы последней, 7-й недели Кембриджского курса по AI safety. Тема этой недели: Agent foundations, AI governance, and careers in alignment.
Материалы:
1. Embedded agents, part 1 (Demski and Garrabrant, 2018)
Перевод на русский: https://vk.com/doc35323791_640903562?hash=HBDP180zWslMoQzo5mRuK6t9JzcXFEBxptWUW7xrb5P
Видео с пересказом содержания на русском: https://www.youtube.com/watch?v=h51ZFFhNuaU
2а. Logical induction: blog post (Garrabrant et al., 2016)
ИЛИ
2b. Finite factored sets: talk transcript (Garrbarant, 2021) (only sections 2m: The Pearlian paradigm and 2t: We can do better)
ИЛИ
2с. Progress on causal influence diagrams: blog post (Everitt et al., 2021)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Обсуждение встреч проходит в телеграм-чате: https://t.me/readthesequences
#встречи #онлайн
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 30 октября, мы начинаем обсуждать цепочку "Против рационализации". Поговорим про следующие эссе:
- Знание искажений может вредить;
- Обновляй себя шаг за шагом;
- Один довод против армии;
- Нижняя строчка.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/vsvs3r7kfbgdtmkonww6chxzj4
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Продолжаем читать и обсуждать книгу Элиезера Юдковского "Рациональность: от ИИ до Зомби".
В воскресенье, 30 октября, мы начинаем обсуждать цепочку "Против рационализации". Поговорим про следующие эссе:
- Знание искажений может вредить;
- Обновляй себя шаг за шагом;
- Один довод против армии;
- Нижняя строчка.
Встреча пройдёт в онлайне, на платформе Zoom. Подробности и регистрация: https://kocherga-club.ru/events/vsvs3r7kfbgdtmkonww6chxzj4
Начало в 18:00 по московскому времени (UTC+3).
Присоединяйтесь поучаствовать или послушать.
Forwarded from Эффективный альтруизм
У русскоязычного сообщества эффективного альтруизма появился новый сайт!
https://ea-ru.org/
• Перенесены все материалы прошлого сайта, добавляются новые
• Сайт теперь адаптирован под мобильные устройства
• Добавлены актуальные ссылки на все социальные сети сообщества
• Появились разделы "Видео", "Книги"
Через сайт вы можете запросить бесплатную литературу по ЭА и найти ссылки на зарубежные источники, ещё не адаптированные для русскоязычной аудитории.
Заходите, смотрите, комментируйте, предлагайте! ❤️
https://ea-ru.org/
• Перенесены все материалы прошлого сайта, добавляются новые
• Сайт теперь адаптирован под мобильные устройства
• Добавлены актуальные ссылки на все социальные сети сообщества
• Появились разделы "Видео", "Книги"
Через сайт вы можете запросить бесплатную литературу по ЭА и найти ссылки на зарубежные источники, ещё не адаптированные для русскоязычной аудитории.
Заходите, смотрите, комментируйте, предлагайте! ❤️
ea-ru.org
Эффективный альтруизм
Эффективный альтруизм на русском
#встречи #в_мире
В этом году многие читатели этой группы уехали в разные страны. Однако встречи LW и ЭА проводятся во многих странах и теперь иногда их помогают организовывать люди, которые раньше организовывали встречи в России.
В частности, в Белграде недавно запустились регулярные встречи LW/EA/ACX. Ближайшая будет 6 ноября. Подробности: https://www.lesswrong.com/events/XKrqMjeoyKePtEmMp/ea-acx-lw-belgrade-november-meet-up
Чтобы получать информацию о дальнейших встречах в Сербии, подписывайтесь на тамошнюю локальную группу: https://www.lesswrong.com/groups/xjkZ4uHHaKitGBni5
Встречи в Белграде проходят на английском языке.
В этом году многие читатели этой группы уехали в разные страны. Однако встречи LW и ЭА проводятся во многих странах и теперь иногда их помогают организовывать люди, которые раньше организовывали встречи в России.
В частности, в Белграде недавно запустились регулярные встречи LW/EA/ACX. Ближайшая будет 6 ноября. Подробности: https://www.lesswrong.com/events/XKrqMjeoyKePtEmMp/ea-acx-lw-belgrade-november-meet-up
Чтобы получать информацию о дальнейших встречах в Сербии, подписывайтесь на тамошнюю локальную группу: https://www.lesswrong.com/groups/xjkZ4uHHaKitGBni5
Встречи в Белграде проходят на английском языке.
Lesswrong
EA/ACX/LW Belgrade November Meet-up — LessWrong
Hello everyone! • We are excited to announce that the 2nd EA Serbia event will be happening on the 6th of November, at 14:30! We will meet again in B…
Forwarded from Небольшой список имени Байеса
#математика #теорема_Ауманна
По мотивам прошедшего вчера праздника трешовой математики (под названием "День X-игрек") мне захотелось ещё раз рассказать про теорему Ауманна.
Про теорему Гёделя уже есть объяснения "о наболевшем" с развенчанием основных мифов о том, что она якобы утверждает. Так что сегодня я добавлю и "развенчание мифов о теореме Ауманна для гуманитариев".
https://telegra.ph/CHto-govorit-i-chego-ne-govorit-teorema-Aumanna-10-30
По мотивам прошедшего вчера праздника трешовой математики (под названием "День X-игрек") мне захотелось ещё раз рассказать про теорему Ауманна.
Про теорему Гёделя уже есть объяснения "о наболевшем" с развенчанием основных мифов о том, что она якобы утверждает. Так что сегодня я добавлю и "развенчание мифов о теореме Ауманна для гуманитариев".
https://telegra.ph/CHto-govorit-i-chego-ne-govorit-teorema-Aumanna-10-30
Telegraph
Что говорит, и чего не говорит теорема Ауманна
Помните, я ранее рассказывал про теорему Ауманна в двух частях? Первая была "рукомахательная для гуманитариев", вторая была "зубодробительная для математиков". Проблема была только в том, что когда я писал первую, я все еще не до конца понимал ТА, и потому…
#встречи #онлайн
В понедельник, 7 ноября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече начинаем изучать материалы последней, 7-й недели Кембриджского курса по AI safety. Тема этой недели: Agent foundations, AI governance, and careers in alignment.
Материалы:
1. AI Governance: Opportunity and Theory of Impact (Dafoe, 2020)
2. Cooperation, conflict and transformative AI: sections 1 & 2 (Clifton, 2019)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Обсуждение встреч проходит в телеграм-чате: https://t.me/readthesequences
В понедельник, 7 ноября, состоится очередная онлайн-встреча, посвящённая чтению статей из Кембриджского курса по безопасности искусственного интеллекта.
На этой встрече начинаем изучать материалы последней, 7-й недели Кембриджского курса по AI safety. Тема этой недели: Agent foundations, AI governance, and careers in alignment.
Материалы:
1. AI Governance: Opportunity and Theory of Impact (Dafoe, 2020)
2. Cooperation, conflict and transformative AI: sections 1 & 2 (Clifton, 2019)
Начало встречи в 20:00 по московскому времени (UTC+3).
Ссылку на мероприятие можно будет получить на сайте "Кочерги" ближе к началу встречи в разделе "Мероприятия": https://kocherga-club.ru/events
Полная программа курса доступна по ссылке: https://www.agisafetyfundamentals.com/ai-alignment-curriculum
Обсуждение встреч проходит в телеграм-чате: https://t.me/readthesequences