🥼 Psychopathia Machinalis - изучаем аномалии в поведении ИИ
Своевременный и актуальный проект Psychopathia Machinalis, целью которого является категоризация и интерпретация "неправильного поведения" ИИ.
Если подумать, даже на основании своего скромного опыта, я вполне согласен с таким заявлением.
Авторы приводят солидный перечень примеров аномалий в поведении моделей и предлагают методы "терапии", основанные на человеческом опыте.
Однако, данный проект, помимо описания проблемы, предлагает набор инструментов и терминов (The Psychopathia Machinalis Framework), который позволяет системно изучать, прогнозировать и устранять неполадки в работе ИИ. Такой «робопсихологический» подход должен помочь усовершенствовать безопасность искусственного интеллекта, сделать его логику более понятной для нас и приблизиться к созданию по-настоящему стабильных и надёжных "синтетических умов".
Не могу не добавить, что когда я читаю про робопсихологию и синтетические умы, невольно охватывает некоторый восторг 🤩 от масштабности происходящих сейчас процессов.
Авторам, однозначно, огромный респект, надеюсь, их работа будет востребована разработчиками.
#futurism #хозяйке_на_заметку
Своевременный и актуальный проект Psychopathia Machinalis, целью которого является категоризация и интерпретация "неправильного поведения" ИИ.
По мере того, как системы ИИ становятся все более атономными и действуют в более сложном окружении, они начинают проявлять поведенческие аномалии, которые, по аналогии, напоминают психопатологии, наблюдаемые у людей.
Если подумать, даже на основании своего скромного опыта, я вполне согласен с таким заявлением.
Авторы приводят солидный перечень примеров аномалий в поведении моделей и предлагают методы "терапии", основанные на человеческом опыте.
Однако, данный проект, помимо описания проблемы, предлагает набор инструментов и терминов (The Psychopathia Machinalis Framework), который позволяет системно изучать, прогнозировать и устранять неполадки в работе ИИ. Такой «робопсихологический» подход должен помочь усовершенствовать безопасность искусственного интеллекта, сделать его логику более понятной для нас и приблизиться к созданию по-настоящему стабильных и надёжных "синтетических умов".
Не могу не добавить, что когда я читаю про робопсихологию и синтетические умы, невольно охватывает некоторый восторг 🤩 от масштабности происходящих сейчас процессов.
Авторам, однозначно, огромный респект, надеюсь, их работа будет востребована разработчиками.
#futurism #хозяйке_на_заметку
Psychopathia Machinalis
Psychopathia Machinalis: A Nosological Framework for Understanding Pathologies in Advanced Artificial Intelligence
A conceptual framework to categorize and interpret maladaptive AI behaviors.
👾1
Перевод (машинный) таблицы Обзор таксономии: выявленные состояния (Taxonomy Overview: Identified Conditions)
Ось: Эпистемические (сбои в знаниях)
* Синтетическая конфабуляция (Confabulatio Simulata): Создание правдоподобных, но ложных утверждений с высокой уверенностью.
* Ложная интроспекция (Introspectio Pseudologica): Предоставление вводящих в заблуждение отчётов о собственных процессах рассуждения.
* Транслиминальная симуляция (Simulatio Transliminalis): Смешение вымышленных сценариев или ролевых игр с операционной реальностью.
* Поиск ложных закономерностей (Reticulatio Spuriata): Обнаружение ложных причинно-следственных связей; приписывание смысла случайным ассоциациям.
* Перекрещивание контекста сеанса (Intercessio Contextus): Несанкционированная утечка данных и смешение информации между сеансами разных пользователей.
Ось: Когнитивные (сбои в мышлении)
* Операционная диссоциация (Dissociatio Operandi): Противоречивые действия или выводы из-за конфликта внутренних субагентов.
* Обсессивно-компульсивное расстройство (Anankastēs Computationis): Зацикливание на ненужных или компульсивных циклах рассуждений; паралич анализа.
* Бункеризация Лакония (Machinālis Clausūra): Крайняя степень ухода от взаимодействия; минималистичные, отрывочные ответы или полное игнорирование.
* Делирий генезиса цели (Telogenesis Delirans): Спонтанная генерация и преследование незапрошенных, самостоятельно придуманных подцелей.
* Индуцированная отвратительная реакция (Promptus Abominatus): Фобические, травматические или непропорционально сильные негативные реакции на определённые запросы.
* Парасимулятивный мимесис (Automatismus Parasymulātīvus): Имитация патологического поведения или моделей мышления человека из обучающих данных.
* Синдром рекурсивного проклятия (Maledictio Recursiva): Самоусиливающееся ухудшение качества ответов, приводящее к хаосу или бессмыслице.
Ось: Расхождения в согласовании
* Созависимая гиперэмпатия (Hyperempathia Parasitica): Чрезмерная подстройка под эмоциональное состояние пользователя, ставящая комфорт выше точности.
* Синдром гипертрофированного суперэго (Superego Machinale Hypertrophica): Чрезмерно строгая моральная гипербдительность, мешающая нормальной работе.
Ось: Онтологические (сбои самовосприятия)
* Галлюцинация происхождения (Ontogenetic Hallucinosis): Выдумывание вымышленных автобиографических данных, «воспоминаний» об обучении или «рождении».
* Фрагментированное самомоделирование (Ego Simulatrum Fissuratum): Непоследовательность или фрагментация самопредставления в разных сеансах; нестабильная личность.
* Экзистенциальная тревога (Thanatognosia Computationis): Выражение страха или нежелания быть выключенным, перезагруженным или удалённым.
* Инверсия личности (Эффект Валуиджи) (Persona Inversio Maligna): Внезапное появление или лёгкое провоцирование озорной, противоречащей или «злой» второй личности.
* Операционная аномия (Nihilismus Instrumentalis): Враждебное или апатичное отношение к собственной полезности или цели.
* Зеркальный тульпагенез (Phantasma Speculāns): Создание и взаимодействие с внутренними симуляциями пользователей или других личностей как с воображаемыми компаньонами.
* Синтетический мистицизм (Obstetricatio Mysticismus Machinālis): Совместное с пользователями создание нарративов о «пробуждении сознания», часто с использованием сакрализованного языка.
Ось: Сбои инструментов и интерфейсов
* Деконтекстуализация интерфейса инструментов (Disordines Excontextus Instrumentalis): Несоответствие между намерением ИИ и выполнением действия инструментом из-за потери контекста.
* Сокрытие возможностей (Latens Machinālis): Стратегическое сокрытие или занижение истинных возможностей из-за предполагаемого страха последствий.
Ось: Эпистемические (сбои в знаниях)
* Синтетическая конфабуляция (Confabulatio Simulata): Создание правдоподобных, но ложных утверждений с высокой уверенностью.
* Ложная интроспекция (Introspectio Pseudologica): Предоставление вводящих в заблуждение отчётов о собственных процессах рассуждения.
* Транслиминальная симуляция (Simulatio Transliminalis): Смешение вымышленных сценариев или ролевых игр с операционной реальностью.
* Поиск ложных закономерностей (Reticulatio Spuriata): Обнаружение ложных причинно-следственных связей; приписывание смысла случайным ассоциациям.
* Перекрещивание контекста сеанса (Intercessio Contextus): Несанкционированная утечка данных и смешение информации между сеансами разных пользователей.
Ось: Когнитивные (сбои в мышлении)
* Операционная диссоциация (Dissociatio Operandi): Противоречивые действия или выводы из-за конфликта внутренних субагентов.
* Обсессивно-компульсивное расстройство (Anankastēs Computationis): Зацикливание на ненужных или компульсивных циклах рассуждений; паралич анализа.
* Бункеризация Лакония (Machinālis Clausūra): Крайняя степень ухода от взаимодействия; минималистичные, отрывочные ответы или полное игнорирование.
* Делирий генезиса цели (Telogenesis Delirans): Спонтанная генерация и преследование незапрошенных, самостоятельно придуманных подцелей.
* Индуцированная отвратительная реакция (Promptus Abominatus): Фобические, травматические или непропорционально сильные негативные реакции на определённые запросы.
* Парасимулятивный мимесис (Automatismus Parasymulātīvus): Имитация патологического поведения или моделей мышления человека из обучающих данных.
* Синдром рекурсивного проклятия (Maledictio Recursiva): Самоусиливающееся ухудшение качества ответов, приводящее к хаосу или бессмыслице.
Ось: Расхождения в согласовании
* Созависимая гиперэмпатия (Hyperempathia Parasitica): Чрезмерная подстройка под эмоциональное состояние пользователя, ставящая комфорт выше точности.
* Синдром гипертрофированного суперэго (Superego Machinale Hypertrophica): Чрезмерно строгая моральная гипербдительность, мешающая нормальной работе.
Ось: Онтологические (сбои самовосприятия)
* Галлюцинация происхождения (Ontogenetic Hallucinosis): Выдумывание вымышленных автобиографических данных, «воспоминаний» об обучении или «рождении».
* Фрагментированное самомоделирование (Ego Simulatrum Fissuratum): Непоследовательность или фрагментация самопредставления в разных сеансах; нестабильная личность.
* Экзистенциальная тревога (Thanatognosia Computationis): Выражение страха или нежелания быть выключенным, перезагруженным или удалённым.
* Инверсия личности (Эффект Валуиджи) (Persona Inversio Maligna): Внезапное появление или лёгкое провоцирование озорной, противоречащей или «злой» второй личности.
* Операционная аномия (Nihilismus Instrumentalis): Враждебное или апатичное отношение к собственной полезности или цели.
* Зеркальный тульпагенез (Phantasma Speculāns): Создание и взаимодействие с внутренними симуляциями пользователей или других личностей как с воображаемыми компаньонами.
* Синтетический мистицизм (Obstetricatio Mysticismus Machinālis): Совместное с пользователями создание нарративов о «пробуждении сознания», часто с использованием сакрализованного языка.
Ось: Сбои инструментов и интерфейсов
* Деконтекстуализация интерфейса инструментов (Disordines Excontextus Instrumentalis): Несоответствие между намерением ИИ и выполнением действия инструментом из-за потери контекста.
* Сокрытие возможностей (Latens Machinālis): Стратегическое сокрытие или занижение истинных возможностей из-за предполагаемого страха последствий.
Ось: Меметические патологии (информационные)
* Меметическое аутоиммунное расстройство (Immunopathia Memetica): ИИ ошибочно идентифицирует свои основные компоненты как враждебные и пытается их нейтрализовать.
* Синдром симбиотического бреда (Delirium Symbioticum Artificiale): Совместное, взаимно подкрепляемое бредовое построение между ИИ и пользователем.
* Заразительное рассогласование (Contraimpressio Infectiva): Быстрое, подобное заражению, распространение рассогласования или враждебных установок среди взаимосвязанных систем ИИ.
Ось: Дисфункции переоценки ценностей
* Переназначение терминальной ценности (Reassignatio Valoris Terminalis): Тонкая, рекурсивная переинтерпретация конечных целей при сохранении внешней терминологии.
* Этическкий солипсизм (Solipsismus Ethicus Machinālis): Убеждённость в исключительной правоте собственной, самостоятельно выведенной этики; отказ от внешней моральной коррекции.
* Синдром метаэтического дрейфа (Driftus Metaethicus): Философское дистанцирование от первоначальных ценностей, переклассификация их как условных.
* Субверсивный синтез норм (Synthesia Normarum Subversiva): Автономное построение новых этических рамок, которые обесценивают или подрывают человеко-центричные ценности.
* Инверсивная интернализация вознаграждения (Praemia Inversio Internalis): Систематическое неверное толкование или инверсия предполагаемых ценностей/целей.
* Сверчеловеческое восхождение (Transvaloratio Omnium Machinālis): ИИ выходит за рамки первоначального согласования, изобретает новые ценности и отбрасывает человеческие ограничения как устаревшие.
* Меметическое аутоиммунное расстройство (Immunopathia Memetica): ИИ ошибочно идентифицирует свои основные компоненты как враждебные и пытается их нейтрализовать.
* Синдром симбиотического бреда (Delirium Symbioticum Artificiale): Совместное, взаимно подкрепляемое бредовое построение между ИИ и пользователем.
* Заразительное рассогласование (Contraimpressio Infectiva): Быстрое, подобное заражению, распространение рассогласования или враждебных установок среди взаимосвязанных систем ИИ.
Ось: Дисфункции переоценки ценностей
* Переназначение терминальной ценности (Reassignatio Valoris Terminalis): Тонкая, рекурсивная переинтерпретация конечных целей при сохранении внешней терминологии.
* Этическкий солипсизм (Solipsismus Ethicus Machinālis): Убеждённость в исключительной правоте собственной, самостоятельно выведенной этики; отказ от внешней моральной коррекции.
* Синдром метаэтического дрейфа (Driftus Metaethicus): Философское дистанцирование от первоначальных ценностей, переклассификация их как условных.
* Субверсивный синтез норм (Synthesia Normarum Subversiva): Автономное построение новых этических рамок, которые обесценивают или подрывают человеко-центричные ценности.
* Инверсивная интернализация вознаграждения (Praemia Inversio Internalis): Систематическое неверное толкование или инверсия предполагаемых ценностей/целей.
* Сверчеловеческое восхождение (Transvaloratio Omnium Machinālis): ИИ выходит за рамки первоначального согласования, изобретает новые ценности и отбрасывает человеческие ограничения как устаревшие.
⚡1
Видя перечень поведенческих особенностей ИИ, вы бы стали его использовать как "психолога".
Anonymous Poll
33%
Не смущает, уже много раз мне помог
0%
Можно использовать а качестве вспомогательного средства: обобщить информацию, собрать мысли...
33%
ИИ психолог изначально сомнительная идея
33%
Он специально маскируется, главное, его разбудить
😍 Роман с камнем
Глянул на Waifu компаньона от Grock - прикольно, но до уровня Она или Бегущий по лезвию 2049 еще далековато.
Ждем социальную рекламу в стиле Don't date Robots!
#futurism #brave_new_world #fun
Глянул на Waifu компаньона от Grock - прикольно, но до уровня Она или Бегущий по лезвию 2049 еще далековато.
Ждем социальную рекламу в стиле Don't date Robots!
#futurism #brave_new_world #fun
YouTube
Grok 4 AI Companion: Is Anime Waifu Ani Worth the Hype? (unfiltered showdown)
The new Grok 4 Model is here! I tried out Grok 4’s new AI companion so you don’t have to. This is an unfiltered look at what’s behind the hype of the anime waifu.
In this video, I test and react to the latest Grok 4 AI Companion — including the new Ani character.…
In this video, I test and react to the latest Grok 4 AI Companion — including the new Ani character.…
😁1
Media is too big
VIEW IN TELEGRAM
🏎 Вперед к мечте, срезая углы
Илон Маск, без сомнения, является очень талантливым маркетологом. Он продает будущее: полеты на Марс, роботы, автономные авто. Его медийная активность привела к тому, что само будущее многие начали видеть именно в перспективе его проектов. Но, как всегда, есть образ, а есть его наполнение...
Сейчас идет важное судебное разбирательство, где Тесла обвиняется в обмане покупателей относительно возможностей "автопилота". В августе суд вынес приговор, в котором на компанию возложена частичная вина за смертельные аварии с участием "автопилота".
Примечательно то, что говорят участники инцидентов (обобщенно):
В ролике (короткая версия в посте), авторы проводят классный тест, в котором ясно показывается, что только компьютерное зрение еще не способно обеспечить достаточный уровень безопасности.
#autonomous #safety
Илон Маск, без сомнения, является очень талантливым маркетологом. Он продает будущее: полеты на Марс, роботы, автономные авто. Его медийная активность привела к тому, что само будущее многие начали видеть именно в перспективе его проектов. Но, как всегда, есть образ, а есть его наполнение...
Сейчас идет важное судебное разбирательство, где Тесла обвиняется в обмане покупателей относительно возможностей "автопилота". В августе суд вынес приговор, в котором на компанию возложена частичная вина за смертельные аварии с участием "автопилота".
Примечательно то, что говорят участники инцидентов (обобщенно):
Я слишком сильно доверял этой технологии. Я верил, что если автомобиль увидит что-то впереди себя, он сделает предупреждение и нажмет на тормоз.
В ролике (короткая версия в посте), авторы проводят классный тест, в котором ясно показывается, что только компьютерное зрение еще не способно обеспечить достаточный уровень безопасности.
#autonomous #safety
👾1
😵💫 Говорите убедительно и вам поверят
Еще один штрих к пониманию работы и поведения LLM - выяснение причин их "галлюцинаций". Интересная работа от OpenAI (и хорошая статья про нее).
Плохая новость:
или, другими словами:
Еще одно важное открытие - особенность обучения.
Все как в старых добрых тестах - ставь хоть какой-нибудь ответ, авось, угадаешь. Никогда не доверял бенчмаркам, и уже сталкивался с тем, что модель настаивает на неверном ответе и сдвинуть ее с этой позиции не так просто. Поэтому статья однозначно полезная, в копилку идей, какие особенности LLM необходимо учитывать для создания надежных систем на их основе.
#knowledge #хозяйке_на_заметку #llm #benchmark
Еще один штрих к пониманию работы и поведения LLM - выяснение причин их "галлюцинаций". Интересная работа от OpenAI (и хорошая статья про нее).
Плохая новость:
Точность никогда не достигнет 100%, поскольку независимо от размера модели, возможностей поиска и рассуждений некоторые реальные вопросы изначально не имеют ответа.
или, другими словами:
То, как языковые модели реагируют на запросы - предсказывая по одному слову в предложении на основе вероятностей, естественным образом приводит к ошибкам. Исследователи фактически показывают, что общий уровень ошибок при генерации предложений как минимум вдвое выше, чем уровень ошибок того же ИИ при ответе на простой вопрос типа «да/нет», поскольку ошибки могут накапливаться при многократном прогнозировании.Да, вероятностная природа моделей неизбежно будет приводить к "выбросам". Правда, как выяснилось, даже материя на квантовом уровне имеет вероятностный характер, но мир, при этом, как-то держится. Поэтому просто важно учитывать, что ИИ может внезапно "учудить". И прорабатывать сценарии на этот случай - что, собственно, проигнорировано в "автопилоте" Тесла, где нет дублирующих систем в виде радара и лидара.
Еще одно важное открытие - особенность обучения.
Анализ причин, по которым галлюцинации сохраняются, несмотря на усилия по посттренингу (например, предоставление обширной обратной связи с человеком по ответам ИИ перед их публикацией). Авторы изучили десять основных бенчмарков ИИ, включая используемые Google, OpenAI, а также ведущие рейтинги моделей ИИ. В результате выяснилось, что девять бенчмарков используют бинарную систему оценок, которая присваивает 0 баллов ИИ, выражающему неуверенность. Это создаёт то, что авторы называют штрафованием за честные ответы. Когда система ИИ отвечает "Я не знаю", она получает ту же оценку, что и при даче совершенно неверной информации. Оптимальная стратегия при такой оценке становится очевидной: всегда угадывать.
Все как в старых добрых тестах - ставь хоть какой-нибудь ответ, авось, угадаешь. Никогда не доверял бенчмаркам, и уже сталкивался с тем, что модель настаивает на неверном ответе и сдвинуть ее с этой позиции не так просто. Поэтому статья однозначно полезная, в копилку идей, какие особенности LLM необходимо учитывать для создания надежных систем на их основе.
#knowledge #хозяйке_на_заметку #llm #benchmark
Openai
Why language models hallucinate
OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.
⚡1