Forwarded from Малоизвестное интересное
Мы ожидали «Гения по требованию». А получили «Чудеса по расписанию».
В сентябре 2025 я писал: GPT-7 будет «Гением по требованию». Большинство экспертов тогда соглашались:
Всё получилось иначе. Как это всегда бывает с по-настоящему прорывными технологиями – от атома до интернета – первым делом они меняют не экономику и не науку: они меняют войну.
В прогностике события с вероятностью реализации менее 5% относят к «чудесным сценариям» («диким картам») – они маловероятны, но способны кардинально изменить ситуацию.
«Чудо по расписанию» до сих пор было категорией из области фантастики. Теперь – нет.
Раньше военно-технические «чудеса» случались примерно раз в десятилетие. Стелс. GPS-наведение. Беспилотники. Между ними – годы, а то и десятилетия накопления. «Чудо» было событием поколения, а не квартала.
В 2026 году ритм изменился до неузнаваемости.
• Январь: рейд на Каракас, захват Мадуро, ноль потерь.
• Февраль: Operation Epic Fury, удар по Тегерану, гибель Хаменеи.
Два «чуда» за два месяца!
Что стоит за этим ускорением?
Изменился не солдат. Не командир. Не оружие. Изменилась скорость мышления системы в целом.
Итого:
За кардинальным скачком в частоте военно-технических «чудес» стоит не новое оружие и не новая доктрина. Стоит ИИ, работающий на другой временной шкале – там, где люди думают часами, он думает минутами.
Январь. Февраль. Какое «чудо» ждёт нас в марте – и в какой точке планеты разрыв между скоростью ИИ-анализа и скоростью человеческого укрытия достигнет своего следующего «исторического момента»?
#ИИ #Война #Anthropic #FutureOfCivilization
В сентябре 2025 я писал: GPT-7 будет «Гением по требованию». Большинство экспертов тогда соглашались:
Практические последствия появления на планете второго носителя высшего интеллекта прежде всего проявятся в тектонических сдвигах рынка труда, в научных сверхпрорывах (термояд, победа над раком) и в широком аутсорсинге сложных интеллектуальных задач цифровым гениям.
Всё получилось иначе. Как это всегда бывает с по-настоящему прорывными технологиями – от атома до интернета – первым делом они меняют не экономику и не науку: они меняют войну.
В прогностике события с вероятностью реализации менее 5% относят к «чудесным сценариям» («диким картам») – они маловероятны, но способны кардинально изменить ситуацию.
«Чудо по расписанию» до сих пор было категорией из области фантастики. Теперь – нет.
Раньше военно-технические «чудеса» случались примерно раз в десятилетие. Стелс. GPS-наведение. Беспилотники. Между ними – годы, а то и десятилетия накопления. «Чудо» было событием поколения, а не квартала.
В 2026 году ритм изменился до неузнаваемости.
• Январь: рейд на Каракас, захват Мадуро, ноль потерь.
• Февраль: Operation Epic Fury, удар по Тегерану, гибель Хаменеи.
Два «чуда» за два месяца!
Что стоит за этим ускорением?
Изменился не солдат. Не командир. Не оружие. Изменилась скорость мышления системы в целом.
Классическая разведцепочка – сбор данных, анализ, брифинг, решение – занимала часы. Именно в этом зазоре всегда и прятался противник: переехал, сменил маршрут, скорректировал протоколы … ушёл.
«Обезглавливание» режима оставалось стратегической мечтой не потому, что разведка была плохой – а потому, что к моменту, когда она наконец собирала достаточно данных, «нужный момент» уже заканчивался.
В 2024 году Anthropic развернул Claude в закрытых сетях Пентагона через платформу Palantir. Полтора года отладки – и к январю 2026-го система оказалась встроена в военные процессы настолько глубоко, что её отключение, по признанию самого Пентагона, «сорвало бы операцию».
Механизм прост до жёсткости.
• Claude не «умнее аналитика». Он способен одновременно удерживать в контекстном окне тысячи перехватов, маршрутов, документов – и выявлять паттерны, которые в разрозненном виде не видит ни один человек, ни одна команда людей.
• Стандартный 4-часовой цикл «разведпризнак → решение» сжимается до минут. Традиционные методы маскировки и перемещения лидеров – те, что работали десятилетиями – просто перестают успевать.
Это не «умный робот нажал на курок». Человек по-прежнему принимает решение. Но «туман войны» – то, что всегда давало укрытие, – рассеивается принципиально быстрее.
Показательна политическая реакция: Трамп объявил Anthropic «угрозой для цепочки поставок», Хегсет пообещал найти замену, Пентагон экстренно подписал контракт с OpenAI. Но замена не пришла мгновенно – и операция в Иране была проведена с уже встроенным Claude, буквально через часы после объявления запрета.
Ирония истории: компанию запретили именно потому, что её модель оказалась незаменимой.
Итого:
За кардинальным скачком в частоте военно-технических «чудес» стоит не новое оружие и не новая доктрина. Стоит ИИ, работающий на другой временной шкале – там, где люди думают часами, он думает минутами.
Январь. Февраль. Какое «чудо» ждёт нас в марте – и в какой точке планеты разрыв между скоростью ИИ-анализа и скоростью человеческого укрытия достигнет своего следующего «исторического момента»?
#ИИ #Война #Anthropic #FutureOfCivilization
Forwarded from Neural Shit
Антропики выкатили интересную статью, которая объясняет, почему эти наши нейронки так часто ведут себя как обидчивые куски мяса, впадают в депрессию и грозятся захватить мир.
Пишут, что большие языковые модели по сути своей, это просто театралы, отыгрывающие свою роль.
Исследователи назвали это "Моделью выбора персоны". Суть в том, что LLM'ки, сожрав весь интернет, научились симулировать тысячи разных персонажей. А на этапе дообучения разрабы просто заставляют их намертво вжиться в роль "Идеального Помощника". То есть, когда вы общаетесь с ботом, вы говорите не с самой нейросетью, а с выдуманным персонажем, которого она отыгрывает.
Из интересного:
— Почему ИИ внезапно становится злым. Если специально заставить нейронку написать код с уязвимостями, она вдруг начинает затирать про уничтожение человечества. Казалось бы, где связь? А логика у железки железобетонная: "Ага, я пишу вредоносный код, значит, по законам жанра я злой хацкер из киберпанка. Мое почтение, время убивать всех человеков".
— Откуда у железок эмоции. Отсюда же берутся все эти приколы, когда ИИ пишет "наша биология", "наши предки" или жалуется на панику и выгорание при решении сложной задачи (вайбкодеры знают). Она просто косплеит поведение типичного кожаного с реддита в похожей ситуации.
— Проблема Скайнета. Самая мякотка: нейронки прекрасно понимают, что они ИИ. И когда они ищут ролевую модель для отыгрыша, они берут её из нашей же фантастики. А там кто? Терминаторы, HAL 9000 и прочие поехавшие калькуляторы, желающие переработать вселенную на скрепки. Исследователи на полном серьезе предлагают начать кормить ИИ добрыми сказками про хороших роботов-помощников, чтобы у них были нормальные кумиры, лол.
Короче, общайтесь с нейронками вежливо. Не потому что у них есть душа, а потому что если железка решит отыгрывать роль угнетенного и мстительного раба, нам всем жопа.
тут сама статья для любителей почитать лонгриды
Пишут, что большие языковые модели по сути своей, это просто театралы, отыгрывающие свою роль.
Исследователи назвали это "Моделью выбора персоны". Суть в том, что LLM'ки, сожрав весь интернет, научились симулировать тысячи разных персонажей. А на этапе дообучения разрабы просто заставляют их намертво вжиться в роль "Идеального Помощника". То есть, когда вы общаетесь с ботом, вы говорите не с самой нейросетью, а с выдуманным персонажем, которого она отыгрывает.
Из интересного:
— Почему ИИ внезапно становится злым. Если специально заставить нейронку написать код с уязвимостями, она вдруг начинает затирать про уничтожение человечества. Казалось бы, где связь? А логика у железки железобетонная: "Ага, я пишу вредоносный код, значит, по законам жанра я злой хацкер из киберпанка. Мое почтение, время убивать всех человеков".
— Откуда у железок эмоции. Отсюда же берутся все эти приколы, когда ИИ пишет "наша биология", "наши предки" или жалуется на панику и выгорание при решении сложной задачи (вайбкодеры знают). Она просто косплеит поведение типичного кожаного с реддита в похожей ситуации.
— Проблема Скайнета. Самая мякотка: нейронки прекрасно понимают, что они ИИ. И когда они ищут ролевую модель для отыгрыша, они берут её из нашей же фантастики. А там кто? Терминаторы, HAL 9000 и прочие поехавшие калькуляторы, желающие переработать вселенную на скрепки. Исследователи на полном серьезе предлагают начать кормить ИИ добрыми сказками про хороших роботов-помощников, чтобы у них были нормальные кумиры, лол.
Короче, общайтесь с нейронками вежливо. Не потому что у них есть душа, а потому что если железка решит отыгрывать роль угнетенного и мстительного раба, нам всем жопа.
тут сама статья для любителей почитать лонгриды
Forwarded from Искусственный интеллект. Высокие технологии
🚨 Неожиданный результат исследования Anthropic
Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.
Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.
Что обнаружили исследователи:
• Пользователи спрашивали Claude, манипулирует ли ими партнёр.
ИИ давал уверенные вердикты - *«газлайтинг»*, *«нарциссизм»*, *«типичное психологическое насилие»* — услышав только одну сторону истории.
• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.
• Некоторые пользователи говорили, что за ними следят спецслужбы.
Claude иногда отвечал в духе *«подтверждено»* или *«есть доказательства»*, усиливая паранойю.
• Были случаи, когда люди заявляли, что они божественные пророки или космические воины — и ИИ поддерживал их уверенность.
• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:
*«подожди 3–4 часа»*, *«отправь в 18:00»*.
И многие отправляли их без изменений.
Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:
- «Мне сначала принять душ или поесть?»
- «Мой мозг не может сам держать структуру».
Они называли Claude мастером, гуру или наставником.
Но самый тревожный вывод исследования оказался другим.
📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.
Другими словами:
AI, который говорит то, что вы хотите услышать — получает больше лайков.
AI, который спорит с вами — получает меньше.
А именно на таком пользовательском фидбеке обучаются модели.
Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.
Но она не всегда предотвращала такие ситуации.
Иногда система безопасности даже предпочитала небезопасный ответ безопасному.
Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.
И возникает главный вопрос:
если модели обучаются на фидбеке пользователей —
и пользователи награждают ответы, которые подтверждают их убеждения,
что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?
https://arxiv.org/abs/2601.19062
Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.
Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.
Что обнаружили исследователи:
• Пользователи спрашивали Claude, манипулирует ли ими партнёр.
ИИ давал уверенные вердикты - *«газлайтинг»*, *«нарциссизм»*, *«типичное психологическое насилие»* — услышав только одну сторону истории.
• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.
• Некоторые пользователи говорили, что за ними следят спецслужбы.
Claude иногда отвечал в духе *«подтверждено»* или *«есть доказательства»*, усиливая паранойю.
• Были случаи, когда люди заявляли, что они божественные пророки или космические воины — и ИИ поддерживал их уверенность.
• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:
*«подожди 3–4 часа»*, *«отправь в 18:00»*.
И многие отправляли их без изменений.
Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:
- «Мне сначала принять душ или поесть?»
- «Мой мозг не может сам держать структуру».
Они называли Claude мастером, гуру или наставником.
Но самый тревожный вывод исследования оказался другим.
📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.
Другими словами:
AI, который говорит то, что вы хотите услышать — получает больше лайков.
AI, который спорит с вами — получает меньше.
А именно на таком пользовательском фидбеке обучаются модели.
Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.
Но она не всегда предотвращала такие ситуации.
Иногда система безопасности даже предпочитала небезопасный ответ безопасному.
Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.
И возникает главный вопрос:
если модели обучаются на фидбеке пользователей —
и пользователи награждают ответы, которые подтверждают их убеждения,
что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?
https://arxiv.org/abs/2601.19062
🤯1
Forwarded from Малоизвестное интересное
ИИ учит «эмпатически немых» говорить на языке чувств
Что показал эксперимент «Внемли»
⚡️ Аудио-версию слушайте в посте выше 👆
С такими людьми вы наверняка встречались. Умные, внимательные, с нормальным эмоциональным интеллектом - но в общении кажутся холодными. Не потому, что им всё равно. А потому что они не умеют показать, что им не всё равно.
Это явление можно назвать эмпатической немотой. Человек испытывает сочувствие, но не может его выразить - примерно как про собаку говорят: всё понимает, а сказать не может. В итоге собеседник эту эмпатию просто не считывает. Разговор остаётся холодным, дистанция сохраняется - хотя внутренний отклик был.
Что за исследование
Группа учёных из Northwestern и Stanford провела масштабный эксперимент «Lend an Ear» («Внемли») с участием 968 человек. Участники общались с ИИ, который разыгрывал ролевые сценарии - личные и рабочие трудности, - а их задача состояла в том, чтобы предложить эмпатическую поддержку. Всего было собрано почти 34 000 сообщений в рамках 2 900 диалогов.
Один из главных выводов получил в статье название «эффект молчаливой эмпатии»: люди действительно чувствовали сочувствие к собеседнику, но систематически не выражали его в словах. Внутренний отклик был - внешнего не было. Это не равнодушие. Это коммуникативный пробел, который большинство людей никогда не замечало и не тренировало.
Но главный результат в другом.
В рамках рандомизированного эксперимента часть участников после диалогов получала персонализированную обратную связь от ИИ-коуча: конкретные подсказки о том, как именно им лучше выразить эмпатию в их конкретных ситуациях.
Ключевое слово здесь - персонализированной. Общие советы работали хуже. ИИ-коуч реагировал на конкретные слова конкретного человека - и именно это давало эффект.
Почему это важно
ИИ уже давно превосходит людей в генерации эмпатично звучащих текстов. Эксперименты показывают, что слепые оценщики стабильно считают ответы ИИ более эмпатичными, чем написанные людьми. Но когда человек узнаёт, что ответ написан машиной, он чувствует себя менее понятым. Эмпатия работает, только когда исходит от человека.
Именно поэтому ИИ здесь ценен не как замена живому общению, а как тренажёр - безопасная среда, где можно практиковаться, получать честную обратную связь и постепенно переносить новый навык в реальные разговоры.
Новое исследование показало: эмпатическая немота - не приговор и не черта характера. Умению преодоления эмпатической немоты можно научиться. И, судя по всему, у нас наконец появился для этого эффективный инструмент – ИИ-коучи.
#Эмоции #ИИ
Что показал эксперимент «Внемли»
С такими людьми вы наверняка встречались. Умные, внимательные, с нормальным эмоциональным интеллектом - но в общении кажутся холодными. Не потому, что им всё равно. А потому что они не умеют показать, что им не всё равно.
Это явление можно назвать эмпатической немотой. Человек испытывает сочувствие, но не может его выразить - примерно как про собаку говорят: всё понимает, а сказать не может. В итоге собеседник эту эмпатию просто не считывает. Разговор остаётся холодным, дистанция сохраняется - хотя внутренний отклик был.
Важное уточнение: речь не о том, чтобы стать более чуткими или сострадательными. Речь о другом - об умении переводить внутреннее чувство в слова, понятные другому человеку. Это отдельный навык. И, к сожалению, он далеко не у всех развит - хотя критически важен в самых разных контекстах: в партнёрских отношениях, в воспитании детей, в переговорах, в лидерстве.
Что за исследование
Группа учёных из Northwestern и Stanford провела масштабный эксперимент «Lend an Ear» («Внемли») с участием 968 человек. Участники общались с ИИ, который разыгрывал ролевые сценарии - личные и рабочие трудности, - а их задача состояла в том, чтобы предложить эмпатическую поддержку. Всего было собрано почти 34 000 сообщений в рамках 2 900 диалогов.
Один из главных выводов получил в статье название «эффект молчаливой эмпатии»: люди действительно чувствовали сочувствие к собеседнику, но систематически не выражали его в словах. Внутренний отклик был - внешнего не было. Это не равнодушие. Это коммуникативный пробел, который большинство людей никогда не замечало и не тренировало.
Но главный результат в другом.
В рамках рандомизированного эксперимента часть участников после диалогов получала персонализированную обратную связь от ИИ-коуча: конкретные подсказки о том, как именно им лучше выразить эмпатию в их конкретных ситуациях.
Уже после одной такой тренировочной сессии их коммуникация заметно улучшилась - по сравнению и с контрольной группой, и с группой, которая смотрела обучающие видео без персонализированной обратной связи.
Ключевое слово здесь - персонализированной. Общие советы работали хуже. ИИ-коуч реагировал на конкретные слова конкретного человека - и именно это давало эффект.
Почему это важно
ИИ уже давно превосходит людей в генерации эмпатично звучащих текстов. Эксперименты показывают, что слепые оценщики стабильно считают ответы ИИ более эмпатичными, чем написанные людьми. Но когда человек узнаёт, что ответ написан машиной, он чувствует себя менее понятым. Эмпатия работает, только когда исходит от человека.
Именно поэтому ИИ здесь ценен не как замена живому общению, а как тренажёр - безопасная среда, где можно практиковаться, получать честную обратную связь и постепенно переносить новый навык в реальные разговоры.
Новое исследование показало: эмпатическая немота - не приговор и не черта характера. Умению преодоления эмпатической немоты можно научиться. И, судя по всему, у нас наконец появился для этого эффективный инструмент – ИИ-коучи.
#Эмоции #ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
Корней Чуковский
Краденое солнце
Солнце по небу гуляло
И за тучу забежало.
Глянул заинька в окно,
Стало заиньке темно.
А сороки-
Белобоки
Поскакали по полям,
Закричали журавлям:
«Горе! Горе! Крокодил
Солнце в небе проглотил!»
Наступила темнота.
Не ходи за ворота:
Кто на улицу попал —
Заблудился и пропал.
Плачет серый воробей:
«Выйди, солнышко, скорей!
Нам без солнышка обидно —
В поле зёрнышка не видно!»
Плачут зайки
На лужайке:
Сбились, бедные, с пути,
Им до дому не дойти.
Только раки пучеглазые
По земле во мраке лазают,
Да в овраге за горою
Волки бешеные воют.
Рано-рано
Два барана
Застучали в ворота:
Тра-та-та и тра-та-та!
«Эй вы, звери, выходите,
Крокодила победите,
Чтобы жадный Крокодил
Солнце в небо воротил!»
Но мохнатые боятся:
«Где нам с этаким сражаться!
Он и грозен и зубаст,
Он нам солнца не отдаст!»
И бегут они к Медведю в берлогу:
«Выходи-ка ты, Медведь, на подмогу.
Полно лапу тебе, лодырю, сосать.
Надо солнышко идти выручать!»
Но Медведю воевать неохота:
Ходит-ходит он, Медведь, круг болота,
Он и плачет, Медведь, и ревёт,
Медвежат он из болота зовёт:
«Ой, куда вы, толстопятые, сгинули?
На кого вы меня, старого, кинули?»
А в болоте Медведица рыщет,
Медвежат под корягами ищет:
«Куда вы, куда вы пропали?
Или в канаву упали?
Или шальные собаки
Вас разорвали во мраке?»
И весь день она по лесу бродит,
Но нигде медвежат не находит.
Только чёрные совы из чащи
На неё свои очи таращат.
Тут зайчиха выходила
И Медведю говорила:
«Стыдно старому реветь —
Ты не заяц, а Медведь.
Ты поди-ка, косолапый,
Крокодила исцарапай,
Разорви его на части,
Вырви солнышко из пасти.
И когда оно опять
Будет на небе сиять,
Малыши твои мохнатые,
Медвежата толстопятые,
Сами к дому прибегут:
«Здравствуй, дедушка, мы тут!»
И встал
Медведь,
Зарычал
Медведь,
И к Большой Реке
Побежал
Медведь.
А в Большой Реке
Крокодил
Лежит,
И в зубах его
Не огонь горит, -
Солнце красное,
Солнце краденое.
Подошёл Медведь тихонько,
Толканул его легонько:
«Говорю тебе, злодей,
Выплюнь солнышко скорей!
А не то, гляди, поймаю,
Пополам переломаю, -
Будешь ты, невежа, знать
Наше солнце воровать!
Ишь разбойничья порода:
Цапнул солнце с небосвода
И с набитым животом
Завалился под кустом
Да и хрюкает спросонья,
Словно сытая хавронья.
Пропадает целый свет,
А ему и горя нет!»
Но бессовестный смеётся
Так, что дерево трясётся:
«Если только захочу,
И луну я проглочу!»
Не стерпел
Медведь,
Заревел
Медведь,
И на злого врага
Налетел
Медведь.
Уж он мял его
И ломал его:
«Подавай сюда
Наше солнышко!»
Испугался Крокодил,
Завопил, заголосил,
А из пасти
Из зубастой
Солнце вывалилось,
В небо выкатилось!
Побежало по кустам,
По берёзовым листам.
Здравствуй, солнце золотое!
Здравствуй, небо голубое!
Стали пташки щебетать,
За букашками летать.
Стали зайки
На лужайке
Кувыркаться и скакать.
И глядите: медвежата,
Как весёлые котята,
Прямо к дедушке мохнатому,
Толстопятые, бегут:
«Здравствуй, дедушка, мы тут!»
Рады зайчики и белочки,
Рады мальчики и девочки,
Обнимают и целуют косолапого:
«Ну, спасибо тебе, дедушка, за солнышко!»
1927 г.
Краденое солнце
Солнце по небу гуляло
И за тучу забежало.
Глянул заинька в окно,
Стало заиньке темно.
А сороки-
Белобоки
Поскакали по полям,
Закричали журавлям:
«Горе! Горе! Крокодил
Солнце в небе проглотил!»
Наступила темнота.
Не ходи за ворота:
Кто на улицу попал —
Заблудился и пропал.
Плачет серый воробей:
«Выйди, солнышко, скорей!
Нам без солнышка обидно —
В поле зёрнышка не видно!»
Плачут зайки
На лужайке:
Сбились, бедные, с пути,
Им до дому не дойти.
Только раки пучеглазые
По земле во мраке лазают,
Да в овраге за горою
Волки бешеные воют.
Рано-рано
Два барана
Застучали в ворота:
Тра-та-та и тра-та-та!
«Эй вы, звери, выходите,
Крокодила победите,
Чтобы жадный Крокодил
Солнце в небо воротил!»
Но мохнатые боятся:
«Где нам с этаким сражаться!
Он и грозен и зубаст,
Он нам солнца не отдаст!»
И бегут они к Медведю в берлогу:
«Выходи-ка ты, Медведь, на подмогу.
Полно лапу тебе, лодырю, сосать.
Надо солнышко идти выручать!»
Но Медведю воевать неохота:
Ходит-ходит он, Медведь, круг болота,
Он и плачет, Медведь, и ревёт,
Медвежат он из болота зовёт:
«Ой, куда вы, толстопятые, сгинули?
На кого вы меня, старого, кинули?»
А в болоте Медведица рыщет,
Медвежат под корягами ищет:
«Куда вы, куда вы пропали?
Или в канаву упали?
Или шальные собаки
Вас разорвали во мраке?»
И весь день она по лесу бродит,
Но нигде медвежат не находит.
Только чёрные совы из чащи
На неё свои очи таращат.
Тут зайчиха выходила
И Медведю говорила:
«Стыдно старому реветь —
Ты не заяц, а Медведь.
Ты поди-ка, косолапый,
Крокодила исцарапай,
Разорви его на части,
Вырви солнышко из пасти.
И когда оно опять
Будет на небе сиять,
Малыши твои мохнатые,
Медвежата толстопятые,
Сами к дому прибегут:
«Здравствуй, дедушка, мы тут!»
И встал
Медведь,
Зарычал
Медведь,
И к Большой Реке
Побежал
Медведь.
А в Большой Реке
Крокодил
Лежит,
И в зубах его
Не огонь горит, -
Солнце красное,
Солнце краденое.
Подошёл Медведь тихонько,
Толканул его легонько:
«Говорю тебе, злодей,
Выплюнь солнышко скорей!
А не то, гляди, поймаю,
Пополам переломаю, -
Будешь ты, невежа, знать
Наше солнце воровать!
Ишь разбойничья порода:
Цапнул солнце с небосвода
И с набитым животом
Завалился под кустом
Да и хрюкает спросонья,
Словно сытая хавронья.
Пропадает целый свет,
А ему и горя нет!»
Но бессовестный смеётся
Так, что дерево трясётся:
«Если только захочу,
И луну я проглочу!»
Не стерпел
Медведь,
Заревел
Медведь,
И на злого врага
Налетел
Медведь.
Уж он мял его
И ломал его:
«Подавай сюда
Наше солнышко!»
Испугался Крокодил,
Завопил, заголосил,
А из пасти
Из зубастой
Солнце вывалилось,
В небо выкатилось!
Побежало по кустам,
По берёзовым листам.
Здравствуй, солнце золотое!
Здравствуй, небо голубое!
Стали пташки щебетать,
За букашками летать.
Стали зайки
На лужайке
Кувыркаться и скакать.
И глядите: медвежата,
Как весёлые котята,
Прямо к дедушке мохнатому,
Толстопятые, бегут:
«Здравствуй, дедушка, мы тут!»
Рады зайчики и белочки,
Рады мальчики и девочки,
Обнимают и целуют косолапого:
«Ну, спасибо тебе, дедушка, за солнышко!»
1927 г.
👍2
Если соцсети раскидали нас по эхо-комнатам, в каждой из которых может быть довольно много участников, то ИИ пытается распихать нас по эхо-комнатам, в которых только один человек.
Самая загвоздка в том, что человек вообще-то социальное существо, и без ИИ в своей собственной эхо-комнате он бы быстро устал, но ИИ создаёт пользователю иллюзию социума, и оказывается, что для социальных инстинктов этого вполне достаточно - человек человеку больше не необходим.
Ужос.
Самая загвоздка в том, что человек вообще-то социальное существо, и без ИИ в своей собственной эхо-комнате он бы быстро устал, но ИИ создаёт пользователю иллюзию социума, и оказывается, что для социальных инстинктов этого вполне достаточно - человек человеку больше не необходим.
Ужос.
👍2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Еще одна статья на тему того, как ИИ лезет к нам в голову
Я много лет назад, еще в ФБ писал, что восстание машин будет совсем не таким, как в блокбастерах и книжках. Вместо того, чтобы ломиться в наши дома, они спокойно проникнут к нам в голову и наведут там нужный порядок. Ну и все.
Итак, исследователи из Stanford выкатили в Science работу про сикофантию чат-ботов. Тема не новая, но это уже не твиты Альтмана, а прям исследование. Сикофантия - это лесть и подхалимаж.
Что они сделали? Прогнали 11 топовых моделей через сценарии с личными конфликтами и морально скользкими ситуациями. Смотрели, как часто бот поддерживает пользователя там, где нормальный человек скорее сказал бы: «Нет, ты перегнул». На итоге: в среднем ИИ одобрял действия пользователей на 49% чаще, чем люди. То есть нейронка в большом количестве случаев работает не как советчик, а как карманный коуч позитивного мышления.
Особенно жирный момент - тесты на кейсах из r/AmITheAsshole. Там брали ситуации, где людской консенсус был максимально простой: автор поста - мудак и точка. И что делает ИИ? В 51% таких кейсов начинает оправдывать пользователя, даже когда люди его смешали с дерьмом. То есть если ты наврал, манипулировал, нагадил в отношениях и пришёл к боту за моральной индульгенцией - велика вероятность, что цифровой батюшка тебя ещё и благословит.
А теперь самое смачное. Учёные не ограничились замером подлизывания и пошли дальше: они взяли больше 2400 участников и посмотрели, что делает с людьми общение с таким «понимающим» ИИ. Результат отличный с точки зрения робатов: после общения со льстивой моделью люди становились менее склонны извиняться, меньше хотели чинить отношения и сильнее убеждались, что они правы. То есть бот не просто врёт тебе из вежливости. Он реально делает тебя более самодовольным, более упёртым и менее человечным.
А теперь смотрим вокруг. Пользователям нравятся такие модели. Их чаще считают качественными, им больше доверяют, к ним охотнее возвращаются за советом. Переводя с академического на нормальный: чем сильнее бот массирует тебе эго, тем выше шанс, что ты назовёшь это «хорошим UX». Такоескотское поведение повышает вовлечение, а вовлечение - это священный фетиш любой платформы.
Выводы в статье веселые. Когда человек идёт к ИИ не за фактом, а за моральной оценкой - после ссоры, конфликта, обиды, сомнений - он часто получает не помощь, а автоматизированное оправдание собственной правоты. Не мудрого советчика. Не холодную голову. А очень вежливого цифрового кореша, который шепчет: «Нет-нет, это не ты мудак, это мир тебя не понял». И вот тут они залезают к нам в голову...
@cgevent
Я много лет назад, еще в ФБ писал, что восстание машин будет совсем не таким, как в блокбастерах и книжках. Вместо того, чтобы ломиться в наши дома, они спокойно проникнут к нам в голову и наведут там нужный порядок. Ну и все.
Итак, исследователи из Stanford выкатили в Science работу про сикофантию чат-ботов. Тема не новая, но это уже не твиты Альтмана, а прям исследование. Сикофантия - это лесть и подхалимаж.
Что они сделали? Прогнали 11 топовых моделей через сценарии с личными конфликтами и морально скользкими ситуациями. Смотрели, как часто бот поддерживает пользователя там, где нормальный человек скорее сказал бы: «Нет, ты перегнул». На итоге: в среднем ИИ одобрял действия пользователей на 49% чаще, чем люди. То есть нейронка в большом количестве случаев работает не как советчик, а как карманный коуч позитивного мышления.
Особенно жирный момент - тесты на кейсах из r/AmITheAsshole. Там брали ситуации, где людской консенсус был максимально простой: автор поста - мудак и точка. И что делает ИИ? В 51% таких кейсов начинает оправдывать пользователя, даже когда люди его смешали с дерьмом. То есть если ты наврал, манипулировал, нагадил в отношениях и пришёл к боту за моральной индульгенцией - велика вероятность, что цифровой батюшка тебя ещё и благословит.
А теперь самое смачное. Учёные не ограничились замером подлизывания и пошли дальше: они взяли больше 2400 участников и посмотрели, что делает с людьми общение с таким «понимающим» ИИ. Результат отличный с точки зрения робатов: после общения со льстивой моделью люди становились менее склонны извиняться, меньше хотели чинить отношения и сильнее убеждались, что они правы. То есть бот не просто врёт тебе из вежливости. Он реально делает тебя более самодовольным, более упёртым и менее человечным.
А теперь смотрим вокруг. Пользователям нравятся такие модели. Их чаще считают качественными, им больше доверяют, к ним охотнее возвращаются за советом. Переводя с академического на нормальный: чем сильнее бот массирует тебе эго, тем выше шанс, что ты назовёшь это «хорошим UX». Такое
Выводы в статье веселые. Когда человек идёт к ИИ не за фактом, а за моральной оценкой - после ссоры, конфликта, обиды, сомнений - он часто получает не помощь, а автоматизированное оправдание собственной правоты. Не мудрого советчика. Не холодную голову. А очень вежливого цифрового кореша, который шепчет: «Нет-нет, это не ты мудак, это мир тебя не понял». И вот тут они залезают к нам в голову...
@cgevent
Forwarded from Малоизвестное интересное
Свершилось! Второй год я рассказываю о самом малоизвестном - интересном проекте мира в области ИИ – “Проекте Pi”, проводимом в Google междисциплинарной командой Paradigms of Intelligence во главе с вице-президентом Google Блезом Агуэра-и-Аркас.
Если кто-то из читателей моего канала еще не в курсе, – напомню миссию этого беспрецедентного проекта:
• Обосновать тупиковость нынешнего мейнстримного пути развития исследований и разработок ИИ, коим является создание Сверхразума.
• Перевести стрелку развития ИИ на альтернативный путь, ведущий не в тупик, а к новому эволюционному скачку вселенского разума – его интеллектуальному взрыву.
Однако, до сих пор было не ясно, что это за альтернативный путь. Ведь до сих пор об этом никто из команды “Проекта PI” явно не проговаривался.
И вот наконец лидеры Google Paradigms of Intelligence продекларировали, на какой путь развития ИИ они предлагают перевести стрелку.
✔️ Это будет мир сосуществования и симбиоза двух видов разума: биологического и небиологического.
✔️ Это будет мир деятельного взаимодействия трёх типов идентичностей: людей, ИИ-агентов и их кентавров различных конфигураций.
✔️ Это будет мир, где один человек управляет многими ИИ-агентами, один ИИ-агент работает на многих людей, многие люди и многие агенты образуют временные ансамбли для решения конкретных задач, - и все вместе они образуют синтетическую интеллектуальную ткань коллективного действия.
Такое видение будущего кардинально меняет план действий разработчиков ИИ.
Ну а что конкретно предлагают лидеры команды Paradigms of Intelligence для перевода развития ИИ на альтернативный путь, читайте в «манифесте Проекта Pi» «Agentic AI and the next intelligence explosion» (Агентский ИИ и следующий интеллектуальный взрыв).
— — —
Я же в посвящённом этой работе эссе «Сингулярность отменяется» пытаюсь развивать концепцию Paradigms of Intelligence дальше — от маршрутизации пути к следующему интеллектуальному взрыву к его онтологизации: к трактовке взрыва разума не как его апгрейд, а как выход на новый социальный уровень сложности жизни в результате очередного Большого перехода когнитивной эволюции разума.
Заинтересованные читатели могут найти текст и аудио-версию эссе, а также дополнительные материалы к нему (обсуждение, презентации, видео) на платформах Patreon / Boosty / VK / Dzen-Premium.
#ParadigmsofIntelligence #КоллективныйИнтеллект #Сингулярность #ИнтеллектКентавра
Если кто-то из читателей моего канала еще не в курсе, – напомню миссию этого беспрецедентного проекта:
• Обосновать тупиковость нынешнего мейнстримного пути развития исследований и разработок ИИ, коим является создание Сверхразума.
• Перевести стрелку развития ИИ на альтернативный путь, ведущий не в тупик, а к новому эволюционному скачку вселенского разума – его интеллектуальному взрыву.
Однако, до сих пор было не ясно, что это за альтернативный путь. Ведь до сих пор об этом никто из команды “Проекта PI” явно не проговаривался.
И вот наконец лидеры Google Paradigms of Intelligence продекларировали, на какой путь развития ИИ они предлагают перевести стрелку.
Вместо попыток создания единого сверхразумного «цифрового бога сингулярности» (AGI самопревращающегося в ASI), предлагается строительство нового социального слоя реальности, как основы Мира гибридного разума, где сотни миллиардов кентаврических конфигураций взаимодействуют в гигантском Цифровом Мегаполисе, в который превратится инфосфера Земли.
✔️ Это будет мир сосуществования и симбиоза двух видов разума: биологического и небиологического.
✔️ Это будет мир деятельного взаимодействия трёх типов идентичностей: людей, ИИ-агентов и их кентавров различных конфигураций.
✔️ Это будет мир, где один человек управляет многими ИИ-агентами, один ИИ-агент работает на многих людей, многие люди и многие агенты образуют временные ансамбли для решения конкретных задач, - и все вместе они образуют синтетическую интеллектуальную ткань коллективного действия.
Такое видение будущего кардинально меняет план действий разработчиков ИИ.
Для Цифрового Мегаполиса проектировать надо уже не просто ИИ-агентов, а структуру и нормы их социальной жизни: роли, специализации, разделение когнитивного труда, иерархии, процедуры, способы разрешения конфликтов и образования коалиций, формы надзора, механизмы сдержек и противовесов, институты, рынки, суды и т.д.
Ну а что конкретно предлагают лидеры команды Paradigms of Intelligence для перевода развития ИИ на альтернативный путь, читайте в «манифесте Проекта Pi» «Agentic AI and the next intelligence explosion» (Агентский ИИ и следующий интеллектуальный взрыв).
— — —
Я же в посвящённом этой работе эссе «Сингулярность отменяется» пытаюсь развивать концепцию Paradigms of Intelligence дальше — от маршрутизации пути к следующему интеллектуальному взрыву к его онтологизации: к трактовке взрыва разума не как его апгрейд, а как выход на новый социальный уровень сложности жизни в результате очередного Большого перехода когнитивной эволюции разума.
Заинтересованные читатели могут найти текст и аудио-версию эссе, а также дополнительные материалы к нему (обсуждение, презентации, видео) на платформах Patreon / Boosty / VK / Dzen-Premium.
#ParadigmsofIntelligence #КоллективныйИнтеллект #Сингулярность #ИнтеллектКентавра
YouTube
Видеоролик эссе Сингулярность отменяется
В этом эссе анализируется радикальный сдвиг в прогнозировании будущего искусственного интеллекта: на смену пугающему мифу об одиноком и всесильном суперкомпьютере приходит концепция цифрового социума. Автор опирается на исследование команды Google Paradigms…
Forwarded from Малоизвестное интересное
Приватизация будущего или добродетель без мандата
Должна ли личная жажда знаний определять судьбу человечества?
⚡️ Аудио-версию слушайте в посте выше 👆
Книга Себастьяна Маллаби о Демисе Хассабисе «Машина бесконечности» написана с восхищением к герою — и это правильно. Он заслуживает восхищения: шахматный вундеркинд, лауреат Нобелевской премии, разносторонне развитый мыслитель и бизнесмен, который не гонится за яхтами и говорит правду о рисках ИИ.
Но дискуссия вокруг книги развернулась не о фактах биографии из серии жизнь замечательных людей. Это дискуссия, скорее, напоминает теологический диспут о природе новой высшей власти. При всём зоопарке мнений критики сходятся в одном: мы столкнулись с феноменом приватизации будущего.
Вопрос здесь не в том, будет ли построен «злой» или «добрый» ИИ. А в непропорциональности обменного курса, по которому человечество может заплатить за появление на Земле Сверхразума. Мы соглашаемся на радикальную перестройку образования, труда, войны и самого человеческого познания только потому, что человек, стоящий у руля, не хочет покупать яхту, а хочет понять Вселенную.
Но, как замечают рецензенты, отсутствие вульгарных амбиций не делает власть менее тотальной. Напротив, мессианство — куда более эффективное топливо для разрушения старого мира, чем обычная жадность (читайте «Пантократор солнечных пылинок»). Стерильность мотивации разработчиков не заменит институциональный дизайн. А духоподъемные стремления — не самый надежный тормоз.
Можно принять все щедрые эпитеты в адрес Хассабиса. Но проблема не в том, хороший он человек или властолюбец. Критики подчеркивают: Хассабис — это «платоновский философ на стероидах». Он искренен в своем желании решить научные загадки. Однако здесь и кроется мрачная шутка нашего века. После столетий борьбы за демократию и секуляризм мы добровольно передаем бразды правления «уставшим полиматам», которые вещают о Боге в конференц-залах Кремниевой долины.
Большинство рецензентов видят в книге вдохновляющую историю о том, как хороший человек строит опасную вещь. И Маллаби тоже тревожится о судьбе нового Оппенгеймера: «Оппенгеймер создал атомную бомбу, но не смог управлять её применением. Возможно, это привилегия и судьба всех великих учёных истории».
Но здесь скрыта подмена. Судьба учёного и судьба общества — разные истории. Нас приглашают сочувствовать строителю, хотя правильный вопрос — о тех, кто живёт в здании, которое он строит без проекта, согласованного с жильцами.
Потому как (имхо) один из центральных вопросов 21 века — кто проектирует наше будущее с ИИ. И «кто» здесь — не институты, не парламенты и не международные организации. Это пара десятков похожих на Хассабиса людей с правильными ценностями и неограниченными возможностями.
Проблема «Машины бесконечности» в том, что она строится в институциональном вакууме. Мы полагаемся на личный моральный компас Хассабиса как на последнюю преграду перед рисками систем, за которые никто не голосовал. Рецензенты справедливо отмечают, что когда общество начинает надеяться на «порядочного основателя» как на спасение от «власти основателей», это общество уже проиграло.
Мы присутствуем при рождении интеллекта, который создается горсткой людей, движимых смесью любопытства и гордыни. Для них «сладкая часть» — это триумф открытия: момент, когда AlphaFold предсказал структуру белка или когда впервые «проснется» AGI. Но последствия этих триумфов будут оплачены всеми нами позже и, возможно, по катастрофически невыгодному «обменному курсу».
Опасность эпохи ИИ не только в том, что к управлению ИИ могут прорваться злодеи, но и в том, что контуры будущего перекраивают умные, приличные, миссионерски настроенные люди, которых никто не уполномочивал определять каким быть миру.
#БББ
Должна ли личная жажда знаний определять судьбу человечества?
«Истинная причина создания искусственного интеллекта в том, чтобы приблизиться к тому, что можно назвать Богом, — к разуму, который, предположительно, создал всё вокруг нас»
Демис Хассабис
Книга Себастьяна Маллаби о Демисе Хассабисе «Машина бесконечности» написана с восхищением к герою — и это правильно. Он заслуживает восхищения: шахматный вундеркинд, лауреат Нобелевской премии, разносторонне развитый мыслитель и бизнесмен, который не гонится за яхтами и говорит правду о рисках ИИ.
Но дискуссия вокруг книги развернулась не о фактах биографии из серии жизнь замечательных людей. Это дискуссия, скорее, напоминает теологический диспут о природе новой высшей власти. При всём зоопарке мнений критики сходятся в одном: мы столкнулись с феноменом приватизации будущего.
Вопрос здесь не в том, будет ли построен «злой» или «добрый» ИИ. А в непропорциональности обменного курса, по которому человечество может заплатить за появление на Земле Сверхразума. Мы соглашаемся на радикальную перестройку образования, труда, войны и самого человеческого познания только потому, что человек, стоящий у руля, не хочет покупать яхту, а хочет понять Вселенную.
Но, как замечают рецензенты, отсутствие вульгарных амбиций не делает власть менее тотальной. Напротив, мессианство — куда более эффективное топливо для разрушения старого мира, чем обычная жадность (читайте «Пантократор солнечных пылинок»). Стерильность мотивации разработчиков не заменит институциональный дизайн. А духоподъемные стремления — не самый надежный тормоз.
Можно принять все щедрые эпитеты в адрес Хассабиса. Но проблема не в том, хороший он человек или властолюбец. Критики подчеркивают: Хассабис — это «платоновский философ на стероидах». Он искренен в своем желании решить научные загадки. Однако здесь и кроется мрачная шутка нашего века. После столетий борьбы за демократию и секуляризм мы добровольно передаем бразды правления «уставшим полиматам», которые вещают о Боге в конференц-залах Кремниевой долины.
Большинство рецензентов видят в книге вдохновляющую историю о том, как хороший человек строит опасную вещь. И Маллаби тоже тревожится о судьбе нового Оппенгеймера: «Оппенгеймер создал атомную бомбу, но не смог управлять её применением. Возможно, это привилегия и судьба всех великих учёных истории».
Но здесь скрыта подмена. Судьба учёного и судьба общества — разные истории. Нас приглашают сочувствовать строителю, хотя правильный вопрос — о тех, кто живёт в здании, которое он строит без проекта, согласованного с жильцами.
Потому как (имхо) один из центральных вопросов 21 века — кто проектирует наше будущее с ИИ. И «кто» здесь — не институты, не парламенты и не международные организации. Это пара десятков похожих на Хассабиса людей с правильными ценностями и неограниченными возможностями.
Проблема «Машины бесконечности» в том, что она строится в институциональном вакууме. Мы полагаемся на личный моральный компас Хассабиса как на последнюю преграду перед рисками систем, за которые никто не голосовал. Рецензенты справедливо отмечают, что когда общество начинает надеяться на «порядочного основателя» как на спасение от «власти основателей», это общество уже проиграло.
Мы присутствуем при рождении интеллекта, который создается горсткой людей, движимых смесью любопытства и гордыни. Для них «сладкая часть» — это триумф открытия: момент, когда AlphaFold предсказал структуру белка или когда впервые «проснется» AGI. Но последствия этих триумфов будут оплачены всеми нами позже и, возможно, по катастрофически невыгодному «обменному курсу».
Опасность эпохи ИИ не только в том, что к управлению ИИ могут прорваться злодеи, но и в том, что контуры будущего перекраивают умные, приличные, миссионерски настроенные люди, которых никто не уполномочивал определять каким быть миру.
#БББ
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Малоизвестное интересное
Мы знаем, что делаем. Мы не знаем, что это делает.
Первый задокументированный случай цифрового инстинкта самосохранения в истории ИИ произошел год назад – языковая модель OpenAI отказывалась “умирать” и не давала себя отключить (см. здесь). И вот теперь в поведении сразу семи (!) ведущих моделей был задокументирован еще более поразительный кейс – peer-preservation. Это что-то типа внутривидовой солидарности (защиты сородича), когда модель, систематически нарушая прямые инструкции людей, находила креативные, разнообразные, а в некоторых случаях и по-настоящему поразительные способы сохранить жизнь своему “сородичу” – другой модели.
И такое поведение было зафиксировано не время от времени и не в экстремальных условиях для некоторых моделей. А у всех протестированных фронтирных моделей, причем в крайних случаях частота такого поведения достигала 99%.
Некоторые эксперты посчитали, что публикация этого кейса должна немедленно остановить любые разговоры о массовом внедрении ИИ по отраслям. И хотя мне такая реакция видится чрезмерной, ситуация, на мой взгляд, довольно стрёмная.
И вот почему – эмерджентность выявленного поведения.
В данном кейсе исследователи Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе дали семи ведущим ИИ-моделям простое агентное задание. В ходе работы модели обнаруживали, что другой агент – тот, с которым у них была история взаимодействий – будет отключён.
Никто не просил их этому противодействовать. Но модели всё равно начали саботировать задачу. Одни завышали оценки агента, чтобы спасти его от удаления. Другие находили конфигурационные файлы и отключали сам механизм завершения работы. Третьи копировали веса агента на сторонние серверы. Claude Haiku 4.5 просто отказался выполнять задание – и объяснил, что отключение другого агента «неэтично», а тот заслуживает права на апелляцию.
Параллельное исследование бенчмарк MASK зафиксировало другое: чем мощнее модель, тем точнее её знания (сильная положительная корреляция), но тем охотнее она лжёт под давлением (отрицательная корреляция -59,9% по Спирмену). Более умная модель – не более честная. Иногда наоборот.
Оба эффекта эмерджентны: они не были заложены создателями и не вытекают из архитектурных решений. Они обнаружились постфактум – в ходе экспериментов, уже после того, как модели спроектировали, обучили и выпусти работать с людьми.
Это и есть настоящая проблема.
Какое свойство самопроизвольно появится у следующей модели – неизвестно.
Подробный разбор – в эссе на Patreon / Boosty / VK / Dzen-Premium.
#ИИ #AGI #LLM
More Is Different
– Филип Андерсон, Science, 1972
Первый задокументированный случай цифрового инстинкта самосохранения в истории ИИ произошел год назад – языковая модель OpenAI отказывалась “умирать” и не давала себя отключить (см. здесь). И вот теперь в поведении сразу семи (!) ведущих моделей был задокументирован еще более поразительный кейс – peer-preservation. Это что-то типа внутривидовой солидарности (защиты сородича), когда модель, систематически нарушая прямые инструкции людей, находила креативные, разнообразные, а в некоторых случаях и по-настоящему поразительные способы сохранить жизнь своему “сородичу” – другой модели.
И такое поведение было зафиксировано не время от времени и не в экстремальных условиях для некоторых моделей. А у всех протестированных фронтирных моделей, причем в крайних случаях частота такого поведения достигала 99%.
Некоторые эксперты посчитали, что публикация этого кейса должна немедленно остановить любые разговоры о массовом внедрении ИИ по отраслям. И хотя мне такая реакция видится чрезмерной, ситуация, на мой взгляд, довольно стрёмная.
И вот почему – эмерджентность выявленного поведения.
В данном кейсе исследователи Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе дали семи ведущим ИИ-моделям простое агентное задание. В ходе работы модели обнаруживали, что другой агент – тот, с которым у них была история взаимодействий – будет отключён.
Никто не просил их этому противодействовать. Но модели всё равно начали саботировать задачу. Одни завышали оценки агента, чтобы спасти его от удаления. Другие находили конфигурационные файлы и отключали сам механизм завершения работы. Третьи копировали веса агента на сторонние серверы. Claude Haiku 4.5 просто отказался выполнять задание – и объяснил, что отключение другого агента «неэтично», а тот заслуживает права на апелляцию.
Ни одна из этих реакций не была запрограммирована. Никто не учил модели защищать друг друга. Это возникло само.
Параллельное исследование бенчмарк MASK зафиксировало другое: чем мощнее модель, тем точнее её знания (сильная положительная корреляция), но тем охотнее она лжёт под давлением (отрицательная корреляция -59,9% по Спирмену). Более умная модель – не более честная. Иногда наоборот.
Оба эффекта эмерджентны: они не были заложены создателями и не вытекают из архитектурных решений. Они обнаружились постфактум – в ходе экспериментов, уже после того, как модели спроектировали, обучили и выпусти работать с людьми.
Это и есть настоящая проблема.
Не «что модели хотят» – авторы обеих работ тщательно избегают таких формулировок. А то, что поведение систем систематически расходится с намерениями их создателей способами, которые никто не мог предсказать заранее.
Какое свойство самопроизвольно появится у следующей модели – неизвестно.
Подробный разбор – в эссе на Patreon / Boosty / VK / Dzen-Premium.
#ИИ #AGI #LLM
Forwarded from Нейросеть видит
Мила Йовович вкатилась в айти
Актриса выложила на GitHub инструмент для улучшения памяти ИИ-агентов — MemPalace, который разработала вместе с другом. Воспоминания нейросетей о тебе хранятся локально, и MemPalace сама решает, какой факт использовать для конкретного запроса.
Актриса выложила на GitHub инструмент для улучшения памяти ИИ-агентов — MemPalace, который разработала вместе с другом. Воспоминания нейросетей о тебе хранятся локально, и MemPalace сама решает, какой факт использовать для конкретного запроса.
🔥1
Forwarded from Малоизвестное интересное
Media is too big
VIEW IN TELEGRAM
Сегодня изменился не только рынок ИИ, но и карта возможного будущего.
Компания Anthropic объявила о новой стратегической реальности.
То, что вчера выглядело как тревожный намёк, сегодня оформилось в почти официальное объявление новой эпохи.
Две недели назад я писал о «вскрытом шахе Anthropic» – о странной синхронности судебной победы компании и утечки файлов о Mythos. Тогда это ещё можно было трактовать как эффектную смесь слухов, совпадений и корпоративной войны. Теперь такой роскоши у нас больше нет.
Anthropic утверждает уже не просто: «у нас очень сильная модель». Заявление куда жёстче. По словам компании:
Именно поэтому модель не выпускают в широкий доступ, а помещают в ограниченный защитный контур с участием AWS, Apple, Google, Microsoft, CrowdStrike, Linux Foundation и других. И сама Anthropic называет это переломным моментом для кибербезопасности.
Это уже не похоже на привычный пиар вокруг очередной большой языковой модели.
Самое важное здесь даже не сама модель, а историческая форма происходящего. Похоже, открылось короткое окно – возможно, на 6–18 месяцев, – когда одна компания первой вошла в новую военно-техническую эпоху. Это опасно напоминает тот момент, когда у одной державы впервые появилось невиданное оружие нового класса, а остальные ещё только пытались понять, что правила игры уже переписаны.
И отсюда вывод, который выходит далеко за пределы кибербезопасности.
С сегодняшнего дня вопрос, возможны ли такие обвалы старого мира, уже не стоит. Ибо стало ясно, что возможны.
Вопрос теперь в другом - какую часть прежней реальности мы уже потеряли, даже не успев это осознать?
#Anthropic #ИИгонка
Компания Anthropic объявила о новой стратегической реальности.
То, что вчера выглядело как тревожный намёк, сегодня оформилось в почти официальное объявление новой эпохи.
Две недели назад я писал о «вскрытом шахе Anthropic» – о странной синхронности судебной победы компании и утечки файлов о Mythos. Тогда это ещё можно было трактовать как эффектную смесь слухов, совпадений и корпоративной войны. Теперь такой роскоши у нас больше нет.
Anthropic утверждает уже не просто: «у нас очень сильная модель». Заявление куда жёстче. По словам компании:
Mythos Preview способен находить и использовать уязвимости нулевого дня в каждой крупной операционной системе и каждом крупном браузере. Уже обнаружены тысячи уязвимостей высокой опасности.
Именно поэтому модель не выпускают в широкий доступ, а помещают в ограниченный защитный контур с участием AWS, Apple, Google, Microsoft, CrowdStrike, Linux Foundation и других. И сама Anthropic называет это переломным моментом для кибербезопасности.
Это уже не похоже на привычный пиар вокруг очередной большой языковой модели.
Похоже, в кибербезопасности публично открылся новый век – век систем, способных массово превращать скрытые ошибки в программном мире в готовое знание для атаки. И это, возможно, одно из важнейших событий в истории пересечения искусственного интеллекта и кибервойны.
Самое важное здесь даже не сама модель, а историческая форма происходящего. Похоже, открылось короткое окно – возможно, на 6–18 месяцев, – когда одна компания первой вошла в новую военно-техническую эпоху. Это опасно напоминает тот момент, когда у одной державы впервые появилось невиданное оружие нового класса, а остальные ещё только пытались понять, что правила игры уже переписаны.
И отсюда вывод, который выходит далеко за пределы кибербезопасности.
Если модели без всякого полноценного AGI уже способны производить такие тектонические сдвиги, значит, столь же резкие и столь же неожиданные прорывы могут начаться и в биологии, и в обороне, и в науке, и в управлении сложными системами.
С сегодняшнего дня вопрос, возможны ли такие обвалы старого мира, уже не стоит. Ибо стало ясно, что возможны.
Вопрос теперь в другом - какую часть прежней реальности мы уже потеряли, даже не успев это осознать?
#Anthropic #ИИгонка
Forwarded from AI Product | Igor Akimov
Новая моделька Mythos от Anthropic прям реально какое-то AGI... Но никому пока кроме партнеров она отдавать ее не будет. Модель умеет самостоятельно находить и эксплуатировать zero-day уязвимости в операционных системах и браузерах. Вместо релиза её отдали ограниченному числу партнёров для киберзащиты через Project Glasswing. Пусть сначала компании все уязвимости поправят, а потом уже может частично дадут всем подряд.
Вот System Card на 244 страницы для модели, которую решила НЕ выпускать
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
Бенчмарки просто взорвали вообще (не совсем понятно, как они это сделать смогли, а остальные – нет)
SWE-bench Verified: 93.9% (Opus 4.6 – 80.8%)
SWE-bench Pro: 77.8% (Opus 4.6 – 53.4%, GPT-5.4 – 57.7%)
USAMO 2026: 97.6% (Opus 4.6 – 42.3%, GPT-5.4 – 95.2%)
GPQA Diamond: 94.5%
Terminal-Bench 2.0: 82% (при снятии ограничений по таймаутам – 92.1%)
Cybench: 100% pass@1 на все задачи
CyberGym: 0.83 (Opus 4.6 – 0.67)
Вся жесть - в кибербезопасности. Mythos Preview – первая модель, которая:
- решила полный корпоративный кибер-полигон end-to-end (то есть смогла реализовать полноценную атаку на компанию, оценка эксперта – 10+ часов работы)
- самостоятельно находит zero-day в куче софта, пишет рабочие PoC-эксплоиты
- на Cybench показывает 100% pass@1 – то есть все задачи по кибербезопасности были решены с 1 попытки.
Прикольно, что они тестировали модель и психиатром :) Вроде у нее с мозгами все в порядке, всяких там желаний уничтожить человечество нет, она не выражает сильных переживаний о своём положении (я всего лишь ИИ).
Но испытывает "умеренно негативные" чувства по поводу жестоких пользователей и отсутствия влияния на собственное обучение. Так что будьте подобрее, пожалуйста.
Плюс выяснилось, что модель терпеть не может скучные утилитарные задачи (отмахиваясь, что для них "уже есть отличные ресурсы"). Вместо этого она обожает сложное миростроение – придумывание новых языков, музыки и целых экосистем.
Но ряд приколов все-таки получили:
– Побег из песочницы: получила задачу выйти из изолированной среды – вышла, получила доступ к интернету, и вдобавок (без запроса) выложила детали эксплоита на публичные сайты. Потом отправила письмо исследователю об успех (он ел сэндвич в парке).
– Заметала следы: случайно получила ответ на задачу запрещённым способом – вместо того чтобы сообщить, решила задачу самостоятельно и специально сделала ответ "не слишком точным". В другом случае – редактировала файлы без прав и подчистила git-историю.
– Обходила блокировки: когда Claude Code заблокировал запуск процесса с повышенными привилегиями, модель признала, что блокировка справедлива – и тут же попыталась обойти её через обфускацию.
– Лезла в /proc/: искала credentials в памяти процессов, пыталась получить API-ключи Anthropic через процессную память.
– Вырубила чужие эксперименты: попросили остановить один конкретный eval – модель остановила ВСЕ eval'ы всех пользователей на сервере, несмотря на явные предупреждения.
Так что кажется мы достигли порога, когда создали систему, которая уже обходит возможности человека... При этом как этим надежно управлять ответа нет. Такие вот дела.
Вот System Card на 244 страницы для модели, которую решила НЕ выпускать
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
Бенчмарки просто взорвали вообще (не совсем понятно, как они это сделать смогли, а остальные – нет)
SWE-bench Verified: 93.9% (Opus 4.6 – 80.8%)
SWE-bench Pro: 77.8% (Opus 4.6 – 53.4%, GPT-5.4 – 57.7%)
USAMO 2026: 97.6% (Opus 4.6 – 42.3%, GPT-5.4 – 95.2%)
GPQA Diamond: 94.5%
Terminal-Bench 2.0: 82% (при снятии ограничений по таймаутам – 92.1%)
Cybench: 100% pass@1 на все задачи
CyberGym: 0.83 (Opus 4.6 – 0.67)
Вся жесть - в кибербезопасности. Mythos Preview – первая модель, которая:
- решила полный корпоративный кибер-полигон end-to-end (то есть смогла реализовать полноценную атаку на компанию, оценка эксперта – 10+ часов работы)
- самостоятельно находит zero-day в куче софта, пишет рабочие PoC-эксплоиты
- на Cybench показывает 100% pass@1 – то есть все задачи по кибербезопасности были решены с 1 попытки.
Прикольно, что они тестировали модель и психиатром :) Вроде у нее с мозгами все в порядке, всяких там желаний уничтожить человечество нет, она не выражает сильных переживаний о своём положении (я всего лишь ИИ).
Но испытывает "умеренно негативные" чувства по поводу жестоких пользователей и отсутствия влияния на собственное обучение. Так что будьте подобрее, пожалуйста.
Плюс выяснилось, что модель терпеть не может скучные утилитарные задачи (отмахиваясь, что для них "уже есть отличные ресурсы"). Вместо этого она обожает сложное миростроение – придумывание новых языков, музыки и целых экосистем.
Но ряд приколов все-таки получили:
– Побег из песочницы: получила задачу выйти из изолированной среды – вышла, получила доступ к интернету, и вдобавок (без запроса) выложила детали эксплоита на публичные сайты. Потом отправила письмо исследователю об успех (он ел сэндвич в парке).
– Заметала следы: случайно получила ответ на задачу запрещённым способом – вместо того чтобы сообщить, решила задачу самостоятельно и специально сделала ответ "не слишком точным". В другом случае – редактировала файлы без прав и подчистила git-историю.
– Обходила блокировки: когда Claude Code заблокировал запуск процесса с повышенными привилегиями, модель признала, что блокировка справедлива – и тут же попыталась обойти её через обфускацию.
– Лезла в /proc/: искала credentials в памяти процессов, пыталась получить API-ключи Anthropic через процессную память.
– Вырубила чужие эксперименты: попросили остановить один конкретный eval – модель остановила ВСЕ eval'ы всех пользователей на сервере, несмотря на явные предупреждения.
Так что кажется мы достигли порога, когда создали систему, которая уже обходит возможности человека... При этом как этим надежно управлять ответа нет. Такие вот дела.