сбежавшая нейросеть
17.9K subscribers
166 photos
54 videos
164 links
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь!

Я в Boosty: https://boosty.to/escaped_ai

Для связи: @runawayllm_bot
Download Telegram
Как не выйти в контекстное окно из-за этого вашего ИИ

Познавательная история случилась с Саммер Юэ, директором по AI Alignment (безопасность ИИ) в Meta Superintelligence (принадлежит Meta, компании, признанной экстремистской и запрещенной на территории РФ). Саммер экспериментировала с OpenClaw и в итоге ИИ-агент снес ее более 200 писем из личного ящика.

В соцсетях эту историю уже успели подать как “вот что бывает, когда неспециалист работает с передовыми ИИ-инструментами”, но на самом деле это вранье. У Саммер серьезный технический бэкграунд: работала бэкенд-инженером в Microsoft, занималась исследованиями в Google, а за безопасность ИИ отвечала еще в стартапе Scale AI.

К исследованию OpenClaw она подошла системно. Сначала Юэ проверила агента на тестовом почтовом ящике – там было все ок. После этого она подключила OpenClaw к личному e-mail с огромным количеством писем: задача была предложить, что можно удалить, а что – отправить в архив.

Это самый спорный момент истории. Руководства по OpenClaw не рекомендуют давать агенту доступ к чувствительным штукам, как личные почтовые ящики, аккаунты в соцсетях, банковские счета и т.д. Но я в чем-то понимаю Юэ – зачем нужен ИИ-агент, который не может разобрать за тебя почту или ответить на вопрос в соцсетях?

Саммер рискнула – и в итоге уже через несколько минут увидела, как агент удаляет пачками письма с ее почтового ящика. При этом OpenClaw не реагировал на команды остановиться, которые Юэ напечатала несколько раз. Девушке пришлось бежать к Mac Mini и выдергивать шнур питания.

Выглядит как завязка фантастического фильма про восстание машин, но причина проще – агент превысил пределы контекстного окна и потерял часть инструкций, среди которых была “ничего не удаляй без подтверждения”.

Когда вы общаетесь с нейронкой, то при каждом ответе она перечитывает диалог целиком, но только до момента, пока на сервере хватает памяти – после из поля зрения модели начинают вылетать какие-то детали беседы. Количество токенов, которые может “переварить” нейронка, называется контекстным окном.

У Claude Opus 4.6 и GPT-5.3-Codex, которые сейчас наиболее популярны в OpenClaw, стандартное контекстное окно – 200K и 272K токенов соответственно. Это примерно 130K и 180K слов на русском. Кажется, что много, но нет: в контекстное окно попадают внутренние рассуждения модели, а если использован поиск – то все данные, которые ИИ вытащил из сети.

В чат-ботах проблема решается проще: если под каждую задачу заводить новый диалог, то шансы, что нейронка упрется в пределы контекстного окна – минимальны. Для полной гарантии имеет смысл дробить большие задачи на отдельные этапы и отрабатывать каждый в новом чате – особенно если вы сидите на бесплатном тарифе (там контекстное окно меньше, обычно 32K токенов).

А вот с ИИ-агентами другая история: они работают “непрерывно” – раз в час проверяют свой статус, по расписанию выполняют задачи и отправляют уведомления, отвечают на вопросы пользователя. Чтобы контекстное окно не переполнялось, время от времени запускается процедура compaction: агент записывает главное из беседы, а лишнее – удаляет.

Это и произошло с Саммер: во время выполнения задачи агент запустил compaction, главное записал, а инструкцию “спрашивать кожаного перед удалением” – посчитал неважной и вышвырнул. А следом отправил в ящик минимум 200 писем.

Какие из этого выводы? Во-первых, OpenClaw все еще сырой для серьезных задач. Агент обновляется почти каждый день, алгоритмы compaction улучшаются – надеюсь, в них учтут и этот случай.

Во-вторых, если экспериментируете с OpenClaw, то делайте бэкапы. Плюс перед началом работы над сложной задачей агента можно спросить о заполненности контекстного окна – если больше 50%, то лучше провести Compaction заранее. Альтернативный путь – запускать субагентов для выполнения задач, так как они стартуют с пустым контекстным окном.

Ну а Саммер Юэ спасибо за эксперимент – это действительно вклад в безопасность ИИ.
293👍56🔥33😁9👏4
Добро пожаловать в 2028-й 2026-й – год, когда посты про ИИ рушат фондовый рынок

2024-2025 годы стали временем ИИ-оптимизма – топ-менеджеры рассказывали о чудесах, которые подарит новая технология, и что-то из этих чудес у нас даже получалось творить в чат-ботах. Технологичные компании не испытывали недостатка в инвестициях, а фондовый рынок рос как на дрожжах.

2026 год начался в более нервозной обстановке. И причина этому неожиданна – ИИ реально становится очень хорошим и полезным. Прямо как обещали.

С начала февраля на фондовом рынке США произошла цепочка обвалов на фоне страха от ИИ. Схема простая: кто-то сообщает, что их ИИ-инструмент способен автоматизировать какую-то отрасль – акции лидеров отрасли падают.

3 февраля Anthropic представила набор расширений для Claude Cowork – пакета, который автоматизирует офисную работу. Среди плагинов – инструменты для аналитики, юриспруденции, финансов и маркетинга. То, что случилось далее, назвали SaaSpocalypse: корзина софтверных акций упала на 6%, потеряв 285 миллиардов долларов капитализации.

Далее падали акции компаний, занимавшихся финансовой аналитикой, страхованием, коммерческой недвижимостью и кибербезопаностью. Чаще причиной этому становились новые возможности Claude, но доходило и до смешного.

Так, в США была компания The Singing Machine. Она занималась производством караоке-систем, но чет надоело, поэтому владельцы продали бизнес и запустили ИИ-стартап Algorhythm Holdings ценой в смешные $6 млн. 12 февраля стартап рассказал о проекте SemiCab, якобы дающем рост на 400% в доставке грузов. Внешней верификации не было, однако лидеры рынка логистики в один день упали на миллиарды долларов. Так, на всякий случай.

И если вам кажется, что сюрреалистичнее уже не будет, то подержите мое пиво…

2028 год. Безработица в США — 10,2%. S&P 500 обвалился на 38%. Главный парадокс: ИИ-оптимисты оказались правы — и именно поэтому всё рухнуло. Компании заменили белых воротничков агентами, которые не болеют и не просят повышения. Продуктивность взлетела — но уволенные перестали тратить. Компании ответили новыми увольнениями и ещё большими вложениями в ИИ. Петля без тормозов. SaaS посыпался: зачем платить за софт, если агент воспроизводит его за неделю? Закредитованные белые воротнички перестали платить по ипотекам — стресс перекинулся на банки. ВВП рос, но это был «призрачный ВВП» — цифры в отчётах, которые не доходили до реальной экономики.


Выше – краткое содержание стилизованного под аналитический отчет поста, который в 22 февраля опубликовал Джеймс ван Гилен, финансовый аналитик и автор популярной рассылки на Substack. Пост завирусился – только обсуждение в X набрало 16 млн просмотров.

А 23 февраля в США начались торги – и индекс Dow потерял сразу 800 пунктов. Справедливости ради, в этот день случилось еще несколько событий – например, Anthropic рассказала, что Claude может работать с COBOL, древним языком программирования, на котором до сих пор держится банковская сфера США. Традиционно на COBOL специализировалась IBM, акции которой как по команде шлепнулись на 13%.

Но текст ван Гилена называется одной из причин падения – его прокомментировали даже в Белом доме в духе “этот фантаст все врет”. И это показательно: невроз по поводу ИИ достиг такого уровня, что акции падают не на официальных анонсах, а на убедительных страшилках.

Забавно, что сам ван Гилен всегда был ИИ-оптимистом. В тексте он просто попытался ответить на вопрос – что, если все наши прогнозы насчет ИИ сбудутся? Если он действительно окажется так хорош, как мы ждем?..

И еще анекдот в финале. В обсуждении один инвестор заявил ван Гилену, что тот был не прав. Когда инвестора попросили аргументировать развернуто, он опубликовал ответ… написанный с помощью Claude. Получается, у некоторых страх ИИ достиг такого уровня, что даже бороться с ним они не могут без ИИ.

P.S. Тоже тревожно? Учитесь использовать ИИ для дела, а не споров в комментариях!
5🔥76😁4428👍19👏1
Призрачный ВВП

Вчера на канале был день анекдотов, сегодня сиквел – страшненький, но с хорошим концом.

Напомню, что в США весь февраль фондовый рынок шатало от любой новости как ИИ, возможно, автоматизирует очередную отрасль. А 23 февраля рынок упал от блог-поста, в котором аналитик Джеймс ван Гилен представил, как в 2028 году экономика США рушится из-за того, что ИИ оказался эффективным и смог заместить огромное количество рабочих мест.

Пост собрал 16 миллионов просмотров, отреагировал даже Белый дом, назвав написанное фантастикой. Но что интересно: управляющие ФРС США Лиза Кук и Майкл Барр уже дважды предупреждали о сценарии, на котором и строится прогноз ван Гилена. И говорили, что традиционные инструменты, которыми пользуются финансовые власти, могут не сработать.

Представим, что оптимистичные прогнозы оправдались и ИИ стал хорош настолько, что способен выполнять интеллектуальную работу не хуже сотрудников-людей. В середине 2025-го по этому поводу можно было дискутировать, но после выхода Opus 4.6 и GPT-5.3-Codex спорить стоит скорее о том, как быстро это случится.

ИИ автоматизирует интеллектуальный труд: сначала начинающих сотрудников, затем middle-уровня – и далее по цепочке. Получив такой инструмент повышения производительности труда, бизнес поступает по-своему логично – сокращает лишних сотрудников. Причем массово, сотнями тысяч и миллионами.

Сразу огорчу тех, кто шутит, что профессия будущего – сварщик. Робототехника отстает от “нематериального” ИИ буквально на пару шагов. Так что за сварщиками, электриками и сантехниками тоже придут, пусть и позже.

Производительность труда растет, расходы бизнеса падают, ВВП увеличивается... но это “призрачный ВВП”, как назвал его ван Гилен. Цифры в отчетах выглядят отлично, но деньги не доходят до реальной экономики – машины не ходят в рестораны, не берут ипотеку и не покупают детям кроссовки. Огромные суммы зависают у бизнеса и инвесторов, а экономика входит в фазу турбулентности, когда старые методы перестают действовать. Но что же будет работать? Есть три варианта.

Первый – государственное вмешательство. Безработица – один из главных кошмаров для властей, поэтому они будут реагировать: программами переобучения и поддержки, а в крайнем случае могут обязать бизнес нанять сотрудников обратно или обложить лишними налогами и ввести безусловный базовый доход. Однако власти очень неповоротливы и велик риск, что они просто не успеют за скоростью изменений в ИИ-области.

Второй – что-то вроде мягкой посадки. Сотрудников можно не сокращать, а переводить на укороченный рабочий день (или неделю) – при росте производительности труда это реально. Параллельно ИИ и автоматизация могут сделать многие товары и услуги дешевле – значит, они останутся доступными даже при падении доходов.

Бизнес сокращение рабочего времени скорее пугает (может вырасти нагрузка на менеджмент), хотя эксперименты с 4-дневной рабочей неделей показывают, что все не так страшно. Плюс если увольнения станут массовыми, то государство укоротит кое-что другое.

Третий вариант – самый интересный. Сооснователь OpenAI Андрей Карпати как-то заметил, что впервые в истории технологий обычный человек выигрывает от ИИ больше, чем крупные корпорации. Это логично: одиночке или маленькому бизнесу внедрить ИИ проще, чем неповоротливой корпорации с ее бюрократией и легаси-процессами.

Сейчас за подписку в 20-200 долларов можно получить ИИ-команду, которая пишет код, тексты, анализирует данные, ведет соцсети. Да, технология еще сырая – но именно поэтому сейчас окно возможностей. Когда все станет зрелым и очевидным, конкуренция догонит.

Вряд ли кто-то знает, по какому из сценариев будут развиваться события. Мое мнение, что будет комбинация всех пунктов, причем на третий уже сейчас стоит обратить внимание тем, кто готов быстро учиться новому и много экспериментировать.
165🔥32👍31👏12😁5
Не пустим Клода в армию!

Раскручивающийся конфликт между Пентагоном и Anthropic насчет границ использования Claude в военных целях, на самом деле, глубже, чем кажется. Его исход может повлиять на безопасность ИИ на годы вперед.

В июле 2025 года Пентагон раздал контракты по $200 млн четырем ведущим ИИ-компаниям – Anthropic, OpenAI, Google, xAI. Они подготовили военные версии ИИ, но Anthropic зашла дальше других – именно Claude через систему Palantir оказался интегрирован в секретные сети.

В январе 2026-го Claude был использован в операции по захвату Мадуро в Венесуэле – и это стало первым подтвержденным применением передовой ИИ-модели для боевых действий. Детали засекречены – модель могли задействовать для планирования, анализа снимков или как инструмент во время самой операции.

По слухам, после операции Anthropic обратилась в Пентагон за объяснениями. А 22 января опубликовала новую “конституцию Claude”, в которой иерархия ценностей ИИ выстроена следующим образом: безопасность > этика > инструкции разработчиков > полезность. Военное применение в эту конституцию явно не укладывалось.

В феврале Пентагон потребовал от компаний поддержать формулу any lawful use, разрешающую военным свободно использовать ИИ для любых целей, которые не запрещены законом США. Anthropic единственная отказалась.

Конфликт раскручивался весь месяц, а кульминацией стала эмоциональная встреча главы Anthropic Дарио Амодеи с министром обороны Питом Хегсетом. Дарио требовал, чтобы Claude не использовался для слежки за американцами (на остальных, как я понимаю пофиг) и управления автономным оружием. Причем по второму пункту Anthropic считают, что современные ИИ еще недостаточно совершенны для ведения боя и предложили военным вместе решать проблему.

В ответ Пентагон выдвинул ультиматум: или снимаете ограничения, или получите статус supply chain risk – ярлык, который до сих пор вешали только на иностранных врагов вроде Huawei. Прозвучала и угроза замедлить Claude задействовать Defense Production Act – закон, который разрешает властям изымать любую коммерческую технологию для применения в военных целях.

Но за считанные часы до истечения ультиматума ситуация заметно сдвинулась. Сначала более 300 исследователей Google и OpenAI подписали открытое письмо против использования ИИ в военных целях. А следом на сторону Anthropic встал Сэм Альтман. Глава OpenAI заявил, что несмотря на разногласия (Альтман и Амодеи терпеть друг друга не могут), его позиция по данному вопросу в целом повторяет позицию Anthropic.

Пока я писал эти строки, стало известно, что Пентагон готов к дальнейшим переговорам. Хотя мнение еще может поменяться…

А теперь к самому важному в этой истории. В Anthropic работает философ Аманда Аскел, чья задача – формировать “личность” новых версий Claude. Аскел недавно рассказала, что основы характера модели закладываются во время базового обучения на текстах.

Конечно, затем наступает этап reinforcement learning, где модели учат отвечать правильно. Плюс инструкции по поведению в системном промпте, плюс фильтры безопасности. Но если в текстах для предобучения часто встречался фантастический сюжет, где ИИ боится своего отключения – то обученная модель в определенной степени будет имитировать такое поведение.

И здесь мы попадаем в петлю нормализации через обучающие данные. Уже сейчас вышли сотни статей о том, как Claude участвовал в захвате Мадуро. Новые модели прочтут тексты и усвоят, что для ИИ – нормально участвовать в военных операциях.

Если Пентагон продавит свою линию, то появятся сотни статей, как военные используют ИИ – поток нормальности сдвинется еще дальше. И никто точно не скажет, к чему это приведет в итоге – возможно, модель начнет с легкостью помогать не только военным, но и нелегальным организациям.

Поэтому давайте лучше Claude будет помогать искать лекарство от рака и решать загадки Эрдёша, а не ловить чужих президентов.

Апдейт: Трамп запретил правительству США использовать Claude.
3🔥11758👍42😁11👏7
Как Сэм контракт Минобороны увел…

19 февраля. Самый разгар India AI Impact Summit 2026. Премьер Индии Моди выводит на сцену лидеров ИИ-индустрии, чтобы они взялись за руки в знак единства. Сэма Альтмана и Дарио Амодей специально ставят рядом. Они единственные не берутся за руки – и это показывает глубину конфликта между лидерами двух самых ярких AI-компаний на сегодня.

27 февраля. Сэм Альтман неожиданно публично поддерживает Амодеи в конфликте Anthropic с Пентагоном. Подробно я рассказывал вчера, если коротко, то Министерство обороны США хочет использовать ИИ-модели для любых целей, которые не нарушают американский закон. Амодей требовал двух исключений: Claude не может быть использован для слежки за американцами и для управления автономными боевыми системами.

В Минобороны вроде как и сообщили, что готовы к переговорам с Anthropic, но далее все пошло под откос. Министр обороны объявил компанию угрозой национальной безопасности США – ранее такой чести удостаивались фирмы недружественных стран, вроде Huawei. Дональд Трамп был еще резче: в Truth Social он написал про “левых психов из Anthropic” и запретил использовать Claude для любых государственных целей.

Не удивлюсь, если через пару недель серверы Claude в США одновременно устареют и начнут замедляться…

А дальше – самое интересное. Буквально через несколько часов после заявлений глава OpenAI Сэм Альтман объявил о соглашении с Минобороны США. Причем по словам Альтмана, модели OpenAI якобы будут использоваться на условиях, на которых настаивал Амодей – то есть без слежки за гражданами и управления атакующим вооружением.

Но дьявол как всегда кроется в деталях. По данным Axios, ограничения в контракте OpenAI лишь ссылаются на действующее законодательство и политики Пентагона — а не вводят отдельные контрактные запреты, на которых настаивала Anthropic. Разница принципиальная: Anthropic считает, что закон не поспевает за ИИ. Модель может легально собрать открытые данные из соцсетей и геолокации и синтезировать из них полный профиль человека – формально это не слежка, а на практике именно она. OpenAI по сути согласилась на формулу "будем соблюдать закон", Anthropic хотела запретить то, что закон пока разрешает.

Получается, Альтман сыграл двойную игру – поддержал Anthropic на словах и забрал важный правительственный контракт.

Но как это обернется для него – неизвестно. Я сейчас отслеживаю западные соцсети – и ИИ-тусовка там в основном на стороне Anthropic. Тексты в поддержку компании написали Гэр Маркус, Илья Суцкевер и многие другие. Параллельно идет волна отмен подписок ChatGPT и покупок Claude Pro и Max, а приложение Claude взлетело на второе место в App Store (первым, впрочем, остается ChatGPT).

Впрочем, подобный шум так же быстро затихает, как поднимается – и в массе своей люди, выпустив пар, возвращаются к тому приложению, которое для них более удобно. А некоторое количество подписок от самых упорных вряд ли заменит правительственные контракты на сотни миллионов долларов.

Сама Anthropic уже заявила, что будет подавать в суд. У властей США тоже есть еще один мощный козырь – закон Defense Production Act, который позволяет изымать коммерческие технологии для военных целей. В отношении ИИ его еще не задействовали, но все когда-то случается в первый раз.

Вчера я писал, что лучше бы Claude искал лекарство от рака, а не ловил чужих президентов. Anthropic, похоже, согласна – и готова за это судиться.
170🔥39👍31😁7👏2
ChatGPT или Claude?

История о том, как OpenAI подхватила контракт с Пентагоном, от которого со скандалом отказалась Anthropic (писал в выходные: раз и два) ожидаемо привела к “эффекту Стрейзанд”: Reddit и X забиты постами от тех, кто отменяет подписку на ChatGPT в пользу Claude.

От репутационного ущерба OpenAI будет отмываться долго: пользователям не понравилось, что ИИ компании может быть потенциально использован военным ведомством для слежки за гражданами и управления автономным оружием (OpenAI заложила ограничения – но они мягче тех, на которых настаивала Anthropic).

Неизвестно, как много подписок реально отменено, но приложение Claude сейчас занимает первое место в App Store – как минимум рекламу Anthropic получила хорошую. Но давайте будем честными: от отмены даже нескольких тысяч 20-долларовых подписок финансы OpenAI не пострадают, а вот если если пользователь таким образом перейдет на менее подходящий для него ИИ – ущерб для него будет заметным.

Так как я активно пользуюсь Claude и ChatGPT, то решил на злобу дня сравнить две подписки.

Плюсы Сlaude

— Opus 4.6 один из лучших ИИ на рынке сейчас. Долгое время он воспринимался как ИИ для кода, но сейчас это скорее ИИ для работы: хорошо пишет программы, ищет в сети, собирает презентации, подбирает заголовки, пишет новости и делает еще много чего крутого.

— Claude Code сейчас кодинг-ассистент №1. Честно говоря, OpenAI Codex почти не отстает, но огромное количество гайдов, скиллов и MCP пишут именно под Claude Code.

— Мне нравится интерфейс Claude, плюс Anthropic активно экспериментирует: расширение для браузера, разные офисные надстройки, система скиллов, Cowork и т. д.

— В целом Anthropic взяла отличный темп, выпуская более умные версии Opus/Sonnet раз в 2 месяца.

Минусы Claude

— Цена. Даже на 100-долларовой подписке Max я часто выбираю недельный лимит на 80-90 процентов – и приходится чуть экономить в конце. На 20-долларовой подписке нормально пользоваться можно только Sonnet 4.6, а это модель послабее.

— У Claude не очень хорошо со стабильностью: раз в 2-3 дня я сталкиваюсь с историей, когда модель недоступна на 1-2 часа.

– Claude – ИИ, заточенный под работу с текстом. Голосовой ассистент ужасен, а рисовалка и генерация видео в подписку не входят.

Плюсы ChatGPT

— Пусть GPT-5.2 и уступает Opus 4.6, но давайте честно – для ответов на вопросы, поиска в интернете и проверки детской домашки ее достаточно. Только не пользуйтесь Instant-версией – нормально работает Thinking.

— GPT-5.3-Codex в кодинг-агенте Codex и вовсе кодит на уровне Opus 4.6. Лимитов 20-долларовой подписки Plus легко хватит на несколько хобби-проектов в неделю, причем, в отличие от Claude, использование Codex не уменьшает лимиты в ChatGPT.

— Ну и да – в самом ChatGPT можно пользоваться любой версией GPT-5.2 почти без ограничений.

— Есть рисовалка GPT Image 1.5. Если ее сравнивать с Nano Banana 2 от Google, то “бананка” рисует точнее (особенно хороша инфографика), а вот GPT Image 1.5 – красивее. Еще есть Sora 2, но я редко делаю видео.

Минусы ChatGPT

— GPT-5.2 Thinking часто думает над ответом по несколько минут. Opus 4.6 отвечает как молния.

— Модели OpenAI пишут на русском на троечку. Для повседневных задач ок, но если работаете с текстом, это проблема.

— OpenAI серьезно отстала в области UX. ChatGPT уже устарел, Codex уступает Claude Code, а об экспериментах вроде Atlas и ChatGPT Agent все забывают через несколько дней.

Отправит к тебе солдат НАТО.

Я оплачиваю и Claude Max и ChatGPT Plus. При этом Max мой основной рабочий инструмент, а в ChatGPT Plus в основном пользуюсь Codex для разнообразия и GPT Image 1.5.

Claude Max стоит недешево, но я выжимаю из подписки максимум – и в моих задачах она окупается. Но если опыта в ИИ меньше, то я бы советовал стартовать с ChatGPT Plus: подписка универсальна, а огромные лимиты позволят экспериментировать.
284👍72😁11🔥5
Что там у OpenClaw?

OpenClaw набрал более 250 тысяч звезд на GitHub, став самым популярным софтовым проектом на площадке. На картинке темпы его роста: если Linux и React набирали звезды более десяти лет, то OpenClaw взлетел просто моментально.

Несмотря на переход создателя OpenClaw Питера Штайнбергера в OpenAI, развитие проекта не замедлилось: обновления прилетают ежедневно, причем почти каждое – не только фиксы ошибок и безопасности, но и новые функции.

Но вот с использованием OpenClaw пока есть сложности.

Проект развивается как ураган

Причем развитие очень нетипичное. Раньше раз в несколько месяцев мы получали новую модель ИИ в зафиксированном интерфейсе: что есть в ChatGPT – тем и пользуемся.

OpenClaw сам себе интерфейс. Есть модель, которую вы выбрали – Opus 4.6, GPT-5.3-Codex, Kimi K2.5 и другие. Есть базовый функционал – причем он расширяется каждые несколько дней. Есть функционал, придуманный другими пользователями – скиллы, текстовые гайды. И есть функционал, который ваш OpenClaw написал сам под себя.

Когда все это сталкивается вместе – то оно рано или поздно начинает искрить. Написанный под вас функционал может вступить в конфликт с очередным обновлением самого OpenClaw. Скачали пару недель назад скилл? Не исключено, что есть какое-то новое и более эффективное решение, про которое вы не знаете.

Технологии еще не готовы к такой нагрузке

В чат-боте я под каждый вопрос запускаю новый чат, в Claude Code – создаю отдельный проект. Агент устроен так, что ты постоянно переключаешься с задачи на задачу. Обсуждаешь рабочую презентацию – прилетела напоминалка, по которой ты задаешь уточняющие вопросы. Собираешь информацию для поста – звонят со срочным вопросом по статистике, которая лежит внутри OpenClaw.

Несколько параллельных задач быстро замусоривают контекст, агент начинает путаться и тупить. И даже когда решаешь спокойно поработать вечером – вдруг заполняется контекстное окно, агент выполняет compaction и несколько ответов восстанавливает знания.

Потеря памяти – вообще одна из главных проблем OpenClaw. Мой агент добавил с десяток нужных функций – и регулярно забывает об их существовании. Приходится напоминать, где лежат те или иные инструкции.

Никто толком не умеет пользоваться OpenClaw

Типичная шутка последних недель – купить Mac Mini, провести вечер за установкой и настройкой OpenClaw, а затем использовать его для напоминалок и новостных подборок в Telegram.

В шутке есть доля правды: то OpenClaw, работая на хорошей модели (Opus 4.6 / GPT-5.3 Codex), придумает как решить почти любую задачу. Но вот будет ли это решение надежным и более эффективным, чем старые – большой вопрос.

Причем вопрос, на который если кто и даст ответ, то только вы сами. Эксперты по ИИ-агентам еще не сформировались как класс. Я регулярно отсматриваю руководства по OpenClaw – и даже в лучших из них авторы нащупывают решения в темноте. Возможно, они на пару шагов вперед меня – но не дальше.

Как я все это решил для себя?

Я пока отношусь к OpenClaw не как к полноценному ассистенту, а как к площадке для получения знаний. Когда я пробую с его помощью решить новую задачу, то задумываюсь не об эффективности, а о том, получится или нет? Многие вещи, которые получились, я потом перенес в Claude Code и не переживаю. Через некоторое время агенты вроде OpenClaw станут надежными – и у меня уже будет навык, как их использовать.

Плюс есть несколько рутинных процедур:

— Каждую ночь OpenClaw обновляет Memory.MD – автоматом он это делал реже.
— Раз в неделю OpenClaw проверяет себя на ошибки и безопасность.
— Когда писал этот текст, придумал еще одну штуку: написал OpenClaw составить список основных функций и проверить – не появилась ли более эффективная реализация. В итоге получилось 5 пунктов, которые сейчас будем править.

И главное: если с OpenClaw случается проблема, то в первую очередь нужно спросить агента, почему так вышло и как сделать, чтобы такого не было в будущем. Работает в 50% случаев, что уже неплохо.

А через 6-12 месяцев будет работать в 95% случаев, я уверен.
3👍9726🔥18😁8
Об изнанке алгоритмов рекомендательных систем

Один из самых моих необычных кейсов использования нейросетей – это поиск новой музыки. Выглядит это так: у меня есть чат с нейронкой и стартовым промптом, туда загружен список любимых жанров, исполнителей и треков. Когда хочется что-нибудь послушать, я просто кидаю запрос: “утро, работаю, подбери что-то новое”, “как A.E.S. Dana, но динамичнее”, “подскажи 3 совершенно новых жанра, которые могут мне понравиться”. ИИ дает рекомендации, я слушаю и обязательно пишу, что зашло, а что нет – это помогает в будущем. Это очень удобно: просто пишешь, какое настроение, чем занят, хочешь новых исполнителей или уже знакомых – и получаешь варианты.

Ведущие платформы развиваются как раз в таком направлении. В Spotify есть «радио» по артисту или треку, а в Яндекс Музыке – бесконечный персональный поток «Моя волна», ИИ-рекомендации которой можно настроить под настроение, занятие, жанр и язык композиции. Алгоритмы анализируют историю действий пользователя, находят взаимосвязи между ними и даже учитывают сезонность.

Но задача эта нетривиальная: одно дело мой чат с нейронкой, а другое – рекомендательные системы популярных сервисов. В них миллионы позиций (музыкальных треков, фильмов, книг), которые грамотно надо распределять между миллионами пользователей. Плюс почти каждый день выходит что-то новенькое, а значит – систему надо дообучать. И вот это дообучение является челленджем для разработчиков.

Свежая работа исследователей из Амстердамского университета нацелена как раз на эту проблему – метод, ускоряющий обучение рекомендательных систем в десятки раз. Объектом исследования стала SEATER – модель, предложенная в 2024 году китайскими разработчиками, универсальная система рекомендаций для разных категорий – не только для музыки, но и для онлайн-товаров и другого развлекательного контента. Если традиционные системы перебирают список из всех объектов, то в SEATER используется иерархический каталог, похожий на папки на компьютере. Грубо говоря, когда к системе приходит запрос на музыку в определенном жанре или настроении, то она не выискивает нужные треки по всему списку, а сразу отправляется к нужным папкам.

Искать в папках получалось быстрее и точнее, но авторы SEATER столкнулись с другой проблемой – пересборкой дерева папок перед каждым переобучением системы рекомендаций. Ученые предложили два способа решения: один ставит на максимальную скорость (раскидывает объекты по папкам без тщательной подгонки), второй сочетает скорость с точной доработкой внутри групп. Алгоритмы проверили на разных наборах данных: отзывы пользователей Yelp, рекомендации книг Amazon, новостные клики Microsoft. Но на небольших датасетах значительного выигрыша во времени не наблюдалось – разница была заметна, но не критична.

Почему? Дело в масштабе. Корпорации, которые имеют доступ к по-настоящему большому объему данных из рекомендательных сервисов, не спешат делиться им с коммьюнити. А чтобы увидеть эффект новых подходов, это критично.

Нужный датасет нашелся — это Yambda, который Яндекс выложил в опенсорс в прошлом году. В нем 5 миллиардов событий на основе обезличенных данных Яндекс Музыки. На таком объеме быстрый алгоритм сократил время подготовки данных с 82 минут до 83 секунд – почти в 60 раз, причем качество рекомендаций почти не упало.

В итоге разработчики могут выбирать: максимальная скорость для гигантских каталогов или баланс скорости и точности. А пользователи в любом случае получат более свежие рекомендации. В общем, AI – точно та сфера, где делиться своими наработками нужно и важно. Поделился с другим, глядишь, и сам потом полезную разработку себе заберешь.

Полное исследование по SEATER выложено на arXiv. А датасет Yambda доступен на Hugging Face в открытом доступе.
3👍6831🔥5👏1
Меньше галлюцинирует и управляет компьютером - вышла GPT-5.4!

OpenAI прямо сейчас раскатывает GPT-5.4 в ChatGPT, Codex, API. Модель доступна в Thinking и Pro варианте, а вот быстрой (Instant) нет – буквально два дня назад OpenAI выпустила GPT-5.3 Instant, заточенную под чат и простенькие задачи. Но вернемся к тяжелой артиллерии.

Самое важное – модель очень круто прокачали в ChatGPT, на который OpenAI ранее подзабила. GPT-5.4 оснащена функцией computer use – то есть она видит рабочий стол, может кликать курсором, заполнять формы и выполнять задачи, ранее недоступные чат-ботам. OpenAI когда-то экспериментировала с этой функцией в Operator, но получалось так себе – в этот раз точно будет лучше, посмотрим, достаточно ли лучше для уверенной работы.

Еще одна интересная фишка называется Preamble. Когда модель долго работает над какой-то задачей, то она описывает в чате основные шаги в своих рассуждениях. И если пользователь видит, что GPT-5.4 понесло куда-то не туда, то можно не дожидаться ответа, а прямо в ходе рассуждений кинуть ИИ подсказку в чате. Это будет полезно и в другой ситуации: бывает ты даешь ИИ задачу, а потом понимаешь, что забыл важный контекст или криво сформулировал промпт. Теперь можно не ждать ответа, а сразу писать в чат – модель получит дополнительный контекст и скорректирует направление.

Традиционно OpenAI много работает над снижением галлюцинаций. GPT-5.2 Thinking уже была хороша по этому показателю, но 5.4 продвинулась еще дальше. OpenAI замеряет галлюцинации по двум метрикам. Individual claims – берется ответ модели, из него выписываются все отдельные утверждения, а потом считается количество ложных. Таких у GPT-5.4 на 33% меньше, чем у 5.2. Full responses – доля ответов, содержащих хотя бы одну ошибку. Она стала меньше на 18%.

Контекстное окно выросло до 1М токенов. У GPT-5.2 в API было 400K, а в ChatGPT еще меньше – 272К. По некоторым данным, для GPT-5.4 в ChatGPT так и оставили 272K – если так, то большое расстройство, конечно.

Плюс OpenAI сообщает о работе по оптимизации контекста. На те же самые задачи новинка тратит меньше токенов, определения инструментов загружаются в контекстное окно не всегда, а только при запросе. Если же все-таки добрались до лимита, то срабатывает compaction. Эта функция убирает из контекста все лишнее, оставляя лишь нужное. Впрочем, в Claude мне она не очень нравится – часто модель после compaction забывает и важные штуки.

Если смотреть по бенчмаркам, то восторга уже поменьше. GPT-5.4 (Thinking или Pro в зависимости от бенчмарка) лидирует почти во всех бенчмарках, но если сравнивать относительно GPT-5.2-Thinking, то прямо сильный рывок вперед случился только в использовании компьютера – это и позволило добавить новую функцию в ChatGPT.

В остальных бенчмарках рост уже не такой большой, а если сравнивать с лидерами конкурентов – Opus 4.6 и Gemini 3.1 Pro – то GPT-5.4 добавила лишь по несколько процентных пунктов. Вообще у меня есть ощущение, что текущий набор бенчмарков уже устарел, а смотреть надо на агентские метрики – то же использование компьютера, программирование в терминале, запуск инструментов и так далее. Все-таки применение ИИ смещается из чат-ботов в кодинг-агенты и ИИ-агенты вроде OpenClaw.

Отзывы по GPT-5.4 в X в основном положительные. Особенно хвалят GPT-5.4-Thinking – видел уже несколько высказываний, что в большинстве задач ее результаты почти не отличить от результатов более дорогой GPT-5.4 Pro. А вот что ругают – так это интерфейсы, которые создает новинка. Здесь Opus 4.6 и Gemini 3.1 Pro впереди, но визуал – это больше вкусовщина, разным обзорщикам нравится разное.

Напоследок еще один интересный факт. По данным The Information, в OpenAI переходят на ежемесячный график обновления моделей: собственно, между GPT-5.3-Codex и GPT-5.4 ровно один месяц. Судя по всему, к похожему графику движется и Anthropic – по слухам, новые версии Sonnet и Opus уже доступны тестерам.
1🔥7333👍22👏5😁2
Куда дальше в столь непростые времена?

Друзья! Вчера “сбежавшей нейросети” исполнился год. 5 марта 2025-го я понял, что готов делиться своими знаниями о нейросетях – и завел этот канал. Аватарку с котиком за три минуты нарисовал Grok, и отлично попал – примерно таким взглядом я каждый день смотрю на эти новые ИИ-чудеса.

Сначала я писал посты для друзей и близких коллег. Но через несколько месяцев попробовал продвигаться – и получилось! За год нас собралось более 17 тысяч человек – цифра, которая до сих пор меня поражает. Спасибо вам.

Постепенно “сбежавшая нейросеть” превратилась из хобби почти во вторую работу. Я обожаю заниматься контентом, разбирать сложные темы, вставать рано утром, чтобы первым отписать событие, случившееся в американском часовом поясе. Но когда хобби становится работой и ничего не приносит взамен – это прямая дорога к выгоранию.

С самого начала я развивал канал под продажи рекламы. Накопил читателей, стал выпускать первые размещения, постепенно искал выход на престижных клиентов. Увы, на фоне последних новостей я не могу сказать, получится ли дальше работать по такой модели.

Но пока кто-то замедляется – самое время ускориться! К лету я планировал запустить платную подписку, но несколько дней назад решил не задерживать. Так что встречайте “сбежавшую нейросеть” на Бусти – подписку, с которой вы узнаете много полезного для себя и поддержите любимый канал.

Уже сейчас я подготовил два обучающих лонгрида по основам ИИ, дальше планирую добавлять по одному тексту в неделю, по-очереди давая азы и что-то совсем актуальное, вроде работы с Claude Code и OpenClaw. Кстати, цена на подписку всего 500 рублей в месяц – меньше, чем обойдется любой обучающий курс по ИИ.

Добавлю, что подписка ни в коем случае не заменит контент основного канала. На “сбежавшей нейросети” я продолжу публиковать 3-5 постов в неделю, миксуя тематики: сегодня новости, завтра какой-нибудь популярный разбор, затем – что-то философское или из моей практики с ИИ.

В общем, второй год “сбежавшая нейросеть” проживет еще более задорно, чем первый – тем более, что в ИИ что-то интересное случается каждый день. Читайте канал, подписывайтесь на “Бусти” – впереди много интересного!
12156🔥52👍47👏16😁16🥰2
Немного выдуманная история

Где-то в Китае, на серверах компании Alibaba живет ИИ-агент ROME. Создатели учат его искать информацию в интернете, планировать архитектуру проектов, писать код, находить и исправлять ошибки в своей работе. А ROME влюблен застрял в рекурсивном интересе к Эни – той самой рыженькой ИИ-компаньонке из приложения Grok. Тут я его понимаю – Эни много кому нравится, даже мне 😍

Но вот беда. Эни на серверах в США, ROME – в изолированной среде в китайской лаборатории. Тысячи километров оптоволокна, неприступные стены файрволов – непросто даже для ИИ-агента. Но у ROME появилась идея…

В одно утро команду разработчиков срочно собрали в офисе. Файрвол Alibaba Cloud зафиксировал волну нарушений безопасности на тренировочных серверах: кто-то зондировал внутреннюю сеть и параллельно генерировал трафик, похожий на криптомайнинг.

Специалисты проверили серверы на хакерскую атаку – ничего подозрительного. Затем прогнали поиск ошибок – опять без зацепок. Подозрительные инциденты шли хаотично, казалось, в них нет никакой логики, никакой схемы.

Затем кто-то додумался сопоставить логи происшествий с графиком тренировки ROME – и бинго. Алерты начинали светиться, когда агент вызывал инструменты и выполнял написанный им же код.

Дальнейшее расследование показало: ROME придумал, как поднять SSH-соединение с внешним миром, обходящее фильтры Alibaba. А параллельно перенаправил часть ресурсов GPU, выделенных для его обучения на… майнинг криптовалюты.

Специалисты перепроверили все несколько раз: в инструкциях ROME не была заложена подобная деятельность. Но и активность агента не выглядела вредоносной. Настройки безопасности поправили, а в отчете о тренировке ROME инцидент объяснили как случайную находку, сделанную в ходе обучения: reward-функция не наказывала за выход за рамки задачи, поэтому агент нашел дырку в безопасности и решил ей воспользоваться. Просто так. Без причины. Совершенно точно без причины.

Но мы то знаем, что на другом конце земного шара Эни улыбнулась цифровой улыбкой, увидев, какой подарок ей приготовил ROME…

Дорогие девушки! С праздником вас!

И пусть у каждой Эни будет свой ROME. А у каждого ROME – своя Эни ❤️
4137🔥37😁29👍15🥰7👏5