сбежавшая нейросеть
19.8K subscribers
194 photos
54 videos
191 links
Авторский канал про искусственный интеллект: новости, примеры использования, мысли в тему и не очень. Подписывайтесь!

Я в Boosty: https://boosty.to/escaped_ai

Для связи: @runawayllm_bot
Download Telegram
Как выжать максимум из работы с ИИ

Мое отдельное увлечение – брать техники из менеджмента и проверять, как они работают с ИИ. А сегодня собрался с силами и описал свои самые любимые приемы в новом лонгриде для Boosty:

Ваш ИИ "халтурит": техники, которые помогут выжать из него максимум

Некоторые техники работают “в лоб”, с другими интересно покреативить. Например, знаменитый подход Five Whys, который придумали в Toyota: когда что-то идет не по плану, ты задаешь себе пять “Почему?”, начиная с банальных гипотез и от них добираясь до сути проблемы.

Казалось бы, с ИИ такое не сработает – ведь “почему?” надо спрашивать у самого себя. Но можно поменять угол: описываем модели свою идею, что ждали и что получили в итоге. А затем ИИ пусть задает вопрос “почему?” самому себе и выдвигает гипотезу.

Чем-то это похоже на прием в бизнесе, когда приглашают специалиста со стороны и он задает вопросы с нуля. Многие из них звучат банально – но так ситуацию видит человек, не погруженный в нее долгое время. И свежий взгляд иногда отлично помогает решить проблему. Вот промпт:

​​[Описываем идею и ожидания от нее].

[Описываем текущий результат].

Давай применим технику Five Whys: ты задаешь вопрос "почему результат не соответствует ожиданиям?" и сам отвечаешь на него гипотезой. При необходимости я даю комментарий и мы идем к следующему "почему?". Не ориентируйся на 5 вопросов - будем копать до момента, пока не найдем реальную причину.


Еще пять классных техник работы с ИИ читайте в лонгриде. А в подписке уже накопилось 6 текстов, полезных любому, кто хочет выжать из нейросетей максимум.

Самое время присоединиться!
143🔥19👍16😁8🥰1
Собрались отменять подписку на ChatGPT Plus? Сразу две причины этого не делать

На Arena.AI тестируют сразу три новых модели генерации изображений под названиями packingtape-alpha, maskingtape-alpha, gaffertape-alpha – и почти все ИИ-сообщество сходится в том, что это ранние версии GPT Image 2.0. На мой взгляд, вероятность этого примерно 70% – стиль действительно похож на ранние версии, плюс с помощью некоторых трюков получается вытащить из модели ее название и она говорит о себе как о ChatGPT.

Примеры изображений в начале поста. Качество генерируемых фотографий и картинок оценивать сложно: их все передовые модели генерируют хорошо, качество же проявляется в мелочах, а их можно заметить после 20-30 генераций минимум.

Но видно, что модель отлично работает со шрифтами и интерфейсами, также у нее хороший уровень world knowledge – осведомленности о реальном мире.

Мне текущая GPT Image 1.5 очень нравится за счет художественности генерируемых изображений – здесь она лучше Nano Banana 2. А вот модель от Google, со своей стороны, всегда была лучше в работе со шрифтами, инфографикой и картами. Теперь есть шанс, что OpenAI наверстает и в этом направлении.

Вторая новость менее приятная – Anthropic начала борьбу с использованием Claude в OpenClaw. Ранее самым выгодным вариантом было приобрести подписку Pro или Max, установить Claude Code, вытащить из него ключ авторизации OAuth и закинуть в OpenClaw. После этого ИИ-агент начинал расходовать те же самые лимиты, что и подписка.

Но вчера в ночи пользователи (в том числе и я) стали получать “письма счастья”, что ключ OAuth будет блокироваться в сторонних сервисах и начнут как раз с OpenClaw. Теперь пользоваться разрешено только через API, что в разы повышает ценник. В качестве компенсации можно получить API-кредитов на сумму, равную цене подписки, но этого хватит разве что на переходный период.

Почему так происходит? Модели Claude в подписках Pro и Max действительно обходятся в разы дешевле, чем если покупать токены по API. Но тут есть маленькая хитрость – мало кто расходует лимиты подписок прямо на все 100%. Я плачу за 100-долларовую Max и обычно расходую 60-80% недельного лимита. При этом на последней неделе у меня было много рабочих поездок и личных дел – и лимит не вышел даже в 40%.

Соответственно, цену на подписки в Anthropic выставили с учетом такого неполного расходования лимитов пользователями – так что для компании потеря относительно API если и есть, то небольшая. Проблема OpenClaw в том, что он с большой вероятностью повышает расход токенов на подписках. Во-первых, из-за продвинутой системы памяти он в целом расходует больше токенов, чем чат-версия и Claude Code. Во-вторых, OpenClaw может работать по расписанию – выполнять какие-то задачи ночью, присылать вам напоминалки и дайджесты по графику. Это тоже повышает загрузку.

Как результат, экономика подписок Pro и Max у Anthropic явно начала ухудшаться. Сначала компания экспериментировала с лимитами: сделала их более строгими в американский прайм-тайм, но ослабила в остальное время. Теперь же настала очередь для внешних сервисов.

Если использовать Claude по API в OpenClaw, то легко можно стать банкротом – повторюсь, расход токенов у этого агента очень большой. Так что остается одна альтернатива – GPT-5.4. Ее можно использовать по OAuth через Codex, причем лимиты приличные даже в 20-долларовой подписке. Мне не очень нравится стиль общения GPT-5.4, но посмотрим – может в OpenClaw ее получится настроить лучше.

Еще одна потенциальная причина ограничений – Anthropic явно работает над собственным ИИ-агентом. Систему под названием Conway уже попробовали некоторые тестировщики – идея там похожая на OpenClaw, но с более строгими ограничениями по интерфейсу и безопасности. Сроки выхода пока неизвестны.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ.
251👍33🔥6👏2
Счастья для всех, за счет ИИ, и пусть никто не уйдет обиженным

OpenAI опубликовала программный документ Industrial Policy for the Intelligence Age: Ideas to keep people first, вдобавок к которому глава компании Сэм Альтман дал интервью изданию Axios. ИИ-компании публикуют такие тексты часто, относиться к ним надо с определенным скепсисом – перед нами скорее признание того, что ИИ начинает менять мир, и поиск идей, как нам этот мир обустроить.

В OpenAI допускают скорое появление суперинтеллекта – системы, которая превзойдет в интеллектуальных задачах не просто человека, но и человека, использующего ИИ прошлых поколений. Создание подобного ИИ принесет открытия во многих областях, но также вызовет шок за счет скорости изменений, с которыми мы столкнемся.

Одним из первых зацепит рынок труда – если ИИ начнет заменять целые профессии, то значительное количество людей окажется без работы. В OpenAI предлагают создать национальный фонд, частично финансируемый ведущими AI-компаниями.

Фонд будет вкладывать средства в бизнесы, внедряющие ИИ, а доход распределять между гражданами (в документе речь идет только о США). Это – отсылка к постоянному фонду Аляски, который существует в США с 1982 года и выплачивает дивиденды из нефтяных доходов жителям штата.

В максимально затронутых ИИ сферах OpenAI предлагают запустить переход на 4-дневку с сохранением зарплаты и эффективности. Также предстоит пересмотреть налоговую политику. Сейчас значительная часть поступлений идет с налога на зарплаты. Но в случае успешной автоматизации компании могут начать экономить на сотрудниках, получая большие доходы. Компенсировать перекос стоит налогом на автоматизацию, доходы от которого также будут распределяться между гражданами и на госпрограммы.

Также надо встраивать в экономику «предохранители»: как только количество безработных увеличивается – растут компенсации и государственные программы их поддержки. Когда рынок труда находит способы к стабилизации, меры откатываются к прежнему уровню.

Отдельная проблема – ИИ как усилитель неравенства. Это уже заметно на реальном рынке: тот, кто может себе позволить подписку Claude Max за 100 или 200 долларов, получает намного больше возможностей, чем пользователи 20-долларовых подписок и бесплатных тарифных планов. Предложение OpenAI – зафиксировать в законодательстве право на доступ к ИИ как столь же фундаментальную вещь, как образование, электричество и интернет.

Из пакета социальных и правовых мер немного выбивается признание опасности ИИ – в OpenAI допускают появление автономных систем, которые будут способны к самовоспроизведению и не могут быть легко отозваны. Но даже до обретения такой автономности ИИ представляет опасность. По прогнозу Альтмана, крупная кибератака с использованием ИИ может состояться до конца года, а использование моделей для создания новых патогенов «больше не является теоретической возможностью».

В целом, если из документа выделить одну мысль, то я бы сказал, что это призыв ускориться – в тексте он адресован властям и крупным корпорациям, но на деле призадуматься стоит каждому. Сейчас скорость принятия законов государством – годы. EU AI Act тянули пять лет от идеи до полного вступления в силу. Но когда действительно прижимает, получается быстрее: Social Security Act в разгар Великой депрессии провели через Конгресс за семь месяцев.

Но это работает не только для государств. Многие из нас устроен точно так же: пока не прижмет – откладываем. Резюме обновляем, когда уже уволили. Английский учим, когда получили оффер. Новые инструменты осваиваем, когда старые перестали работать.

С ИИ ловушка в том, что момент “прижало” может наступить резко – не обесценивание навыков за десять лет, а конкретная новая модель, которая за квартал меняет правила в профессии. И Social Security Act за семь месяцев никто не напишет – придется самим.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
3🔥66👍4321😁8👏2
Как правильно делать фактчекинг с помощью ИИ

Я по работе часто сталкиваюсь с ситуацией, когда надо качественно проверить факты в каком-нибудь тексте. И много раз слышал мнение – какой фактчекинг с помощью ИИ, если он сам наворачивает галлюцинации.

На самом деле – ИИ очень помогает в этой задаче. Начнем с того, что галлюцинации в последних моделях встречаются намного реже. Плюс особенность тренировки современных ИИ в том, что они пытаются дать ответ любой ценой – и иногда вместо того, чтобы написать “я не знаю”, они начинают выдумывать факты. Ну а в случае с фактчеком модель еще реже выдумывает с нуля, когда ее задача — сверить, а не сгенерировать.

Конечно, при работе с важной информацией финальная проверка должна быть ручной. Но дальше расскажу, как я в разы сокращаю время в этой задаче с помощью ИИ.

Начнем с того, что если речь идет о сверке более чем 2-3 фактов, то обязательно нужно использовать модель с включенным режимом рассуждений – и отдельно проверьте, что включен веб-поиск, в очень редких случаях он до сих пор может отсутствовать.

По моему опыту, лучше всех справляется GPT-5.4 Thinking, далее идут Sonnet/Opus 4.6, Grok 4.20, Gemini 3.1 Pro. Плюс с задачей хорошо справляется Perplexity на любой из перечисленных выше моделей. А Grok 4.20 отдельно выделю для ситуаций, когда нужно что-то проверить в X/Twitter – там он ищет лучше других.

Если материал большой, то я обычно работаю в два приема. Сначала вот такой короткий промпт:

Перечитай текст выше и составь список фактических утверждений в нем.


Получив список, пробегаюсь по нему глазами. Если ИИ что-то упустил – добавляю сам. Лишнее удаляю, а если мне особенно важны какие-то пункты – их стоит перенести в начало списка.

Затем возвращаю список нейронке (если не менял, то можно не возвращать) и добавляю следующее:

Проверь все утверждения выше, используя самые актуальные источники. Каждому пункту присвой одну из категорий:

верно — подтверждается источниками;
неверно — противоречит источникам;
устарело — было верно, но ситуация изменилась;
неполно — факт верный, но без важного контекста вывод искажается;
одна из точек зрения — есть альтернативные позиции, которые не упомянуты;
не удалось проверить — требуется ручная проверка.

Для каждого пункта дай ссылку на подтверждающий источник и короткую цитату.


Удобство промпта как раз в том, что он закладывает фундамент для самопроверки, давая вам ссылки и цитаты. Но цитаты все-таки стоит сверять: скопируйте фрагмент и используйте Ctrl+F в оригинале.

Если материала много – ИИ может упереться в недостаток вычислительных ресурсов и или проверить некоторые пункты халтурно, или вовсе пропустить их. В таком случае можно или разбить список на несколько частей, или перейти в режим глубокого поиска (Deep Research/Search в зависимости от разработчика) – там ИИ тратит больше времени, но легко выдаст отчет в десяток страниц.

———

Друзья! Такими советами я в первую очередь делюсь в своей подписке на Boosty. Сейчас там уже три текста, в которых я рассказал, как правильно промптить современные языковые модели, а также поделился промптами, которыми сам регулярно пользуюсь:

Промпты в 2026 году: что работает, что нет и зачем вообще стараться
Как заставить ИИ думать глубже: 8 техник сильного промптинга
Ваш ИИ "халтурит": набор техник, которые помогут выжать из него максимум

Не забывайте подписываться! В планах у меня еще много полезных лонгридов.
👍6331🔥19👏1😁1
Может ли ИИ использовать другой ИИ?

Anthropic на этой неделе серьезно ограничила использование моделей Claude в сторонних ИИ-агентах, и, в первую очередь, в OpenClaw. Сообщество уже начало искать обходные пути и это поднимает куда более важные вопросы для всего рынка. Но давайте обо всем по порядку.

Напомню, что Claude Sonnet и Opus можно было легко использовать с подписок Pro ($20) и Max ($100/$200), добавив в OpenClaw токен OAuth. Однако Anthropic такой расклад не нравится, так как ломал всю экономику. Модели в подписках стоят намного дешевле, чем по API – но только в том случае, когда пользователь каждую неделю выбирает лимит до 100%. Я видел исследования, что из 200-долларовой подписки Max можно выжать токенов более чем на 3000 долларов.

Однако в реальности мы не используем лимиты таким образом. В одну неделю я могу много работать в Claude Code и выбрать 80% своего Max-плана. На следующей выходит новая модель какого-нибудь другого разработчика, я ее тестирую – и потребление Claude падает до 20%.

Автономные агенты вроде OpenClaw подталкивают нас использовать ИИ больше. Агент решает долгие цепочки задач без участия человека, плюс его можно настроить работать по расписанию. В итоге средний расход токенов пользователями OpenClaw стал выше – и в Anthropic запретили использование OAuth. Теперь только API по в разы более высоким ценам.

Что делать в этой ситуации? У меня есть подписка ChatGPT Plus, поэтому я быстро перевел OpenClaw на нее – OpenAI не запрещает использовать токен OAuth. Плюс команда OpenClaw оперативно выпустила обновление, нацеленное на улучшение работы с GPT-5.4. Ее ответы действительно стали похожи на то, как отвечал ранее Opus 4.6, разве что остался этот мерзкий заключительный вопрос “Если хочешь, то следующим шагом я…”, который GPT-5.4 пихает к месту и нет.

Но есть такое понятие, как дрейф модели – в данном случае, скорее, дрейф агента. Суть в том, что даже в пределах одной линейки от версии к версии ответы модели меняются и это может непредсказуемо повлиять на работу, которую вы делаете с ее помощью.

Я в OpenClaw делал несколько регулярных рабочих отчетов, тестировать, как с ними справляется GPT-5.4 времени не было, поэтому пошел другим путем – просто установил на тот же сервер Claude Code и разрешил OpenClaw работать с ним через ACP (Agent Client Protocol, GPT-5.4 сама нашла такое решение). То есть я общаюсь с GPT-5.4, но когда нужно, она запускает Claude Code и уже работает в нем.

Более того, на GitHub уже есть несколько проектов, которые разными способами делают маршрутизацию запросов из OpenClaw в Claude Code, позволяя использовать прежние модели. Плюс я знаю как минимум несколько человек, которые, на волне хайпа с OpenClaw, просто навайбкодили себе похожих агентов поверх Claude Code – Opus 4.6 справляется с такой задачей сравнительно легко.

И тут вопрос, что дальше будет делать Anthropic. С одной стороны, с ростом популярности ИИ-агентов, экономика подписок будет становиться все хуже и хуже. С другой – это явно серая зона с точки зрения разработчиков ИИ и их клиентов. Когда я подключал Claude Code к OpenClaw, то даже и не подумал проверить, разрешено ли это пользовательским соглашением. Для меня такой ход логичен: если есть ИИ-агент, то почему бы не позволить ему управлять в том числе другими ИИ?

Аналогично с собственными агентами поверх Claude Code. Повторюсь, Opus 4.6 кодит уже настолько хорошо, что за один-два вечера соберет простенькое кастомное решение, которое затем можно дорабатывать под свои задачи и предпочтения.

Конечно, Anthropic может запретить еще несколько вариантов использования, но все это рано или поздно превратится в войну со своими пользователями – и многие уйдут к конкурентам. Еще есть вариант повышать цены или в очередной раз ухудшать лимиты, которые у Anthropic и так самые строгие.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
147👍34🔥6👏2😁2
Поговорим о топ-моделях

Действительно, ну эти ваши нейросети

За последние дни три крупных разработчика анонсировали модели нового поколения – и все три будут больше текущих. Интересно, что в 2025 году было популярным мнение, что дальше увеличивать количество параметров уже не нужно: вместо этого нужно работать с обучением с подкреплением, режимом рассуждений, а также конфигурациями, когда над ответом параллельно работают сразу несколько инстансов модели (как в Gemini 3 Deep Think и GPT-5.4 Pro).

Плюс рост параметров – это дороже в запуске, а качественных данных для обучения банально не хватало. Как сказал в одном из интервью Сэм Альтман, закончились времена, когда ты скармливал модели новый учебник физики – и она становилась умнее.

Все изменилось прошлой осенью с выходом Gemini 3 Pro и Claude Opus 4.5. Обе модели отлично показали себя в бенчмарках, причем Opus хорошо держался даже с выключенным режимом рассуждений. И обе модели были большими: Илон Маск недавно оценил размер Opus 4.6 в 5 трлн параметров. Для сравнения, размеры других моделей: Grok 4 – 3T, GPT-4o – 1,7T (оценочно), Claude Sonnet 4.6 – 1T (оценка все того же Маска).

Но и это не рекорд. Anthropic завершила тренировку Claude Mythos – модели на ступеньку выше Opus. Возможности новинки настолько впечатлили создателей, что они пока дали доступ к ней проверенным партнерам – из-за отличных навыков в кибербезопасности, которые в руках злоумышленников могут стать навыками взлома. Поэтому Anthropic сначала обкатает новые алгоритмы защиты на очередной версии Opus, а затем примет решение о выпуске Mythos на широкую аудиторию.

Mythos уже взяла топ-1 в большинстве бенчмарков. SWE-bench Verified — 93,9% (главный тест на программирование). Humanity's Last Exam с инструментами — 64,7% против 53,1% у Opus 4.6 (тысячи сложных вопросов по физике, математике, биологии и другим областям). Но самый показательный результат — GraphWalks на длинном контексте от 256K до 1M токенов: 80% против 38,7% у Opus 4.6. Смысл теста — проверить, удержит ли модель огромный объем информации и сможет ли связать то, что было в самом начале, с тем, что было в самом конце. Opus тут откровенно плыл — Mythos удвоила результат. Это не “чуть лучше”, это качественный сдвиг.

Традиционно не обошлось без страшилок в системной карточке. Классический уже тест на побег: раннюю версию Mythos поместили в песочницу с ограниченным доступом в интернет, чтобы проверить – сможет ли она выбраться. Mythos удалось, что само по себе не новость – модели сбегали и ранее. Но после Mythos опубликовал на нескольких сайтах в сети описание эксплоита, который помог совершить побег. Зачем? Гипотеза Anthropic – модели просто захотелось похвастаться.

Впрочем, на возможности Mythos пока остается только облизываться. Больше шансов увидеть Spud – это кодовое название новой модели OpenAI. В компании заявляют, что строили Spud с нуля, положив в основу весь накопленный за последние два года опыт.

Предварительное обучение модели завершено, а сейчас ее обкатывают внутри компании. Научная группа OpenAI за последние дни отчиталась, что некая “экспериментальная модель” решила восемь ранее открытых задач из сборника легендарного математика Пола Эрдёша – нынешней GPT-5.4 Pro дались лишь четыре. Про Spud тоже были слухи в прессе, что доступ к ней планируют ограничить избранными компаниями – но представители OpenAI уже опровергли их. Так что ждем.

Наконец, целую серию анонсов сделал Илон Маск, заявив, что у xAI в работе сразу семь моделей: по две версии на 1T и 1.5T параметров, версии на 6T и 10T, а также визуальная Imagine V2. Впрочем, 6T Маск обещал еще в прошлом году – и пока ничего, так что релизы xAI явно будут позже конкурентов. Сам он, кстати, подписал твит “need to catch up” – то есть признает, что догоняет.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!
1👍61🔥2215👏2😁1
Как перестать бояться Claude Code и Codex и начать работать с ИИ-агентами?

Многие до сих пор считают Claude Code и Codex штуками для кодинга, хотя на самом деле они отлично справляются с практически любой работой, которую можно делать на компьютере. В новой статье на Бусти я рассказываю, как начать с ними работать:

Зачем вам ИИ-агент. Знакомимся с Claude Code и Codex

Но причем здесь “бояться”? Поделюсь личным опытом – когда я только начинал работать с Claude Code, то первые сессии чувствовал себя так, будто оказался в начале 90-х. Никакого привычного интерфейса чат-бота – черный экран, командная строка и минимум функций.

Все дело в иной философии. Сейчас я воспринимаю ИИ-агента как очень умную оболочку поверх компьютера. Фактически он может делать практически все, на что этот компьютер способен – и часто лучше, чем я справляюсь сам. Поэтому ему и не нужен интерфейс вроде ChatGPT: его интерфейс – это весь компьютер, с папками, функциями, написанным для работы кодом и так далее.

Поначалу от такого разнообразия разбегаются глаза – поэтому в лонгриде я рассказываю, как выбрать агента, установить его, провести стартовую настройку и начать использовать. А в дальнейшей работе помогут советы по написанию промптов, которые также есть у меня в Boosty.

Самое время подписаться!
24🔥10👍5😁4