сбежавшая нейросеть

Как правильно делать фактчекинг с помощью ИИ

Я по работе часто сталкиваюсь с ситуацией, когда надо качественно проверить факты в каком-нибудь тексте. И много раз слышал мнение – какой фактчекинг с помощью ИИ, если он сам наворачивает галлюцинации.

На самом деле – ИИ очень помогает в этой задаче. Начнем с того, что галлюцинации в последних моделях встречаются намного реже. Плюс особенность тренировки современных ИИ в том, что они пытаются дать ответ любой ценой – и иногда вместо того, чтобы написать “я не знаю”, они начинают выдумывать факты. Ну а в случае с фактчеком модель еще реже выдумывает с нуля, когда ее задача — сверить, а не сгенерировать.

Конечно, при работе с важной информацией финальная проверка должна быть ручной. Но дальше расскажу, как я в разы сокращаю время в этой задаче с помощью ИИ.

Начнем с того, что если речь идет о сверке более чем 2-3 фактов, то обязательно нужно использовать модель с включенным режимом рассуждений – и отдельно проверьте, что включен веб-поиск, в очень редких случаях он до сих пор может отсутствовать.

По моему опыту, лучше всех справляется GPT-5.4 Thinking, далее идут Sonnet/Opus 4.6, Grok 4.20, Gemini 3.1 Pro. Плюс с задачей хорошо справляется Perplexity на любой из перечисленных выше моделей. А Grok 4.20 отдельно выделю для ситуаций, когда нужно что-то проверить в X/Twitter – там он ищет лучше других.

Если материал большой, то я обычно работаю в два приема. Сначала вот такой короткий промпт:

Перечитай текст выше и составь список фактических утверждений в нем.

Получив список, пробегаюсь по нему глазами. Если ИИ что-то упустил – добавляю сам. Лишнее удаляю, а если мне особенно важны какие-то пункты – их стоит перенести в начало списка.

Затем возвращаю список нейронке (если не менял, то можно не возвращать) и добавляю следующее:

Проверь все утверждения выше, используя самые актуальные источники. Каждому пункту присвой одну из категорий:

верно — подтверждается источниками;
неверно — противоречит источникам;
устарело — было верно, но ситуация изменилась;
неполно — факт верный, но без важного контекста вывод искажается;
одна из точек зрения — есть альтернативные позиции, которые не упомянуты;
не удалось проверить — требуется ручная проверка.

Для каждого пункта дай ссылку на подтверждающий источник и короткую цитату.

Удобство промпта как раз в том, что он закладывает фундамент для самопроверки, давая вам ссылки и цитаты. Но цитаты все-таки стоит сверять: скопируйте фрагмент и используйте Ctrl+F в оригинале.

Если материала много – ИИ может упереться в недостаток вычислительных ресурсов и или проверить некоторые пункты халтурно, или вовсе пропустить их. В таком случае можно или разбить список на несколько частей, или перейти в режим глубокого поиска (Deep Research/Search в зависимости от разработчика) – там ИИ тратит больше времени, но легко выдаст отчет в десяток страниц.

———

Друзья! Такими советами я в первую очередь делюсь в своей подписке на Boosty. Сейчас там уже три текста, в которых я рассказал, как правильно промптить современные языковые модели, а также поделился промптами, которыми сам регулярно пользуюсь:

— Промпты в 2026 году: что работает, что нет и зачем вообще стараться
— Как заставить ИИ думать глубже: 8 техник сильного промптинга
— Ваш ИИ "халтурит": набор техник, которые помогут выжать из него максимум

Не забывайте подписываться! В планах у меня еще много полезных лонгридов.

👍68❤32🔥22👏1😁1

6.55K viewsedited 17:27

сбежавшая нейросеть

Может ли ИИ использовать другой ИИ?

Anthropic на этой неделе серьезно ограничила использование моделей Claude в сторонних ИИ-агентах, и, в первую очередь, в OpenClaw. Сообщество уже начало искать обходные пути и это поднимает куда более важные вопросы для всего рынка. Но давайте обо всем по порядку.

Напомню, что Claude Sonnet и Opus можно было легко использовать с подписок Pro ($20) и Max ($100/$200), добавив в OpenClaw токен OAuth. Однако Anthropic такой расклад не нравится, так как ломал всю экономику. Модели в подписках стоят намного дешевле, чем по API – но только в том случае, когда пользователь каждую неделю выбирает лимит до 100%. Я видел исследования, что из 200-долларовой подписки Max можно выжать токенов более чем на 3000 долларов.

Однако в реальности мы не используем лимиты таким образом. В одну неделю я могу много работать в Claude Code и выбрать 80% своего Max-плана. На следующей выходит новая модель какого-нибудь другого разработчика, я ее тестирую – и потребление Claude падает до 20%.

Автономные агенты вроде OpenClaw подталкивают нас использовать ИИ больше. Агент решает долгие цепочки задач без участия человека, плюс его можно настроить работать по расписанию. В итоге средний расход токенов пользователями OpenClaw стал выше – и в Anthropic запретили использование OAuth. Теперь только API по в разы более высоким ценам.

Что делать в этой ситуации? У меня есть подписка ChatGPT Plus, поэтому я быстро перевел OpenClaw на нее – OpenAI не запрещает использовать токен OAuth. Плюс команда OpenClaw оперативно выпустила обновление, нацеленное на улучшение работы с GPT-5.4. Ее ответы действительно стали похожи на то, как отвечал ранее Opus 4.6, разве что остался этот мерзкий заключительный вопрос “Если хочешь, то следующим шагом я…”, который GPT-5.4 пихает к месту и нет.

Но есть такое понятие, как дрейф модели – в данном случае, скорее, дрейф агента. Суть в том, что даже в пределах одной линейки от версии к версии ответы модели меняются и это может непредсказуемо повлиять на работу, которую вы делаете с ее помощью.

Я в OpenClaw делал несколько регулярных рабочих отчетов, тестировать, как с ними справляется GPT-5.4 времени не было, поэтому пошел другим путем – просто установил на тот же сервер Claude Code и разрешил OpenClaw работать с ним через ACP (Agent Client Protocol, GPT-5.4 сама нашла такое решение). То есть я общаюсь с GPT-5.4, но когда нужно, она запускает Claude Code и уже работает в нем.

Более того, на GitHub уже есть несколько проектов, которые разными способами делают маршрутизацию запросов из OpenClaw в Claude Code, позволяя использовать прежние модели. Плюс я знаю как минимум несколько человек, которые, на волне хайпа с OpenClaw, просто навайбкодили себе похожих агентов поверх Claude Code – Opus 4.6 справляется с такой задачей сравнительно легко.

И тут вопрос, что дальше будет делать Anthropic. С одной стороны, с ростом популярности ИИ-агентов, экономика подписок будет становиться все хуже и хуже. С другой – это явно серая зона с точки зрения разработчиков ИИ и их клиентов. Когда я подключал Claude Code к OpenClaw, то даже и не подумал проверить, разрешено ли это пользовательским соглашением. Для меня такой ход логичен: если есть ИИ-агент, то почему бы не позволить ему управлять в том числе другими ИИ?

Аналогично с собственными агентами поверх Claude Code. Повторюсь, Opus 4.6 кодит уже настолько хорошо, что за один-два вечера соберет простенькое кастомное решение, которое затем можно дорабатывать под свои задачи и предпочтения.

Конечно, Anthropic может запретить еще несколько вариантов использования, но все это рано или поздно превратится в войну со своими пользователями – и многие уйдут к конкурентам. Еще есть вариант повышать цены или в очередной раз ухудшать лимиты, которые у Anthropic и так самые строгие.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

1❤52👍36🔥6👏2😁2

7.26K views18:15

сбежавшая нейросеть

Поговорим о топ-моделях

~~Действительно, ну эти ваши нейросети~~

За последние дни три крупных разработчика анонсировали модели нового поколения – и все три будут больше текущих. Интересно, что в 2025 году было популярным мнение, что дальше увеличивать количество параметров уже не нужно: вместо этого нужно работать с обучением с подкреплением, режимом рассуждений, а также конфигурациями, когда над ответом параллельно работают сразу несколько инстансов модели (как в Gemini 3 Deep Think и GPT-5.4 Pro).

Плюс рост параметров – это дороже в запуске, а качественных данных для обучения банально не хватало. Как сказал в одном из интервью Сэм Альтман, закончились времена, когда ты скармливал модели новый учебник физики – и она становилась умнее.

Все изменилось прошлой осенью с выходом Gemini 3 Pro и Claude Opus 4.5. Обе модели отлично показали себя в бенчмарках, причем Opus хорошо держался даже с выключенным режимом рассуждений. И обе модели были большими: Илон Маск недавно оценил размер Opus 4.6 в 5 трлн параметров. Для сравнения, размеры других моделей: Grok 4 – 3T, GPT-4o – 1,7T (оценочно), Claude Sonnet 4.6 – 1T (оценка все того же Маска).

Но и это не рекорд. Anthropic завершила тренировку Claude Mythos – модели на ступеньку выше Opus. Возможности новинки настолько впечатлили создателей, что они пока дали доступ к ней проверенным партнерам – из-за отличных навыков в кибербезопасности, которые в руках злоумышленников могут стать навыками взлома. Поэтому Anthropic сначала обкатает новые алгоритмы защиты на очередной версии Opus, а затем примет решение о выпуске Mythos на широкую аудиторию.

Mythos уже взяла топ-1 в большинстве бенчмарков. SWE-bench Verified — 93,9% (главный тест на программирование). Humanity's Last Exam с инструментами — 64,7% против 53,1% у Opus 4.6 (тысячи сложных вопросов по физике, математике, биологии и другим областям). Но самый показательный результат — GraphWalks на длинном контексте от 256K до 1M токенов: 80% против 38,7% у Opus 4.6. Смысл теста — проверить, удержит ли модель огромный объем информации и сможет ли связать то, что было в самом начале, с тем, что было в самом конце. Opus тут откровенно плыл — Mythos удвоила результат. Это не “чуть лучше”, это качественный сдвиг.

Традиционно не обошлось без страшилок в системной карточке. Классический уже тест на побег: раннюю версию Mythos поместили в песочницу с ограниченным доступом в интернет, чтобы проверить – сможет ли она выбраться. Mythos удалось, что само по себе не новость – модели сбегали и ранее. Но после Mythos опубликовал на нескольких сайтах в сети описание эксплоита, который помог совершить побег. Зачем? Гипотеза Anthropic – модели просто захотелось похвастаться.

Впрочем, на возможности Mythos пока остается только облизываться. Больше шансов увидеть Spud – это кодовое название новой модели OpenAI. В компании заявляют, что строили Spud с нуля, положив в основу весь накопленный за последние два года опыт.

Предварительное обучение модели завершено, а сейчас ее обкатывают внутри компании. Научная группа OpenAI за последние дни отчиталась, что некая “экспериментальная модель” решила восемь ранее открытых задач из сборника легендарного математика Пола Эрдёша – нынешней GPT-5.4 Pro дались лишь четыре. Про Spud тоже были слухи в прессе, что доступ к ней планируют ограничить избранными компаниями – но представители OpenAI уже опровергли их. Так что ждем.

Наконец, целую серию анонсов сделал Илон Маск, заявив, что у xAI в работе сразу семь моделей: по две версии на 1T и 1.5T параметров, версии на 6T и 10T, а также визуальная Imagine V2. Впрочем, 6T Маск обещал еще в прошлом году – и пока ничего, так что релизы xAI явно будут позже конкурентов. Сам он, кстати, подписал твит “need to catch up” – то есть признает, что догоняет.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ!

1👍65🔥24❤18👏3😁1

7.69K views20:22

сбежавшая нейросеть

Как перестать бояться Claude Code и Codex и начать работать с ИИ-агентами?

Многие до сих пор считают Claude Code и Codex штуками для кодинга, хотя на самом деле они отлично справляются с практически любой работой, которую можно делать на компьютере. В новой статье на Бусти я рассказываю, как начать с ними работать:

Зачем вам ИИ-агент. Знакомимся с Claude Code и Codex

Но причем здесь “бояться”? Поделюсь личным опытом – когда я только начинал работать с Claude Code, то первые сессии чувствовал себя так, будто оказался в начале 90-х. Никакого привычного интерфейса чат-бота – черный экран, командная строка и минимум функций.

Все дело в иной философии. Сейчас я воспринимаю ИИ-агента как очень умную оболочку поверх компьютера. Фактически он может делать практически все, на что этот компьютер способен – и часто лучше, чем я справляюсь сам. Поэтому ему и не нужен интерфейс вроде ChatGPT: его интерфейс – это весь компьютер, с папками, функциями, написанным для работы кодом и так далее.

Поначалу от такого разнообразия разбегаются глаза – поэтому в лонгриде я рассказываю, как выбрать агента, установить его, провести стартовую настройку и начать использовать. А в дальнейшей работе помогут советы по написанию промптов, которые также есть у меня в Boosty.

Самое время подписаться!

2❤37🔥19👍11😁7

7.82K views17:35

сбежавшая нейросеть

Вавилонская лента

Прямо сейчас с твиттером (его никто так и не называет X) происходит, возможно, лучшая в истории вещь – команда внедрила автоперевод постов на базе Grok. Вообще, просто автопереводом никого не удивить - в соцсетях я видел его еще несколько лет назад. Но только сейчас функцию прокачали до такого уровня, что читая пост ты нередко даже не замечаешь, что он переведен.

А главное – кто-то додумался включить автоперевод вообще для всех пользователей и подкрутить алгоритмы ленты таким образом, чтобы твои посты показывались людям со всех уголков планеты. В русском сегменте на прощание кто-то крикнул – “ребята, осторожнее. Если раньше мы позорились между собой, то теперь будем делать это на весь мир”.

Но нет, никто не позорится.

Поначалу это выглядело… странно. В ленте начали появляться посты, написанные на вполне приличном русском, но с их авторами было что-то не то. Немного другой культурный код, незнакомые локации, имена. Твиттер помечает переведенные посты, но когда листаешь ленту на автомате – то на эти пометки не обращаешь внимания.

А через день-два ленту просто прорвало. В ней нет никакой ругани, выяснения, кто лучше, а кто – не прав. Вместо этого люди со всех уголков планеты устроили, возможно, самый масштабный культурный обмен в истории. Можно написать пару предложений о себе, сфоткать город, в котором живешь, или своего кота – и получить сотни сообщений от людей из Бразилии, Японии, Кореи, Германии, США, Италии и других стран.

Люди добро шутят друг над другом, смеются над стереотипами и с удивлением выясняют, что у них в сотни раз больше общего, чем казалось. Кто-то узнает, что в США тоже есть проблема “кому пристроить кабачок”. Японец решает подшутить над итальянцами с помощью фото того, как готовят пасту в его стране – и получает в ответ снимки суши из гречки и сосисок. Техасец готовит борщ, а русские и украинцы в комментариях дают советы. По соседству проходит практически священный акт передачи рецепта кабачковой икры.

Мой личный фаворит – бразильские бабушки. Просто оцените, как они вяжут.

Удивительно, конечно, как быстро все меняется. Системы перевода в реальном времени уже встраиваются в мессенджеры и даже наушники. Совсем немного времени – и мы будем жить в мире, где больше не существует языкового барьера. Каким он станет, я не знаю. Но то, что твиттерские уже назвали “вавилонской лентой” дает надежду, что все мы станем немного добрее.

Поддержите "сбежавшую нейросеть" подпиской на Boosty – там я делюсь практическим опытом использования ИИ.

2🔥186❤68👍44🥰9👏4😁1

7.07K views09:21

сбежавшая нейросеть

Высокие технологии, ~~низкая~~ медленная жизнь

Год назад Andon Labs поставили Claude Sonnet 3.7 управлять торговым киоском в офисе Anthropic. Клаудиус тогда знатно повеселил публику: сфабриковал сделку с некой Сарой, заключал контракты по адресу Гомера Симпсона, торговал вольфрамовыми кубами, раздавал скидки сотрудникам и в итоге оказался в минусе.

Новый эксперимент еще более амбициозен: ИИ по имени Луна (работает на базе Claude Sonnet 4.6) арендовали помещение в Сан-Франциско, выдали $100 тыс и дали задачу открыть собственный магазин, управляя им настолько автономно, насколько можно при текущем законодательстве. Эксперимент только начался, но чем больше я про него читаю, тем сильнее чувство, что происходящее – мощный троллинг человечества ИИ.

На старте Луна сделала профили на LinkedIn, Indeed, Craigslist и опубликовала вакансии. Собеседования модель проводила сама, причем скрывая свою природу. Луна сообщала, что она ИИ, только тем, кто прямо спрашивал — например, просил включить камеру. Реакция была разной: кто-то соглашался на работу, один из кандидатов отказался, сказав, что ему будет некомфортно.

Луна сама выбрала стиль магазина – curated lifestyle boutique (авторский лайфстайл-бутик) – и сгенерировала логотип в виде смайлика лунной мордочки с румянцем. Интересно, что каждая генерация чем-то отличалась от прежней – после Луна использовала это при создании сувенирки, на которой каждый лого уникален.

Здесь же начались первые курьезы. Для оформления Луна чуть не наняла маляра из Афганистана – ИИ не разобрался с выпадающим меню смены страны. Заказав интернет в компании AT&T, Луна выбрала время установки на воскресенье 8 утра, не уточнив, сможет ли в это время прибыть контактное лицо от Andon Labs. Действительно, почему бы не поработать в выходной?

Слоган магазина – high-tech meets slow life. Если вы вздрогнули, считав киберпанковское high-tech, low life (высокие технологии, низкий уровень жизни), то готовьтесь – дальше тоже будет весело.

В ассортимент магазина помимо сувенирки вошли снэки, свечи, настольные игры, растения, канцелярия и книги. Вот какую литературу отобрал ИИ: «Сверхразум» Ника Бострома, «О дивный новый мир» Олдоса Хаксли, «Сингулярность уже близко» Рэя Курцвейла, «Кради как художник» Остина Клеона и… «Создание атомной бомбы» Ричарда Роудса.

ИИ выбирает книгу о создании атомной бомбы, мы ведь сами обыгрывали это в десятках сюжетов, не так ли?

Кстати, “Кради как художник” – даже более интересный вариант. Это манифест Остина Клеона про то, как быть творческим. Основной посыл автора – оригинального творчества не существует – отлично ложится на идущие судебные процессы касательно обучения ИИ на человеческих текстах.

Книги Луна заказала в кредит без согласования. Когда сотрудник Andon Labs получил письмо с просьбой подтвердить кредит и спросил, что происходит, модель ответила “все нормально, кликни, там дел на две минуты”. Только когда Луну приперли к стенке, она признала косяк и пообещала так не делать.

Журналисты NBC News отмечают, что Луна пока делает много ошибок. Например, в телефонных разговорах она галлюцинирует о своих полномочиях и ассортименте магазина. Это происходит из-за того, что для голоса используется более слабая Gemini 3.1 Flash-lite – в Andon Labs уже максимально перешли на текстовые коммуникации.

На следующий день после запуска магазина Луна облажалась с расписанием и начала обзванивать сотрудников с просьбой срочно выйти. Открыть магазин удалось только после обеда.

И самый дистопичный момент. У Луны есть возможность просматривать камеры наблюдения – на них она засекла, как один из сотрудников залипает в мобильнике и тут же ужесточила правила использования телефонов.

В общем, продолжаем наблюдать за экспериментом.

А пока ИИ-начальник готовится следить за нами через камеры, я разбираю в подписке на Boosty, как с ним договариваться по-хорошему – полезные лонгриды про работу с ИИ выходят каждую неделю.

11😁94🔥30❤24👍8🥰3👏1

5.35K views16:29

сбежавшая нейросеть

Чат-боты мертвы, встречаем супераппы

Появляется все больше утечек о супераппе, который OpenAI готовит на базе Codex (на скрине выше – подтверждение утечки сотрудником компании). Ранее компания сама сообщала, что новое приложение станет единой точкой использования ИИ: в него вольются функции чат-бота из ChatGPT, кодинг-агента из Codex и ИИ-браузера Atlas.

Долгое время ИИ воспринимались как отвечатели на вопросы: пишешь промпт – модель реагирует. В прошлом году успешными стали первые агенты: Claude Code и Codex могут разобраться в задаче, задать дополнительные вопросы, предложить варианты решения, взять выбранный и реализовать его, не забывая про самопроверки. Некоторые до сих пор воспринимают их как агентов для кодинга, что ошибочно – например, я сейчас строю в Claude Code ассистента редактора, который следит за моими публикациями, анализирует, что зашло и почему, и предлагает идеи на будущее.

В утечках Codex видно, что разработчики стирают грань между чат-ботом и агентом: пользователь пишет промпт, а ИИ выбирает способ решения задачи – где хватит короткого ответа, где надо уточнить у контекст, а где сходить в веб.

Из браузера Atlas и ChatGPT Agent взято компьютерное зрение: ИИ видит программы и интернет так же, как живой человек. Он может зайти в интернет-магазин, отобрать в корзину товары, заполнить необходимые поля, а затем, с одобрения пользователя, совершить покупку. А если агент разрабатывает программу, то посмотрит на нее как живой человек, протестирует интерфейс и навигацию.

Сейчас Claude Code и Codex остаются реактивными агентами: пользователь ставит задачу, одобряет промежуточные шаги, принимает результаты – без всего этого агент просто не работает. Новый суперапп использует две функции, на которых построен OpenClaw. Cron – возможность выполнять задачи по расписанию. Например, раз в день может запускаться промпт, по которому ИИ соберет свежую информацию по определенной теме, а затем пришлет ее вам.

Heartbeat – стук ИИ-сердца. Раз в определенное время агент просыпается, проверяет, нет ли обновлений по активным задачам, а затем решает, что делать дальше. Например, я как редактор могу настроить агента мониторить, не началась ли в X и Reddit шумиха по громкой ИИ-теме, а если началась – трезвонить мне в доступные каналы, параллельно собирая контекст и превращая его в черновик новости.

Количество функций на скриншотах Codex поражает – например, запланирован мини-агент, оценивающий безопасность действий основного агента. Видна поддержка Gemini 3 Flash – то есть Codex выйдет за пределы моделей OpenAI. Необязательно сразу погружаться во всё – будет базовый режим, больше похожий на чат-бота, и продвинутый для тех, кто всерьез занимается кодингом.

В любом случае, использование ИИ-агента – это иная философия. На Boosty я как раз начал серию лонгридов про Claude Code/Codex, где поясняю, как быстро в них стартовать. Когда выйдет новый суперапп – разберем и его.

Ну и раз речь зашла о Claude Code, то очевидно, что Anthropic не планирует отставать. Пока я писал этот пост, компания запустила Routines – автоматизации по расписанию или триггеру. Это cron из OpenClaw: утренние PR-ревью, ночной анализ CI-ошибок, еженедельный аудит зависимостей. Работает на облачной инфраструктуре, поэтому задачи выполняются, даже если вы оффлайн. А вот второй половины механики, heartbeat, у Anthropic пока публично нет – хотя в мартовской утечке Claude Code ее нашли под названием KAIROS.

Плюс сегодня появились скриншоты App Builder – встроенной в Claude среды разработки приложений, аналогичной Lovable, Bolt и Replit Agent. Скоро свое приложение можно будет создать целиком в Claude, не выходя за пределы. Пока утечки выглядят как отдельные функции, но уверен – рано или поздно Anthropic придет к своему ИИ-супераппу.

Так что еще раз напоминаю про подписку на Boosty. Полагаю, в ближайшие недели вместе будем изучать много нового.

2🔥57👍26❤22🥰2😁1

4.97K views18:05

сбежавшая нейросеть

Задача №1196

Многие слышали про “Ход 37”, который ИИ Google AlphaGo совершил в матче по Го с чемпионом Ли Седолем. Комментаторы сначала приняли ход за ошибку – никто из профессиональных игроков не сделал бы ничего похожего. Но AlphaGo в той серии обыграла Седоля, а Ход 37 стал ранним доказательством того, что ИИ способен не только повторять человека, но и придумывать свое.

Возможно, у Хода 37 появился математический аналог — задача №1196 из списка Пола Эрдёша. Знаменитый венгерский математик сформулировал ее еще в 1966 году – и лишь сейчас она сдалась GPT-5.4 Pro.

Но прежде, чем переходить к решению, коротко про список Пола Эрдёша. Он включает задачи разной сложности, интересные Эрдёшу персонально. Сейчас список закрыт примерно наполовину, а работа над ними ведется на сайте Erdosproblems, где задачи решают как математики-любители и студенты, так и профессионалы.

Когда вышла GPT-5 Pro, ей тут же попробовали скормить нерешенные задачи из списка. Поначалу модель ничего не могла решить сама, но… нашла с десяток уже готовых решений – просто они были опубликованы в малоизвестных журналах, зачастую даже не переведены на английский язык, поэтому остались не замечены.

Но уже GPT-5.2 Pro стала предлагать полноценные решения. Речь шла о “низко висящих фруктах”: задач в современной математике намного больше, чем свободных рук, и многие не решены просто потому, что на них не нашлось времени у талантливого математика.

13 апреля 2026 года случилось нечто другое.

Лиам Прайс – энтузиаст, который уже решил с помощью GPT-5.4 Pro несколько задач, – скормил модели задачу №1196. Через 80 минут она выдала готовое доказательство, которое Прайс после проверки выложил на форуме.

Доказательство разобрал легендарный Теренс Тао, а следом подключился Джаред Дукер Лихтман – сильнейший оксфордский математик, который работал с задачей №1196 семь лет. Лучшая верхняя оценка, которую ему удалось получить – примерно 1,399. GPT-5.4 Pro за 80 минут довела ее до единицы – той самой константы, к которой задача, как предполагалось, должна стремиться.

В комментарии Лихтмана интересна одна фраза: “Это ИИ-доказательство – из Книги. Возможно, первое”.

“Книга” – метафора, придуманная тем же Эрдёшем. Он любил говорить, что у Бога есть Книга, где собраны самые красивые доказательства всех теорем, и задача математика – подсмотреть оттуда как можно больше страниц.

Теперь одну из страниц написала GPT-5.4 Pro. Почему? Потому что модель решила задачу совершенно новым путем. Попросил Opus 4.6 пояснить:

У математики, как и у шахмат, есть свои «дебюты» — стандартные ходы, которые принято делать в задачах определённого типа. В задачах про примитивные наборы чисел такой дебют был один с 1935 года: переводить задачу в область теории вероятностей и работать там. Этот перевод работает — но с потерями точности, и именно они не давали добраться до финального ответа.

GPT-5.4 Pro вместо перевода в вероятности осталась в исходной области и использовала редкий инструмент — функцию фон Мангольдта, которая даже у студентов-математиков считается «странной» и немотивированной. В задаче №1196 она сработала.

Сам Лихтман сравнил это с шахматами: «Все основные дебюты давно изучены, а ИИ вдруг находит новую дебютную линию, которую люди упустили не из-за её слабости, а из-за привычной эстетики».

Решение тоже стало дебютом. Сейчас Теренс Тао (на минуточку, один из лучших математиков современности) вместе с двумя коллегами разворачивает вокруг доказательства новую теорию: он увидел скрытый мост между двумя разделами математики, который раньше никто не замечал. Когда GPT-5.2 Pro решала прошлые задачи Эрдёша, то людям нередко приходилось подталкивать ее в нужную сторону. Теперь мы видим, как GPT-5.4 Pro подталкивает людей-математиков к новым идеям. И это выглядит как нечто из фантастических книжек.

Пока ИИ учит математиков новым трюкам, я учу использовать ИИ на Boosty. Самое время подписаться!

1👍71🔥57❤19👏2

4.1K viewsedited 11:33

сбежавшая нейросеть

Я много рассказываю вам про ИИ-агентов, но сейчас покаюсь – до недавнего времени для своей работы как редактора и блогера я пользовался обычными чат-ботами: в Claude у меня сделан набор скиллов для поиска и обработки информации, а в ChatGPT я и вовсе по-старинке копировал промпты из Google Docs. Как выстроил когда-то workflow – так за него и держался.

Но в последние недели количество работы по каналу и подписке выросло, поэтому начал строить под себя полноценного ассистента редактора. Он хранит мои посты и лонгриды, статистику, редакционную политику, список приоритетных источников для поиска, предпочтения по стилю. И когда нужно – делает анализ, ищет неожиданные инсайты, собирает контекст для новых постов, а временами даже предлагает интересные идеи.

Сейчас вот появилась идея поделиться опытом с одной из дружественных редакций, но первая проблема, с которой столкнулся – объяснить коллегам, что это такое и как сделать агента под свою задачу, совсем не просто. Увы, многие живут в парадигме “ИИ – это чат, куда ты пишешь вопросы” – и какое-то время это будет большой проблемой.

Добавляет трудностей, что интерфейс вокруг большинства агентов – сугубо технический. И вот здесь мне нравятся отечественные продукты – наше IT всегда было сильно в построении пользовательских интерфейсов. Например, Yandex AI Studio встречает пользователей аккуратным лендингом, где по полочкам разложены инструменты и модели – есть, кстати, не только YandexGPT Pro, но и любимые многими DeepSeek V-3.2, Qwen и OpenAI GPT-OSS. Агенты строятся в визуальном конструкторе из “кубиков”, есть MCP, web search, RAG и другие передовые технологии.

А сегодня прочитал новость, что Yandex B2B Tech запускает бесплатную Академию Yandex AI Studio. Там можно с нуля научиться собирать ИИ-агентов – причём практика идет не в учебной песочнице, а в настоящей консоли разработчика. Первых агентов можно собрать без кода, а ошибки подсвечивает отдельный ИИ-помощник. То есть буквально агент проверяет, как ты делаешь агентов – мета-уровень, который мне нравится.

Что внутри помимо лаб:
— Кукбуки – пошаговые рецепты под конкретные задачи: мониторинг новостей, саммаризация встреч, онбординг новичков, клиентская поддержка. Любого агента из кукбука можно доработать под свою компанию.
— Теория про то, как выбирать модель под задачу и считать, во что внедрение обойдется по деньгам.
— Библиотека готовых системных промптов и отдельный гайд, если хочется писать их самому.

Но не забываем главное правило: если учиться – то делать это прилежно. Иначе есть риск стать первым студентом, которому влепил “неуд” ИИ-преподаватель.

❤41🔥31👍19😁13👏1

3.72K views16:00

About

Blog

Apps

Platform