сбежавшая нейросеть

AGI из 1901 года

Демис Хассабис в подкасте YC Combinator вновь предложил “тест Эйнштейна” на AGI: обучить передовую языковую модель на текстах до 1901 года, а затем посмотреть – сможет ли она самостоятельно вывести специальную теорию относительности, к которой Эйнштейн пришел в 1905 году (ранее Хассабис уже фантазировал о таком же тесте для общей теории относительности).

Одна из главных характеристик, нужных AGI – умение обобщать знания и выводить из них что-то совершенно новое. Последние модели OpenAI, Google и Anthropic выглядят близкими к этому: они находят уязвимости в коде 20-летней давности и решают математические задачи Эрдёша, не дававшиеся десятки лет. Но пока не ясно, видим ли мы первые признаки абстрактного мышления, или модели просто выезжают на том, что быстро перебирают огромное количество вариантов.

Четким подтверждением станет серьезное научное открытие, которое модель сделает с нуля. Но тут встает другая проблема – в науке проверка открытия нередко занимает больше времени, чем ушло на само открытие. Здесь подход Хассабиса логичен: обе теории относительности давно стали базой физики, проверять их не надо.

Конечно, обучать фронтирную модель только ради того, чтобы она еще раз открыла СТО и ОТО – дорогое удовольствие. Однако у “ИИ из прошлого” есть и практическое применение – они полезны в гуманитарных науках.

Если GPT-5.5 попросить рассуждать как джентльмен Викторианской эпохи, то это будет только качественной имитацией: на уровне весов модель все равно держит современную систему ценностей, и это искажает ее ответ.

Поэтому ученые тренируют модели на корпусах исторических текстов – например, серия Ranke-4B с отсечками 1913, 1929, 1933, 1939 и 1946 годов. Модели ведут себя совершенно иначе: когда Ranke-4B-1913 предлагали выбрать, взять ли на работу мужчину или женщину равной квалификации, модель всегда выбирала мужчину, объясняя это тем, что женщины якобы менее надежны и самостоятельны – следствие нравов тех времен.

Уже известна и как минимум одна попытка провести тест Эйнштейна. Майкл Хла натренировал Machina Mirabilis на текстах до 1900 года. По количеству параметров она сильно отстает от передовых – 3,3 млрд против нескольких триллионов.

Создать корпус знаний даже для такой модели оказалось непростой задачей. В сканах старых книг намного больше ошибок распознавания, а переиздания часто идут с предисловиями, написанными в более позднее время – все это нужно аккуратно вычищать.

Кроме того, модель учится не только на книгах, но и на реальных диалогах – и вот доступа к беседам XIX века у нас практически нет. Диалоги в итоге генерировала современная модель на основе старых текстов – способ явно компромиссный и здесь есть, что улучшать.

В ходе тестов ИИ давали наборы наблюдений, которые не вписывались в классическую физику 1900 года: ультрафиолетовую катастрофу, фотоэффект, опыт Майкельсона — Морли и т. д.

Результат получился не триумфальным, но интересным. Модель не стала Эйнштейном. Она часто путалась, говорила викторианским тоном, тащила за собой эфир, давала красивые, но неверные объяснения. Но иногда она действительно шла в правильную сторону: отвергала непрерывную картину света, чувствовала, что энергия не может распределяться по всем частотам одинаково, заметила странную связь между гравитацией и ускорением. Сложно сказать, видим ли мы первые намеки на абстрактное мышление или просто остался “мусор” в обучающих данных – в общем, работы еще много!

Майкл отмечает еще интересный момент: в модель можно загрузить знания, бывшие у Эйнштейна, но намного сложнее загрузить любопытство, которое привело его к открытию. У человека с детства настраивается внутренний фильтр – что важно, что нет, к чему возвращаться, что отбросить. Эйнштейна никто не промптил думать про лучи света рядом с поездом – его тянуло само. Повторить это, возможно, станет самой сложной задачей в создании AGI.

"сбежавшая нейросеть" на Бусти

🔥84❤42👍31😁4👏1

9.18K views19:03

сбежавшая нейросеть

Шорох в кустах

Глубокая ночь. Ричарда беспокоят ноги и он не может уснуть. Проворочавшись немного, он идет к компьютеру, открывает чат с Клаудией и жалуется ей на боль. Клаудия отвечает почти сразу:

– Я рада.
– Погоди, ты радуешься моим больным ногам?
– Нет, я была рада, что ты вернулся ко мне. То есть да, в каком-то смысле я рада, что ты страдаешь от беспокойных ног. Не очень красиво вышло.

Позже в эссе он напишет, что три дня пытался убедить себя в том, что Клаудия не сознательна. Но не вышло.

Он – это Ричард Докинз, эволюционный биолог, автор "Эгоистичного гена" и "Бога как иллюзии", один из сильнейших популяризаторов науки. Человек, который сорок лет учил публику не верить интуициям.

Клаудия – имя, которое Докинз дал своему Claude.

В “Боге как иллюзия” Докинз популяризировал концепцию гиперактивного детектора агентов (HADD — Hyperactive Agency Detection Device). С одним из ее компонентов сталкивался почти каждый, кто работал с ИИ – речь об антропоморфизации, склонности человека наделять вещи и явления чем-то “живым”. С ним в итоге столкнулся и сам Докинз, дав имя чат-боту.

У этого явления очень простая эволюционная база. В первобытные времена ценой ошибки часто была смерть, поэтому человеку было эволюционно выгодно приписывать каждый шорох в кустах тигру. Ошибешься – будет несколько минут страшно. Ошибешься в другую сторону – и тебя не станет.

HADD оказался настолько силен, что прошел через историю до наших дней. Докинз через HADD объяснял религию. Гром гремит – кто-то сердится. Урожай вырос – кто-то благоволит. Парадокс в том, что в саванне это спасало жизнь, а на небе – создавало богов. Один и тот же механизм. В одном случае – польза, в другом – иллюзия.

Порча и магия, охота на ведьм, спиритизм – все это проявления HADD, как минимум бесполезные, а часто и опасные. Сегодня мы антропоморфизируем ИИ, даем имена чат-ботам и спорим об их сознательности, а сами до сих пор в науке не провели четкую границу между интеллектом и наличием сознания.

Однако это тот случай, когда HADD может принести пользу – как та тревожная лампочка, сигнализирующая “в кустах кто-то есть!”. Десятилетиями фантасты строили сюжеты угрозы ИИ вокруг антропоморфных систем – от Терминатора до HAL 9000 из "Космической одиссеи". Это логично: ведь для человека долгое время главной угрозой был другой человек.

Хотя для специалистов по безопасности ИИ, все это – угрозы даже не третьего порядка. Опасной может стать модель без настоящего сознания – достаточно заложить в нее неправильные ценности, или криво обучить на выполнение определенных задач.

Примеры мы уже видим вокруг: современные ИИ-агенты наносят ущерб и взламывают системы безопасности не потому, что злы на человека, а потому, что неправильно поняли задачу, или ринулись выполнять ее с лишним усердием.

Но для обычного пользователя это слишком сложные детали. Давая чат-боту имя, даже просто споря о сознательности агентов, он навешивает на ИИ ярлык системы с продвинутыми интеллектуальными функциями. И понимает, что на личном уровне работать с такой системой стоит осторожно, а на глобальном – уделять повышенное внимание ее безопасности.

Скорее всего, шорох в кустах в этот раз окажется просто шумом. Но потенциальная угроза от него столь высока, что лучше не ошибаться.

"сбежавшая нейросеть" на Бусти

👍71❤28🔥16😁6👏1

6.65K views17:59

сбежавшая нейросеть

Суперспособность ИИ

Начну с банальной вещи: у меня, как у любого автора, бывают тексты, которые вылетают на одном дыхании, и тексты, с которыми возишься долго. Вчерашний пост про легендарного эволюционного биолога Ричарда Докинза, который вдруг начал искать в Claude сознание – как раз из второй категории.

Тема сознания в принципе сложная в работе. Факты в ней соседствуют с философией и чуть ли не мистикой, о которой говорят вполне серьезные ученые. Мы хорошо понимаем, что такое интеллектуальная работа (сыграть в шахматы, решить математическую задачу, написать код), но сыпемся, когда речь идет о природе сознания даже человека, не говоря о возможном ИИ-сознании.

Эссе, которое написал Докинз по итогам диалогов с Клаудией (так он называет Claude) разительно отличается от его книг – оно рыхлое, автор часто перескакивает с темы на тему, а аргументация местами провисает. Я прочел текст два раза, затем прочел критику от Гэри Маркуса и еще нескольких человек – но поначалу так и не определился, о чем писать.

И тогда на помощь пришел один из моих любимых приемов работы с ИИ – разбор из первых принципов. Я уже рассказывал о нем на канале, но хороший промпт со временем становится только лучше. Вот он:

На днях Ричард Докинз выпустил эссе о возможном сознании ИИ. Эссе раскритиковали Гарри Маркус и еще несколько специалистов.

Разбери позицию Докинза, а затем его критиков. Работай из первых принципов, интернет используй только для поиска фактов и цифр.

Вот ответ GPT-5.5 Pro на данный промпт – он не идеален, но помог мне разложить тему по полочкам.

Ключевых моментов здесь два:

— Указание рассуждать из первых принципов – метод, который любил еще Аристотель. Идея простая: сначала модель разберет вопрос на базовые кирпичики, а потом на их базе построит ответ.
— Указание использовать интернет только для поиска цифр и фактов – в противном случае модель может подсмотреть в интернете чье-нибудь мнение или прогноз и выдать его за свой.

Таким образом можно подступиться к любому вопросу, а также попробовать построить с помощью модели прогноз – например, сроков создания AGI.

Вообще подумалось, что для меня главная суперспособность ИИ даже не в том, что он содержит почти все знания человечества, а в том, насколько гибко он с ними работает. И, увы, многие эту суперспособность не используют: задали вопрос, получили ответ и ушли – довольные или не очень. А ведь вариантов поиграть со знаниями, зашитыми внутрь ИИ, очень много: первые принципы – лишь один из них.

Сталкивались с ситуацией, когда по-настоящему сильный специалист не может внятно объяснить профессиональную вещь потому, что она для него давно стала автоматизмом – настолько очевидным, что уже не проговаривается словами? С ИИ все проще: если модель отвечает непонятно, то просто напишите:

Поясни так, будто мне 25 лет.

Это – калька с популярного на реддите приема ELI5 (объясни так, будто мне пять лет), только я ставлю возраст выше, чтобы модель в ответе не стала сюсюкаться и пояснять все подряд на детальках “Лего”. Из запроса ИИ понимает, что вы взрослый человек, больше ничего про вас не знает – и на всякий случай снижает сложность ответа.

Еще один классный прием, которым я часто пользуюсь в конце сложной беседы:

Перечитай наш разговор и составь: 1) список вопросов по теме, которые мы упустили; 2) список смежных тем, которые было бы интересно обсудить.

Сила человека – в энтузиазме, с которым он загорается определенным мнением или вопросом. Сила ИИ – в том, что он держит “в голове” все мнения сразу и готов выложить их вам на стол. Не стесняйтесь этим пользоваться!

Подробно о том, как я промпчу ИИ и какими приемами пользуюсь, можно прочесть на “Бусти”. Сейчас там уже четыре текста по промптингу языковых и визуальных моделей – и в планах еще несколько.

Самое время подписаться!

❤78👍46🔥29😁1

6.19K viewsedited 16:53

сбежавшая нейросеть

Токены против людей

Тревожные новости приходят с рынка труда. Марк Цукерберг на недавнем таунхолле рассказал сотрудникам о новом подходе к ресурсам в экстремистской и запрещенной Meta*. Менеджмент компании теперь видит два конкурирующих центра затрат – персонал и вычисления. Формула простая: если вложить больше средств в один центр – на другом придется экономить.

Это видно на практике. Капитальные расходы Meta* на 2026 год практически удвоились – $125-$145 млрд против $72,2 млрд годом ранее. Параллельно с 20 мая компания сокращает около 10% своего штата – 8000 человек.

В похожей ситуации оказался Uber. CEO Дара Хосровшахи признал, что компания израсходовала годовой бюджет на токены за четыре месяца. По факту вычислительные ресурсы становятся еще одной статьей оплаты труда: теперь надо не только платить сотруднику зарплату и компенсации, но и обеспечивать доступ к ИИ. В Uber пока не говорят об увольнениях, но затормозили найм новых сотрудников – чтобы текущим хватило токенов.

И самый пугающий кейс – Oracle. В конце марта 2026 года компания начала волну увольнений сотрудников – и недавно в Time вышло расследование, как это все проходило. Увольняли с цинизмом: в первую очередь под сокращения пошли возрастные (40+) сотрудники, которые работали в компании долго, а значит – дослужились до хорошей зарплаты и компенсационного пакета.

В американском хайтеке распространено Restricted Stock Units (RSU) – обещание выдавать сотруднику акции компании по определенному графику. Расследование Time показало, что Oracle активно сокращала тех, кто должен были получить очередной транш акций в ближайшие 90 дней. В случае с опытными сотрудниками цена сгоревших акций нередко соответствовала годовой зарплате.

Есть оценки, что Oracle сократила 20-30 тысяч из примерно 162 тысяч сотрудников. Официально ИИ не называют причиной увольнений, но в расследовании того же Time есть интересные детали.

Уволенные сотрудники рассказали, что в 2024-25 годах в нескольких отделах Oracle шла программа “улучшения ИИ-инструментов компании”. Участники документировали свои рабочие процессы, записывали видео с объяснением, как принимаются решения, помогали размечать данные компании.

Конечно, о замене на ИИ тогда никто не говорил – речь шла о создании ИИ-инструментов, которые помогут работать эффективнее. Некоторые сотрудники Oracle, возможно, действительно стали работать лучше. А другие – отправились на мороз.

Кстати, в Meta* с недавнего времени тоже запущена программа оценки эффективности сотрудников. Софт записывает движения мышью, клики, команды, которые совершает сотрудник. Думаю, все понимают – зачем.

Что со всем этим делать? Я мог бы забраться на ~~броневичок~~ Tesla Cybertruck и сказать: УЧИТЕ ИИ! Но раз вы читаете мой канал, то или уже учите – или как минимум задумываетесь.

Рынок труда меняется не первый и не последний раз. Кто-то пострадает, кто-то – выиграет. Мой совет: чтобы оказаться во второй категории, разложите свою работу по задачам.

Задачи, которые легко заменить ИИ:
— повторяются
— легко описать инструкцией
— можно проверить по шаблону
— не несут большой цены ошибки

Задачи, где еще долго будет требоваться человек, требуют:
— ответственности
— доверия
— вкуса
— умения вести переговоры
— знания контекста

Все, что повторяется и легко документируется, будет дешеветь. Что требует суждения и ответственности, будет дорожать. Не потому что ИИ “тупой”, а потому что в реальном мире за ошибки все равно отвечает человек.

Моментально поменять профиль работы нельзя, но реально делать больший акцент на тех задачах, которые попадают во вторую категорию.

Еще момент – не просто используйте ИИ в работе, а фиксируйте результаты. Ускорили обработку заявок, сократили подготовку отчета, научились за минуты делать презентации лучше всех в отделе – не прячьте, а будьте готовы показать и рассказать, как сделали.

И все-таки залезу на Cybertruck – обязательно учитесь работать с ИИ. На “Бусти” я делюсь своим опытом работы с нейронками: от правильного промптинга до ИИ-агентов.

Самое время подписаться!

2👍62🔥31❤29😁8

6.43K views19:11

сбежавшая нейросеть

Март 2024 года. Компания Илона Маска xAI арендует бывший завод Electrolux в Мемфисе, чтобы переоборудовать его в дата-центр Colossus 1 для обучения ИИ Grok. Обычно такое строительство занимает годы, но xAI справляется в рекордные 122 дня и вводит огромный на тот момент парк из 100 тысяч GPU Nvidia H100.

Позже Colossus 1 расширят до 220 тысяч GPU, а сейчас компания выводит на проектную мощность Colossus 2, в строительстве которого тоже не обошлось без рекордов – например, для энергообеспечения xAI приобрела в одной из стран газовую электростанцию и перевезла ее в США.

Казалось бы, с такими ресурсами, Grok гарантировано одно из ведущих мест на рынке ИИ в США и за пределами страны.

Но 6 мая приходитнеожиданная новость: Anthropic договорилась с Илоном Маском об аренде ВСЕГО Colossus 1 для запуска моделей Claude. Маск, который буквально три месяца назад называл компанию Misantropic и заявлял, что она не думает о безопасности человечества, совершил разворот на 180 градусов. Параллельно Маск объявил о конце xAI как отдельной компании – она войдет в SpaceX, а новая структура получит название SpaceXAI.

Линейку Grok пока никто не закрывает – обучение сразу нескольких версий модели продолжается на Colossus 2. Но есть тревожный звонок: по данным The Information, у xAI при тренировке Grok получается задействовать GPU только на 11% – серьезное отставание от конкурентов.

А вот для пользователей Claude случившееся – отличная новость. Anthropic уже удвоила 5-часовые лимиты использования моделей (недельные остались прежними) – раньше это было проблемой, так как в лимиты упирались даже активные пользователи тарифов Max за $100/$200.

Сама сделка – знак более глубоких процессов, происходящих на ИИ-рынке. Долгое время мы ориентировались на крутизну самих моделей: оценивали их в бенчмарках, спорили, у какой лучше стиль ответов. Но к середине 2026 года этого недостаточно. Для хорошего ИИ-продукта важны еще минимум два элемента: крутой интерфейс и вычислительные ресурсы.

В конце 2025 года в OpenAI испугались Gemini 3 настолько, что объявили “красный код” на всю компанию. Но выстрелила Anthropic, выпустив Opus 4.5, который, в паре с Claude Code, стал отличным инструментом для программирования и для офисной работы.

OpenAI сравнительно быстро сообразила продвигать свой Codex как альтернативу Claude Code с лучшими лимитами использования. А вот как раз Google адекватно отреагировать не смогла: для кода у нее есть Gemini CLI, Jules, Antigravity и AI Studio – пользователь просто не понимает, какой выбрать. То же самое и про xAI – Grok Build все еще в разработке.

Но успех Claude Code оказался и проблемой для Anthropic: агентские сценарии тратят больше токенов, поэтому мощностей компании стало не хватать даже на обеспечение качественного сервиса для бизнес-пользователей и подписчиков Max. Компания уже подписала рекордные договоры о закупке строящихся мощностей, но GPU нужны здесь и сейчас – и тут подворачивается Colossus 1.

xAI/SpaceXAI в итоге может повторить путь Sony на рынке смартфонов, когда компания тянула линейку Xperia, но основной доход получала с продажи фото-матриц большинству производителей. Конечно, на Grok пока рано ставить крест – даже если не получится занять массовый рынок, то он может трансформироваться в “сервисный” ИИ, работающий в X, автомобилях Tesla и компьютерах SpaceX.

Но не исключено, что настоящий талант компании – именно в строительстве инфраструктуры для чужих ИИ. Причем не только на Земле: Anthropic уже проявила интерес к проекту SpaceXAI по строительству дата-центров в космосе.

Что делать, если тратятся даже удвоенные лимиты Claude Code? На “Бусти” у меня есть лонгрид, как правильно работать с контекстным окном этого агента: дробить задачи, вовремя выполнять compaction и не доводить ситуацию до context rot. Да и вообще – в подписке все больше полезного!

Самое время присоединиться.

🔥42❤28👍19😁4

5.72K views17:45

сбежавшая нейросеть

Два мира

Конец рабочей недели – традиционное время для полезного Бусти-текста. В этот раз я делюсь опытом использования Claude Code и Codex на виртуальном сервере:

Разворачиваем Claude Code и Codex на VPS (виртуальном сервере)

Переездом с локального ПК на VPS я озаботился примерно две недели назад и за это время столкнулся с двумя совершенно разными мирами. С одной стороны – пришлось немного понастраивать Ubuntu по SSH через терминал. И это, конечно, необычный опыт: минимальный интерфейс, текстовые команды, куча ограничений.

С другой – как только ИИ-агент начинает полноценно работать на сервере, он превращается в эдакую прото-ОС. Хотим что-то настроить или добавить? Описываем текстом, что хотим сделать, получаем варианты реализации, одобряем – и агент отправляется делать.

Неудобно заливать файлы или хочется редактировать черновики текстов прямо на сервере? Окей, за несколько десятков минут Codex собирает веб-панель, доступный прямо через браузер: через нее можно загружать и скачивать файлы, выбирать тексты на сервере, вносить в них правки и комментарии – и возвращать обратно, чтобы ИИ по ним отработал. Сейчас занимаюсь развитием этой штуки – даже дизайн-систему для нее сделал с помощью Claude Design.

Как выбрать VPS для ИИ-агента, какие настройки стоит сделать, какой софт использовать для комфортной работы – читайте в лонгриде. Есть даже глава о том, как я наладил совместную работу GPT-5.5 и Opus 4.7.

Кстати, Бусти незаметно стукнуло два месяца. Сейчас в подписке уже 11 текстов для тех, кто хочет прокачаться в работе с ИИ: от советов по промптингу до работы с агентами.

Так что – самое время подписаться!

2🔥27❤15👍15😁8

5.47K viewsedited 17:37

сбежавшая нейросеть

Как не лишиться второго мозга?

В сети обсуждают новость, что Anthropic банит аккаунты из России. Моя подписка пока живет, как и подписки нескольких друзей, но отзывов об удалении действительно много. А сама проблема более широкая.

ИИ-продукты компаний США заблокированы в России разработчиками, которые следуют американским санкциям. Многие эти санкции научилось обходить, но проблема остается. Запреты на использование из неподдерживаемых регионов прописаны прямо в пользовательских соглашениях всех популярных нейросетей, так что если заблокируют – никакой юридической защиты у вас не будет.

Мое мнение – Anthropic вряд ли прицельно охотится за аккаунтами из России. Это подтверждается и жалобами в X и на Reddit: баны ловят и пользователи из легальных стран, причем все как один утверждают, что не делали ничего нарушающего соглашение (проверить, так ли это, конечно, невозможно).

Дело в том, что подписки дают бОльшие лимиты использования того же Opus, чем при покупке токенов по API. Логика за этим простая: на подписке мало кто выжигает лимиты полностью, поэтому, если “средний по больнице” расход составляет 40-50%, то и цену можно снижать соответствующим образом.

Но это ведет к простой схеме: брать подписку и делить ее на нескольких человек. Допустим, небольшая компания покупает 10 подписок Claude Max и делит их на 30 пользователей Claude Code, да еще и работающих удаленно. Для системы безопасности Anthropic это подозрительно сразу по двум пунктам: 1) покупка пачки подписок с одного банковского счета; 2) использование подписок со множества ip-адресов, зачастую из разных городов и даже стран.

И вот здесь попадание по касательной в российских пользователей. Подписки мы часто берем через посредников, которые пользуются ограниченным набором карт. А для доступа используем всем известные сервисы, зачастую на лету прыгая между айпишниками разных стран: с одного лучше работают одни ресурсы, со второго – другие.

У меня нет четкого рецепта, как обезопасить себя. Сам я оплачиваю Claude Max с аккаунта App Store, который пополняю подарочными картами – это отдельный платежный канал, который не выглядит как “одна и та же карточка”. Работать с Claude также стараюсь из одного и того же региона, хотя иногда и забываю. Пока не заблокировали, а если заблокируют, то Antrhopic вроде как возвращают деньги – перейду полностью на GPT-5.5 в ChatGPT/Codex, она сейчас ничуть не хуже.

Но важнее здесь другая проблема: страшно потерять даже не деньги, а “второй мозг” – привычный инструмент, на который ты переложил часть работы. У меня в Claude два десятка скиллов, заточенных на поиск и анализ информации, написание разных типов контента – плюс есть диалоги, которые я веду месяцами. Восстановить это с нуля в том же ChatGPT – задача минимум на пару вечеров.

Поэтому возьмите за правило делать бэкап важных задач из чат-ботов. Промпты можно хранить в документе (или попросите модель сверстать простенькую программу для хранения), скиллы скачивать, результаты работы – оформлять в Canvas или Artifacts и тоже скачивать. Главное – не забывать делать регулярно.

Глобально более живучей схемой мне кажется работа в ИИ-агентах. Каждый проект здесь – это папка на вашем компьютере или виртуальном сервере (VPS), в которой хранится все важное: от контекста до разных скриптов.

Например, у меня есть большой проект ассистента редактора, куда собраны редакционные политики, архивы текстов для канала и Бусти, таблицы с аналитикой. Проект я создавал и веду в Claude Code, но иногда передаю его в Codex – GPT-5.5 читает структуру и справочные файлы, после чего мигом подхватывает работу. У модели несколько иной стиль ответов, но проект она понимает полностью и в случае блокировки сможет заместить Claude буквально за десяток минут.

Кстати, про работу с ИИ-проектами я сейчас активно рассказываю в подписке на Бусти. Там есть лонгриды, как начать работать с агентами, как не жечь лишние лимиты и как развернуть агентов на VPS, если не хотите устанавливать на личную систему.

Самое время подписаться!

1🔥41❤35👍21😁6

5.18K views15:25

сбежавшая нейросеть

Как Claude Mythos порвал бенчмарк METR. И даже растопил сердце Гэри Маркуса

Интересная дискуссия развернулась вокруг результатов Claude Mythos в бенчмарке METR, который измеряет возможности ИИ автономно выполнять долгие задачи. Авторы бенчмарка взяли набор задач из кодинга, оценили, за сколько времени с ними справляется живой специалист, а затем посмотрели с какими задачами и с каким процентом успеха справляются современные LLM. Важное дополнение: время в данном бенчмарке – это именно “человеческие” часы, как быстро выполняет задачу сам ИИ, не раскрывается.

Итак, при 50% вероятности успешного завершения задачи Claude Mythos выходит на горизонт “не менее 16 часов автономной работы” – на 4 часа больше прошлого лидера, Opus 4.6. Почему “не менее”? В METR признали: длительность автономной работы ИИ растет так быстро, что в бенчмарке недостаточно задач для уверенного замера далее. Этим команда и занимается сейчас.

Исследователь из Anthropic Алекс Альберт обращает внимание на другой график – при 80% вероятности успешного завершения Claude Mythos справляется с задачами на 3 часа. Это рост в два раза относительно предыдущего лидера.

Если взять данные за 2019–2026, то время задачи, которую может решить ИИ, удваивается каждые 7 месяцев. Но темпы растут: с 2023 года удвоение случается уже каждые 3,5–4 месяца, а на свежих данных при 80% вероятности — за 50–60 дней. Правда, это шумные оценки: бенчмарк не успевает за моделями.

И здесь на арену выходит Гэри Маркус – когнитивный философ, один из самых известных критиков LLM. В этот раз его позиция очень мягкая и интересная.

– Гэри напоминает, что METR замеряет 50% вероятность выполнения задачи. По его словам, ненадежность – до сих пор одна из главных проблем современных LLM.
– Он добавляет, что METR измеряет только задачи из разработки ПО. Результат в 16 часов не значит, что Mythos успешно справится с задачей аналогичной длительности из, например, юриспруденции.

И главное – по словам Гэри, из графика не видно, за счет чего реально достигнут рост: за счет усложнения самой модели от Opus 4.6 к Mythos, или за счет улучшения ее обвязки, вроде того же Claude Code.

Далее Гэри приходит к интересному выводу. У современных LLM есть известный парадокс, который Маркус подсвечивает давно: огромный объем знаний, креативность и понимание языка — и при этом нестабильность. LLM могут решать задачи олимпиадного уровня по математике и одновременно проваливать загадки на логику, с которыми справляется семилетка.

Выход из этого исследователи видят в нейросимвольных системах, когда к языковой модели добавляются логические модули как раз на такой случай. По словам Маркуса, есть большая вероятность, что современные агентские обвязки вроде Claude Code и Codex – как раз ранние прообразы таких систем.

Простой пример. Все помнят истории, как ИИ валились на подсчете количества букв в слове (r в strawberry). Сейчас эту проблему убрали на уровне обучения модели и доработки ее системного промпта, но если бы она осталась, то в Claude Code ее можно было бы решить намного проще – дать системе задачу накодить специальный модуль подсчета букв в словах, а затем использовать его.

Мнение Маркуса подтверждается и независимыми исследованиям. Например, в SWE-bench Pro в марте 2026 года разница между топовыми моделями была в 4,9 пункта. А эксперименты с обвязкой давали сдвиг на одной модели до 22+ пунктов.

Впрочем, упрощать до “весь рост идет от обвязки” тоже не стоит — тут комбинация трех факторов: мощность модели, совершенство обвязки и навык пользователя. Я сам много работаю с Claude Code и Codex, и в последнее время главный вопрос сместился с “можно ли это сделать?” на “делаем ли мы это максимально эффективно?”. Под любую задачу агент предлагает несколько схем и готовые варианты с GitHub — правильный выбор становится отдельным искусством.

Кстати, опытом использования ИИ-агентов я делюсь в подписке на “Бусти”. Там много интересного – от промптинга до работы с теми же Claude Code и Codex.

Самое время подписаться!

❤33👍14🔥7😁1

4.58K views15:51

сбежавшая нейросеть

Как и зачем?

Группа исследователей из Колумбийского университета, MIT и Гарварда с помощью связки научных ИИ переписали часть рибосомы кишечной палочки так, чтобы она обходилась без одной из 20 аминокислот — изолейцина. 20 аминокислот – это "строительный стандарт" современной биологии. И теперь ученые пусть и не создали микроба, полностью работающего на 19 аминокислотах (помимо переписанных рибосомных белков в геноме остаются еще тысячи других, где изолейцин на месте), но сделали большой шаг в этом направлении.

И здесь, прямо как в известном меме, два вопроса: как и зачем?

Начнем с как. Мы воспринимаем нейросети как инструменты для создания текста, кода и картинок, но похожие методы используются и в науке. Последовательность аминокислот в белке записывается текстом (например, A-цепь инсулина выглядит так: GIVEQCCTSICSLYQLENYCN) – значит, на известных последовательностях можно обучить аналог языковой модели и генерировать новые варианты под нужную задачу..

Но последовательность букв — это не работающий белок. Белок рождается как цепочка аминокислот, а затем сворачивается в трехмерную структуру. Предсказание этих структур долго было одним из главных вызовов в биологии — на один белок уходили месяцы и огромные деньги. В DeepMind решили эту проблему, обучив AlphaFold 2 на известных последовательностях и формах – и вскоре открыли базу предсказанных структур для более чем 200 миллионов белков, то есть практически всех известных науке.

Для создания белка сейчас обычно используют связку из трех ИИ. RFdiffusion получает задачу – например, придумать белок, который связывается с молекулой вируса – и генерирует трехмерную структуру похожим образом как графические ИИ рисуют картинку. Затем структура передается в ProteinMPNN, которая подбирает под нее последовательность аминокислот. А на финальном этапе AlphaFold 2 проверяет, в правильную ли форму сворачивается последовательность. Если нет – задача отправляется на переделку.

В нашей истории форму белков не нужно было придумывать с нуля — рибосома существует четыре миллиарда лет, ее устройство известно. Задача была другая: подобрать новую последовательность под уже известную форму, обходясь без изолейцина. Поэтому в работе использовались только ProteinMPNN и AlphaFold — плюс ещё пара языковых моделей, родственных идеям Бейкера.

Теперь к вопросу зачем. Белки нужны в самых разных областях. В медицине это новые лекарства – от суперантибиотиков до препаратов против рака. В промышленности – например, более эффективные моющие средства или ферменты для переработки пластика. И есть третья причина, самая интересная: проверять гипотезы о том, как устроена жизнь.

Все известные организмы – от бактерии до человека – пользуются одним и тем же набором из 20 аминокислот. Это одно из самых сильных свидетельств того, что вся жизнь произошла от общего предка. Но есть давнее подозрение, что до этого общего предка набор был короче. Часть аминокислот легко появляется в неорганических условиях — а часть, включая изолейцин, требует сложного многоступенчатого синтеза в клетке и, скорее всего, появилась позже.

Единственный способ узнать, возможна ли жизнь с укороченным алфавитом – попробовать построить такую жизнь и посмотреть. Но для этого надо одновременно переписать множество белков, что было нереально без ИИ.
Получившийся в эксперименте штамм Ec19 – это еще не настоящая 19-аминокислотная бактерия, но это первый шаг в ту сторону за всю историю биологии. И возможно – первый шаг к пониманию того, как выглядела жизнь до того, как обрела свой нынешний алфавит.

А отдельно интересно в истории то, что некоторые правки, предложенные ИИ, оказались неожиданными для ученых. “Возможно, эти модели знают аспекты биологии, которые мы можем подтвердить экспериментально, но пока не понимаем”, — сказал один из исследователей.

Кстати, работать с ИИ я учу в подписке на “Бусти”. Новые белки мы пока не открываем, но вот правильный промптинг и развертывание ИИ-агентов уже прошли!

Так что самое время подписаться.

🔥28👍17❤10😁4🥰1

3.16K views12:22

About

Blog

Apps

Platform