ИИволюция 👾

AGI отменяется

На прошлой неделе Дженсен Хуанг на подкасте у Фридмана заявил, что AGI уже здесь. А через день вышел бенчмарк, где все топовые модели мира набрали меньше процента. Какая ирония, тайминг просто идеален!

ARC-AGI — это серия бенчмарков, которые пытаются измерить способность разбираться в новом с нуля. Первые две версии были статичными головоломками: вот тебе цветная сетка, вот паттерн, найди правило, примени к новому входу. AI к текущему моменту щёлкает их на раз-два: Opus 4.6 набирает 93% на первой версии, Gemini Deep Think 85% на второй. Казалось, вот-вот догонят людей.

И тут 24 марта выходит третья версия. И отодвигает AGI куда подальше!

ARC-AGI-3 — это 135 игровых окружений с тысячами уровней. Каждое окружение — отдельная игра, где ты делаешь ход, видишь результат, делаешь следующий, со своей логикой и своими правилами. Никаких инструкций и подсказок не дается. Вообще никаких намёков что вообще считается победой. Агент видит текущее состояние, делает действие, видит что изменилось, и должен сам разобраться в этом и что тут вообще происходит.

Результаты:
— Gemini 3.1 Pro: 0.37%
— GPT-5.4: 0.26%
— Claude Opus 4.6: 0.25%
— Grok-4.20: 0.00%. Grok набрал ноль! Буквально не понял, что от него хотят.

Люди при этом прошли все 135 окружений. Правда, тестировали не случайных прохожих, 500 человек в контролируемых условиях, и за baseline взяли не среднего игрока, а почти лучшего из группы. Плюс оценивают не просто "прошёл / не прошёл", а сколько ходов потратил. Формула жёсткая: если модель тратит в 10 раз больше ходов — ей засчитывают не 10%, а 1%. Так что цифры намеренно драматичные. Но даже без этого усиления — разрыв чудовищный.

А самое обидное: пара простых алгоритмов без всяких LLM набрала 6-12%. Против 0.25% у Opus и 0.26% у GPT-5.4. Триллионы параметров проиграли алгоритмам, которые просто методично брутфорсят (перебирают) варианты.

25 игр можно пройти тут. Призовой фонд ARC Prize 2026 аж $2M. Все решения обязаны быть open-source. Дедлайн — 2 ноября.

В общем, AGI отменяется. Работаем дальше 😅

👍26❤7🔥6

3.11K viewsСергей Пахандрин, edited 11:20