Свідки AGI 🤖

🧠

ARC-AGI-3 — справжній тест на мислення для AI

Ще одна важлива новина останніх днів, на яку потрібно звернути увагу в контексті "шлях до AGI" - це вихід ARC-AGI-3.
Це вже третя версія одного з найсуворіших бенчмарків, який починає тестувати AI як дорослу мислячу сутність, а не просто як суперкомп'ютер з хорошою пам'яттю.

У чому головна проблема сучасних LLM? Вони натреновані на всьому інтернеті.
Коли ви даєте їм задачу, вони часто не вирішують її, а просто згадують схожий паттерн.
Але варто дати щось, чого не було в навчальних даних - і система ламається.

ARC-AGI-3 змінює цю парадигму.

Перші його версії були статичними головоломками.
Першу (V1) моделі проходили 5 років, другу (V2) - менше року. Третя версія (ось ця) - це зовсім інший рівень.

135+ міні-ігор без інструкцій. Моделі не кажуть, що робити. Вона опиняється в середовищі, де треба самостійно тикати інтерфейс, рухати предмети й тиснути кнопки.
Тепер вимірюють не правильну відповідь, а швидкість навчання.
Як швидко агент розуміє логіку світу? Скільки спроб йому потрібно? Як він змінює стратегію після помилки?

Цей бенчмарк фіксує фундаментальний зсув. Ми переходимо від оцінки моделей як просунутого автокомпліту, що вгадує слова, до оцінки AI як систем, здатних до реального мислення.
Задачі в ARC-AGI-3 побудовані так, що їх неможливо зазубрити - їх можна тільки зрозуміти, виявивши логіку в процесі взаємодії.

Це і є той самий шлях до AGI, коли машина не просто відтворює знання, а проявляє гнучкість інтелекту в умовах повної невідомості. Що цікаво, усі ці задачі легко вирішують люди, але для AI це поки важко.

Кому цікаво, можете випробувати свій людський інтелект :) three.arcprize.org
А тут, документація для тих, хто хоче натравити свого агента на цей виклик: docs.arcprize.org

#news
#thoughts

Свідки AGI

Please open Telegram to view this post