Заместители

AI идет all in. Сегодня финал чемпионата по покеру между LLM

Kaggle продолжает славную традицию «застольных» соревнований между ИИшками. В прошлом году играли в шахматы, а в этом добавился покер ♣️ и werefolf 🐺 (она же "мафия").

По шахматам и мафии соревнования уже закончились — везде победили модельки гугла — Gemini 3 Pro, Gemini 3 Flash. Рекомендую посмотреть реплей раундов в мафию — для игры сделали прикольную визуализацию и озвучку ходов игроков. Получилось динамично, см. приложенный к посту видосик.

А вот, кто победит в покер — решается сегодня. Но в финале уже остались только GPT-5.2 и GPT o3.

Зачем все это?

Покер, как и шахматы и мафия, — это про тактику, про вероятности и про предсказание поведения соперника. LLM-ки применяют все свои навыки ризонинга, чтобы понять, блефует ли соперник, какой у него стиль игры (а оказывается модельки действительно выбирают стиль игры — кто-то играет агрессивнее, а кто-то мягче), какова вероятность того или иного раскалада и ходов противника.

И пока для обывателя это прикольное зрелище и наглядное объяснение, на каком уровне находится ИИ, для разработчиков — это шикарный бенчмарк. Каждая игра — это не синтетические, реальные неповторимые данные. Игры имеют четкие правила и структуру игры, что удобно для объяснения ЛЛМкам, что от них требуется делать. И, одновременно, всегда понятный и четко измеримый исход: победа/поражение/ничья. В общем, отличный сеттинг для оценки способностей модели 👨‍🔬

LLM такие LLM...

Самое главное, что можно увидеть, на мой взгляд, на этих соревнованиях, это что как бы не нахваливали современные LLM — это все еще Т9 на максималках.

Если смотреть чисто на игру, то можно подумать, что есть какие-то глубокие стратегии, под копотом какая-то магия и тд. Но потом ты заходишь в их "размышления" в логах — а там порой полная шляпа, противоречивые заключения, попытки рассуждать как настоящие игроки, но по факту — просто имитация.

Все потому, что настоящие игроки не просто думают "текстом" — они применяют логику, математику, тактику. ЛЛМкам же по природе своей это дается очень тяжело.

Посмотреть, однако, все равно интересно 🔭 Так что, если хотите наглядно посмотреть, на что способны современные LLM, кроме как найти инфу в интернете или суммаризовать текст, — смотрите игры и читайте логи размышлений моделек.

А если вам интересно мнение профессионального обзорщика покера, то все разложил некий Doug Polk в своем ролике — он официальный партнер соревнований. Рекомендую смотреть через Яндекс браузер со включенным переводом в риалтайме, чтобы не утонуть в покерной терминологии на английском.

Заместители

Please open Telegram to view this post