Результаты тестирования восьми передовых языковых моделей, включая GPT-4.1 и o3 от OpenAI, серию Gemma от Google и DeepSeek-R1, выявили четкую закономерность: с простыми грамматиками и короткими строками модели справляются хорошо, но при увеличении сложности грамматики или длины строки точность резко снижается - даже у моделей, специально оптимизированных для логических рассуждений