Joyreactor

остоялся первый в мире турнир по вайбкодингу под названием K Prize. На начальном этапе победителем стал бразильский инженер Эдуардо Роша де Андрадо, который решил лишь 7,5% задач (9 из 120).

Турнир K Prize — это проект некоммерческой организации Laude Institute, основанный соучредителем Databricks и ИИ-стартапа Perplexity Энди Конвински. Основная его особенность заключается в том, что разработчики решают задачи из GitHub с помощью ИИ-модели (но задачи новые, чтобы системы еще не имели возможности подогнать под тест).
Мы рады, что создали действительно сложный бенчмарк», — говорит Конвински. «Бенчмарки должны быть сложными, если они имеют значение. Результаты были бы другими, если бы крупные лаборатории приняли участие со своими самыми большими моделями. Но в этом и заключается суть. K Prize работает офлайн с ограниченными вычислительными ресурсами, поэтому предпочитает меньшие и открытые модели. Мне это нравится. Это уравнивает условия игры».
Подобно более известной системе SWE-Bench, K Prize проверяет модели на реальных задачах с GitHub, чтобы узнать, насколько хорошо те справляются с реальными проблемами программирования. Впрочем, если SWE-Bench использует фиксированный набор задач, которые модели могут изучить заранее, то K Prize создан, как версия, что избегает предварительного ознакомления с тестовыми задачами. Турнир имеет четкие дедлайны — первый раунд подач модели завершился 12 марта, тогда как тесты составлялись исключительно на основе GitHub-запросов, созданных после этой даты.
Конвински обещает выплату до $1 млн за модели с открытым кодом, которые смогут решить 90% задач. Призовой фонд первого этапа составлял $50 тыс.
Результат Андрадо в 7,5% разительно контрастирует с показателями SWE-Bench, где в самом простом тесте Verified наивысший балл достигает 75%, а в самом сложном Full — 34%. Очевидно, возникают вопросы об эффективности кодирования с ИИ в реальном мире. Поэтому для Конвински этот конкурс некий ориентир:
«Если прислушаться к шумихе, создается впечатление, что нам следует обратиться к врачам или юристам с искусственным интеллектом, но это просто неправда», — говорит он. «Если мы не сможем получить более 10% результата, то для меня это проверка реальности».

Источник и комменты: https://joyreactor.cc/post/6158231

390 views23:34

Joyreactor

Источник и комменты: https://joyreactor.cc/post/6158158

359 views00:41

Joyreactor

Источник и комменты: https://joyreactor.cc/post/6158162

366 views01:19

Joyreactor

Источник и комменты: https://joyreactor.cc/post/6158136

372 views02:34

Joyreactor

Источник и комменты: https://joyreactor.cc/post/6157430