Joyreactor
911 subscribers
38.3K photos
35.8K links
Вся реклама от бота перепоста и мной не контролируется, разве что подписку у них купить, чего я делать не буду

Ни черта не сфв
Download Telegram
Источник и комменты: https://joyreactor.cc/post/6156087
Источник и комменты: https://joyreactor.cc/post/6156543
Источник и комменты: https://joyreactor.cc/post/6156629
Источник и комменты: https://joyreactor.cc/post/6155841
Источник и комменты: https://joyreactor.cc/post/6156296
Рокк ебол

Источник и комменты: https://joyreactor.cc/post/6157044
Источник и комменты: https://joyreactor.cc/post/6157011
Источник и комменты: https://joyreactor.cc/post/6158204
Источник и комменты: https://joyreactor.cc/post/6158249
Источник и комменты: https://joyreactor.cc/post/6158264
Источник и комменты: https://joyreactor.cc/post/6158266
Источник и комменты: https://joyreactor.cc/post/6158201
Источник и комменты: https://joyreactor.cc/post/6158047
остоялся первый в мире турнир по вайбкодингу под названием K Prize. На начальном этапе победителем стал бразильский инженер Эдуардо Роша де Андрадо, который решил лишь 7,5% задач (9 из 120).

Турнир K Prize — это проект некоммерческой организации Laude Institute, основанный соучредителем Databricks и ИИ-стартапа Perplexity Энди Конвински. Основная его особенность заключается в том, что разработчики решают задачи из GitHub с помощью ИИ-модели (но задачи новые, чтобы системы еще не имели возможности подогнать под тест).
Мы рады, что создали действительно сложный бенчмарк», — говорит Конвински. «Бенчмарки должны быть сложными, если они имеют значение. Результаты были бы другими, если бы крупные лаборатории приняли участие со своими самыми большими моделями. Но в этом и заключается суть. K Prize работает офлайн с ограниченными вычислительными ресурсами, поэтому предпочитает меньшие и открытые модели. Мне это нравится. Это уравнивает условия игры».
Подобно более известной системе SWE-Bench, K Prize проверяет модели на реальных задачах с GitHub, чтобы узнать, насколько хорошо те справляются с реальными проблемами программирования. Впрочем, если SWE-Bench использует фиксированный набор задач, которые модели могут изучить заранее, то K Prize создан, как версия, что избегает предварительного ознакомления с тестовыми задачами. Турнир имеет четкие дедлайны — первый раунд подач модели завершился 12 марта, тогда как тесты составлялись исключительно на основе GitHub-запросов, созданных после этой даты.
Конвински обещает выплату до $1 млн за модели с открытым кодом, которые смогут решить 90% задач. Призовой фонд первого этапа составлял $50 тыс.
Результат Андрадо в 7,5% разительно контрастирует с показателями SWE-Bench, где в самом простом тесте Verified наивысший балл достигает 75%, а в самом сложном Full — 34%. Очевидно, возникают вопросы об эффективности кодирования с ИИ в реальном мире. Поэтому для Конвински этот конкурс некий ориентир:
«Если прислушаться к шумихе, создается впечатление, что нам следует обратиться к врачам или юристам с искусственным интеллектом, но это просто неправда», — говорит он. «Если мы не сможем получить более 10% результата, то для меня это проверка реальности».

Источник и комменты: https://joyreactor.cc/post/6158231
Источник и комменты: https://joyreactor.cc/post/6158158
Источник и комменты: https://joyreactor.cc/post/6158162
Источник и комменты: https://joyreactor.cc/post/6158136
Источник и комменты: https://joyreactor.cc/post/6157430
Источник и комменты: https://joyreactor.cc/post/6158169
Источник и комменты: https://joyreactor.cc/post/6157918