Куратор из ЛСБ

Дудь сделал крутую журналистскую работу. Корректно задал Волкову все самые неудобные вопросы, дал много говорить и подсветил тонну противоречий в его словах. «Раздел», если грубо

Суть интервью отлично суммировал этот комментатор (про «Путин виноват в крахе доверия к ФБК» — не шутка)

11😁6

272 views13:11

Куратор из ЛСБ

да что вы знаете о продающих текстах

😁33

277 views15:36

Куратор из ЛСБ

is this recursion?

274 viewsedited 20:42

Интересно, как скоро боевые версии таких роботов поступят на вооружение

301 views04:31

Куратор из ЛСБ

Заголовок и лид: В РОССИИ МАССОВО ЗАКРЫВАЮТСЯ САЛОНЫ

Текст статьи: закрылось 450, открылось 964

Ж — журналистика

❤8😁1😱1

335 views15:13

Куратор из ЛСБ

Forwarded from эйай ньюз

Последний экзамен человечества

Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.

На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.

Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.

Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.

Пейпер
Бенчмарк
Сайт проекта

@ai_newz

❤2

298 views15:57

About

Blog

Apps

Platform