Куратор из ЛСБ
452 subscribers
1.07K photos
159 videos
9 files
346 links
Анонимный канал главреда и куратора из Лиссабона, в котором тот делится с читателями вещами, что его удивили, рассмешили или заставили задуматься
Download Telegram
Forwarded from Adobe After Effects
REPOST ↓ нетипичная красота

Уральский Златоуст: город, где лес заменяет небо
🔥9
Nutpicking
Cynical Genius Illision
Ferguson Effect
Shiny Object Syndrome
Как создавать виральные продукты, советы Nikita Bier
Защита замка по методу Эшера
52🔥2
Разница между бедным и богатым мышлением
5
Дудь сделал крутую журналистскую работу. Корректно задал Волкову все самые неудобные вопросы, дал много говорить и подсветил тонну противоречий в его словах. «Раздел», если грубо

Суть интервью отлично суммировал этот комментатор (про «Путин виноват в крахе доверия к ФБК» — не шутка)
11😁6
да что вы знаете о продающих текстах
😁33
is this recursion?
4
Media is too big
VIEW IN TELEGRAM
Интересно, как скоро боевые версии таких роботов поступят на вооружение
Заголовок и лид: В РОССИИ МАССОВО ЗАКРЫВАЮТСЯ САЛОНЫ

Текст статьи: закрылось 450, открылось 964

Ж — журналистика
8😁1😱1
Forwarded from эйай ньюз
Последний экзамен человечества

Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.

На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.

Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.

Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.

Пейпер
Бенчмарк
Сайт проекта

@ai_newz
2