Дудь сделал крутую журналистскую работу. Корректно задал Волкову все самые неудобные вопросы, дал много говорить и подсветил тонну противоречий в его словах. «Раздел», если грубо
Суть интервью отлично суммировал этот комментатор (про «Путин виноват в крахе доверия к ФБК» — не шутка)
Суть интервью отлично суммировал этот комментатор (про «Путин виноват в крахе доверия к ФБК» — не шутка)
Media is too big
VIEW IN TELEGRAM
Интересно, как скоро боевые версии таких роботов поступят на вооружение
Forwarded from эйай ньюз
Последний экзамен человечества
Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.
На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.
Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.
Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.
Пейпер
Бенчмарк
Сайт проекта
@ai_newz
Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.
На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.
Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.
Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.
Пейпер
Бенчмарк
Сайт проекта
@ai_newz
❤2
Forwarded from Киря
Свобода слова и бан
Люди часто возмущаются, когда их банят. Мол, как же так, как же свобода слова? Ты же сам за свободу слова, а другим рты затыкаешь? Почему ты не исповедуешь то, что проповедуешь, лицемер?
Я разделяю и понимаю чувство обиды. Реально неприятно, когда тебя банят. Мне вот часто после бана хочется иметь кнопочку «отправить одно последнее сообщение», чтобы объяснить человеку, в чём он неправ и какой он мудак (пожалуй, и хорошо, что такой кнопочки нет)
Но я не считаю бан нарушением моей свободы слова. Даже когда меня банят не по делу. Потому что свобода слова — это право высказываться на своей площадке. Но нет никакого права высказываться на чужой площадке. Никто не обязан предоставлять свою площадку для высказывания другим. Мне тоже. Если я кому-то не нравлюсь, и он меня банит, это неприятно, но окей, потому что это — проявление его свободы не слушать других. А у меня всегда остаётся вариант создать свой чатик или написать в свой блог
Я за такую свободу, когда все могут высказываться как хотят и не быть за это наказаны штрафом или тюрьмой. За такую свободу, когда за слова не получают по лицу или по почкам. Но при этом я за то, чтобы все могли сами решать, кого пускать на свою территорию, а кого нет. Кого приглашать в свой дом, чат или блог, а кого оставить за порогом. Какие комментарии допускать, а какие удалять и блокировать авторов
Не нужно путать право высказываться на своей площадке и право высказываться на чужой. Свобода слова — это право высказываться на своей. Ни другие люди, ни государство, не должны наказывать за слова, но и предоставлять площадку никто никому не должен
Люди часто возмущаются, когда их банят. Мол, как же так, как же свобода слова? Ты же сам за свободу слова, а другим рты затыкаешь? Почему ты не исповедуешь то, что проповедуешь, лицемер?
Я разделяю и понимаю чувство обиды. Реально неприятно, когда тебя банят. Мне вот часто после бана хочется иметь кнопочку «отправить одно последнее сообщение», чтобы объяснить человеку, в чём он неправ и какой он мудак (пожалуй, и хорошо, что такой кнопочки нет)
Но я не считаю бан нарушением моей свободы слова. Даже когда меня банят не по делу. Потому что свобода слова — это право высказываться на своей площадке. Но нет никакого права высказываться на чужой площадке. Никто не обязан предоставлять свою площадку для высказывания другим. Мне тоже. Если я кому-то не нравлюсь, и он меня банит, это неприятно, но окей, потому что это — проявление его свободы не слушать других. А у меня всегда остаётся вариант создать свой чатик или написать в свой блог
Я за такую свободу, когда все могут высказываться как хотят и не быть за это наказаны штрафом или тюрьмой. За такую свободу, когда за слова не получают по лицу или по почкам. Но при этом я за то, чтобы все могли сами решать, кого пускать на свою территорию, а кого нет. Кого приглашать в свой дом, чат или блог, а кого оставить за порогом. Какие комментарии допускать, а какие удалять и блокировать авторов
Не нужно путать право высказываться на своей площадке и право высказываться на чужой. Свобода слова — это право высказываться на своей. Ни другие люди, ни государство, не должны наказывать за слова, но и предоставлять площадку никто никому не должен
❤4
Forwarded from Дизайн-снайпер
This media is not supported in your browser
VIEW IN TELEGRAM
Минутка технологий:
Как говорится — смотреть до конца.
Как говорится — смотреть до конца.
🔥8
Forwarded from Дизайн-снайпер
Минутка места:
Камень Аль Наслаа — выглядит как незавершенная работа. В глубине оазиса Тайма в провинции Табук в Саудовской Аравии находится скальное образование возрастом 4 000 лет с необычной особенностью: Она расколота посередине прямым разрезом с точностью лазерного луча, но большинство экспертов это считают объектом природного происхождения. Такое дизайнерское природное образование, не заслуживающее столь присального внимания со стороны современной науки, а большую ценность представляют нанесённые на камне петроглифы.
Если бы такой артефакт находился у нас, мы бы точно прогнозировали какое название ему дали бы местные жители. Но не будем.
Камень Аль Наслаа — выглядит как незавершенная работа. В глубине оазиса Тайма в провинции Табук в Саудовской Аравии находится скальное образование возрастом 4 000 лет с необычной особенностью: Она расколота посередине прямым разрезом с точностью лазерного луча, но большинство экспертов это считают объектом природного происхождения. Такое дизайнерское природное образование, не заслуживающее столь присального внимания со стороны современной науки, а большую ценность представляют нанесённые на камне петроглифы.
Если бы такой артефакт находился у нас, мы бы точно прогнозировали какое название ему дали бы местные жители. Но не будем.
🔥2
Forwarded from Унежить душу
Хороший проект, делающий бетонные миниатюры культовых зданий СССР (а также подсвечники и кашпо).
Здание РАН, конечно, прекрасно вышло. Верхушка из литья.
Проект называется Конкретика (konkretika store)
#предметныйдизайн
Здание РАН, конечно, прекрасно вышло. Верхушка из литья.
Проект называется Конкретика (konkretika store)
#предметныйдизайн
❤2