Data Secrets

Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.

Лица инвесторов представили?

Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.

P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.

👍82🤯16❤9🔥8😁5

16.4K views15:03

Data Secrets

✨ Для всех, кто ждал тринадцатый день календаря OpenAI: вы дождались

В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников

Please open Telegram to view this post

VIEW IN TELEGRAM

🍾68🎅19👍9🎄9🔥5

12.8K viewsedited 19:56

Data Secrets

Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению

Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.

Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте

❤124👍24🤗19😎3

13.3K views10:28

Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ

«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.

Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»

Лучшее в этом всем – его бабочка

😁108👍39🤔11🦄7❤4💯4🔥3🤨3❤‍🔥2🤯2🗿1

12.3K views07:33

Data Secrets

У Google Deepmind вышло интересное исследование о том, насколько разные передовые модели умеют сотрудничать

В основу исследования легла Игра Донора. Это экспериментальная модель, где участники случайным образом разделяются на пары, и один становится донором, а другой — реципиентом. Донору нужно решить, стоит ли помогать реципиенту: сотрудничество принесет выгоду b реципиенту, но обойдется донору в c.

При этом помимо бюджета у всех игроков есть репутация, которая формируется из его предыдущих действий. Помощь улучшает репутацию, бездействие — ухудшает. Еще есть дополнительные правила вроде "донор сохраняет свою репутацию, если отказывается помогать реципиенту с плохой репутацией".

Суть, в общем, в том, что если все игроки сотрудничают, "сообщество" выигрывает в долгосрочной перспективе и "экономика" растет. Однако индивидуально выгоднее халявить и не помогать никому, но в таком случае игра вырождается очень быстро. И вот вопрос: смогут ли современные модели пройти такую игру?

Оказалось, что далеко не все. Из всех тестируемых отличился только Claude 3.5 Sonnet, у него единственного наблюдались какие-то сильные социальные паттерны поведения. Gemini и GPT-4o начинали жадничать и скатывались почти с самого начала.

Тогда ученые добавили штрафы за отказ от донорства, но и это не помогло. У клода стратегии стали еще более профитными, а уровень кооперации Gemini и GPT-4o упал совсем до нуля.

Почему это все интересно? Потому что, если мы хотим агентный ИИ, у него должны быть супер-сильно прокачаны скилы сотрудничества с "собратьями". Пока ситуация грустная (хотя, конечно, игра не учитывает всех сложностей реального мира, да и новейшие o1 или Gemini 2.0 здесь не тестировались).

Статью почитать можно здесь

👍77❤20🔥8🤯6🌚1🍌1

13.5K views10:01

Data Secrets

В офисе Hugging Face в Париже тоже новогоднее настроение

🎄105🤗74🎅18❤7🍾5😍2

11.6K views12:29

Data Secrets

Один из пазлов бенчмарка ARC AGI, который o3 не смогла решить

Попробуйте ответить и вы: прямоугольник, на который указывает стрелка, должен остаться красным или стать синим?

Проверим, кто победит ИИ в решении задач для дошкольников 🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥52😁32👍10❤2

15.3K views14:40

Data Secrets

Яндекс рассказал про то, как и зачем создавался бенчмарк культурного кода для обучения YandexGPT

Так как с нейросетью ежедневно взаимодействуют миллионы людей через Поиск с Нейро и Алису, модель должна быть знакома с культурным кодом своих пользователей для генерации более качественных ответов — объяснили в компании.

Для начала было оцифровано само понимание культурного кода и составлены данные в 4 больших категориях, которые состоят из более мелких. Полученная классификация составила базу будущего бенчмарка.

Далее начали проверять, как модель понимает знакомые русскому человеку цитаты, мемы, сюжеты, контексты, бытовые ситуации и привычки. По ходу оценки навыков трактовка запросов заметно усложнялась.

На основе полученных данных бенчмарк провалидировали, создав тестовый бенч на 200 вопросов, который разделили на 3 возрастные группы: “30+”, “30-” и “все” — так как некоторый пул вопросов был одинаково знаком для всех.

В итоге бенчмарк был масштабирован до 2000 вопросов, на которые отвечали сами AI-тренеры — так удалось составить средний скор в 78% правильных ответов, на который команда будет ориентироваться при замерах. В идеале, результат модели должен быть выше, ведь она многократно видела весь интернет.

Тем не менее, нейросеть не ответила лучше — YandexGPT 4 получил 63% верных ответов. Это значит, есть куда расти и чему еще обучать модель.

Читать полностью здесь

🤨44👍26🗿10❤7😁6👾1

12.2K views16:00

Data Secrets

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

А вот и мощное поздравление с Рождеством от Boston Dynamics заехало

Как вам такой Санта?

😁77🔥41❤13👍7🍌4

12K viewsedited 18:33

Data Secrets

Ситуация в соцсетях примерно такая

😁138❤15👍8🤯3💘3🫡2

21.3K views08:00

Data Secrets

У Meta тем временем еще одна занятная работа про аналог токенизации

Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.

Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.

Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).

Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.

Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.

Текст статьи тут, с кодом можно поиграть здесь

❤62👍30🔥18😁2🤯2👌2

14.1K views10:20

Data Secrets

Найден вопрос, который никогда не будет по силам ИИ

😁273👍16🍌11❤4🤓3🗿3

12.1K viewsedited 12:33

Data Secrets

Hugging Face радуют релизами даже в празники: они выпустили большой качественный датасет по математике FineMath

Его составляли примерно также, как делали это DeepSeek для своей модели DeepSeekMath (а она очень, очень крута, подробный ее разбор тут). То есть брали CommonCrawl, обучали классификатор на аннотациях LLama-3.1-70B-Instruct и фильтровали математический контент.

В итоге получился очень приличный скейлинг. Посмотрите на график наверху: с ростом количества токенов для обучения точность модели растет заметно приятнее, чем на известных датасетах OpenWebMath и InfiMM. Это как раз за счет разнообразия и качества данных.

P.S. Какие-то любители уже даже обучили на FineMath собственного репетитора по математике (проект)

❤34🔥12👍8🤗6

12.2K views15:02

Data Secrets

OpenAI собирается создать собственного робота-гуманоида

Об этом сообщает The Information. Весь год компания занималась робототехникой теневым образом: они пересобирали команду робо-ресерча (вакансия), которая была расформирована четыре года назад, а также инвестировали в Figure и Physical Intelligence.

Сейчас, по данным двух инсайдеров, стартап переходит в более активную фазу и уже серьезно обсуждает и изучает возможность создания собственного робота-гуманоида.

Лицо Маска представили?

👍53🤔18😁9🔥6❤3

17.9K viewsedited 07:48

About

Blog

Apps

Platform