Data Secrets
76.4K subscribers
5.81K photos
557 videos
20 files
2.28K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC

Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).

Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.

До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.

Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.

Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.

Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.

Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.
50🔥25👍16🤯15
Уйти за хлебом
Уйти за GPU
🔥93😁4813🌚119👍3
Зачем нам новые бенчмарки?

Последнее время появляется все больше свежих бенчмарков. Только за последний месяц: от китайцев, от OpenAI, от Meta, и самый свежий – громкий FrontierMath от EpochAI.

Зачем исследователи уделяют эвалу моделей столько внимания? Все потому что без хороших бенчмарков мы остается в неведении относительно того, на что на самом деле способны наши модели, в значит, и развиваем их «на ощупь».

Конечно, существует множество классических тестов, но бенчмарки имеют свойство устаревать. Со временем закрадываются лики, да и сами задачи становятся уже не репрезентативными. Например, про новый бенч FrontierMath один ресерчер сказал так: «Отличный и невероятно сложный бенчмарк! Надеюсь, он продержится хотя бы пару лет». Вот это – правильный подход, а не оценивать модели на тестах, которым 7-8 лет.

Есть и еще одна причина: старые бенчмарки построены для слабых моделей, и для сегодняшних целей «создать AGI» не подходят даже структурно. Это сегодня в твиттере удачно прокомментировал Андрей Карпаты:

«Интересная проблема заключается в том, что, хотя по многим оценкам LLM постепенно продвигаются на топ-экспертную территорию (например, в математике и кодинге и т. д.), вы бы не наняли их вместо человека даже для самой простой работы.

Это замаскированный парадокс Моравека, который заметил более 30 лет назад, что то, что легко/сложно для людей, может неинтуитивно сильно отличаться от того, что легко/сложно для компьютеров. Например, люди очень впечатлены игрой компьютеров в шахматы, но шахматы легки для компьютеров, поскольку это закрытая, детерминированная система с дискретным пространством действий, полной наблюдаемостью и т. д. и т. п. И наоборот, люди могут завязать шнурки или сложить рубашку и вообще не думать об этом, но это чрезвычайно сложная сенсомоторная задача, которая бросает вызов даже современному уровню техники и софта.

Я думаю, что это интересная задача: создавать оценки для всех "легких" вещей, которые на самом деле сложные. Очень длинные контекстные окна, связность, автономность, здравый смысл, работающий мультимодальный ввод-вывод – это хорошо. Но как нам создать хорошие оценки для настоящей "человеческой работы"?»


Кстати, если вы все-таки знаете, какими должны быть вопросы в хорошем бенчмарке, то можете предложить свой: у лабораторий CAIS и ScaleAI все еще идет конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают от 500 до 5000 долларов, а также соавторство в статье.
👍3610🔥10🤯31
RL-разработчик из Sony AI, который занимается обучением с подкреплением в гейме, создал сайт с ликбезными статьями по RL

Сайт замечательно называется Decisions & Dragons, и построен по принципу «вопрос-ответ». Это своеобразный FAQ по неочевидным вопросам в обучении с подкреплением, только ответы там очень развернутые: с формулами, схемами и иногда даже псевдокодом. Вот какие статьи там уже можно найти:

➡️ Чем отличается on-policy от off-policy learning?
➡️ Что такое горизонт?
➡️ В чем различие между model-based и model-free RL?

Сайт создан только вчера, и на данный момент там всего восемь статей, но автор обещает, что будет постоянно пополнять список. Так что если вы – новичок в RL, то обязательно сохраняйте в закладки.
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥15❤‍🔥10👍42
⚡️ Alpha Fold 3 уже в опенсорс!

Это та самая модель для предсказания структуры молекул, за которую ученым из Google дали Нобелевскую.

Код можно найти здесь, веса доступны по заявке
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74🤯1816👍7🤔1👌11
Илон Маск тем временем уже имеет реальные шансы стать лидером ИИ-политики США

Оказалось, что некая некоммерческая группа Americans for Responsible Innovation (ARI) в пятницу (то есть уже через три дня после выборов) запустила петицию с просьбой назначить Маска главным советником Трампа по ИИ. Выдержка:

«Илон Маск имеет хорошие возможности для защиты лидерства США в этой технологии, обеспечивая при этом ее безопасное внедрение».


Сейчас организация пытается собрать 10000 подписей 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
134🗿2211💯6🤨4👍3🤔1
Илья Суцкевер прокомментировал замедление скейлинга моделей

Недавняя статья The Information, о которой мы писали здесь, наделала в сообществе много шума. Суть материала в том, что модели OpenAI больше не масштабируются с ростом количества обучающих данных так, как это работало раньше. Возможно, это связано с тем, что из-за недостатка данных в датасеты добавляют много синтетики от других моделей; возможно, с чем-то еще. Известно, что в OpenAI даже создали новую команду, которая будет работать над решением проблемы.

Ну а пока суть да дело, ситуацию активно обсуждают в том числе крупные исследователи. Даже Илья Суцкевер подключился. Вот какой комментарий он дал Reuters (свободный перевод):

«2010-е годы были эпохой масштабирования, а теперь мы снова вернулись в эпоху открытий. Все ищут что-то новое. Масштабировать правильно правильные вещи сейчас важнее, чем когда-либо».


Размыто, конечно, но, видимо, имеется в виду, что скейлинг в претрейне (то есть тот самый скейлинг на обучающих данных) сейчас действительно выжат на максимум, и нам стоит сконцентрироваться на чем-то другом.

OpenAI, вероятно, те самые "правильные вещи" видят в ризонинге в стиле o1 и в чем-то вроде test-time training, статью о котором мы разбирали буквально вчера. Хотя сама компания комментариев не дает, об этом напрямую заявил GTM OpenAI в твиттере. Он написал, что "Масштабирование просто нашло другой набор шестеренок в виде inference time обучения".
👌3410🕊5👍2
Конкуренция на рынке труда крепчает: на YouTube обнаружили канал семилетнего мальчика Сережи, который записывает обучающие видео по машинному обучению

Судя по каналу, опыт работы Сережи – уже два года. Тут и нейросети на PyTorch, и модели классификации, а бонусом еще и геймдев 😜

Твой будущий лид
Please open Telegram to view this post
VIEW IN TELEGRAM
😁19544👍1710🔥8🫡6🗿6🤪1
Вышел Qwen2.5-Coder

Там целое семейство: 0.5B / 1.5B / 3B / 7B / 14B / 32В, базовые и инстракт модели. Радует, что есть малышки и можно запустить локально. Все веса уже в опенсорс вот тут 🤗

По бечмаркам: среди представленных в тех.отчете 32В на всем превосходит открытых соперников (главный из которых – DeepSeek-Coder-2), а также на многих тестах обгоняет GPT-4o, включая, между прочим, HumanEval и EvalPlus. По CodeArena, правда, немного не дотянули: не хватило двух десятых процента.

Отчет | Демо | Гитхаб | Блог
31🔥18👍11🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышло пятичасовое интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом. Пройдемся по самому яркому:

➡️ На вопрос об AGI Дарио ответил, что если просто экстраполировать графики (а это ненаучно), то можно предсказать, что AGI появится в 2026 или 2027. Но точно сказать нельзя, потому что никто не знает, смогут ли модели масштабироваться дальше.

➡️ Тем не менее, Дарио настроен оптимистично и верит в то, что скоро у нас будет ИИ уровня человека. При этом ближайшие несколько лет все больше и больше денег будет тратиться на разработку и обучение: к 2027 люди, вероятно, будут строить кластеры стоимостью $100 млрд, тогда как сейчас самые крупные суперкомпьютеры стоят $1 млрд.

➡️ Амодеи говорит, что масштабирование моделей продолжится, и что в этом есть некая магия, которую мы пока не можем объяснить на теоретической основе. Возможно, масштабирование будет не таким, как мы привыкли, но «оно найдет путь».

➡️ Человеческий интеллект – это не предел. Мы можем сделать модели гораздо умнее нас, особенно в определенных областях, таких как биология.

➡️ Сейчас модели продолжают улучшаться невероятно быстро, особенно в кодинге, физике и математике. На SWE-bench в начале года LLM достигали 2-3%, а сейчас это около 50%. То, о чем действительно стоит переживать в этих условиях – это монополия на ИИ и сосредоточение власти над ИИ в руках всего нескольких крупных игроков. Это может быть опасно.

Само интервью можно посмотреть здесь, а вот тут лежит полная текстовая расшифровка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍2273🎉2
В твиттере описали среднестатистического кандидата на должность MLE
😁173🔥15👍115🤯3👀3
На LMSYS появилась Copilot Arena

Месяц назад ребята запустили Copilot Arena в виде плагина в VSCode. Это полноценный ассистент для программирования, который может дополнить код, проверить его или даже выполнить указанные действия с выделенной строкой. Его фишка – он предоставляет пару ответов от разных ведущих моделей, задача пользователя – выбрать ответ, который ему больше понравился. Если еще не пользовались – скачать бесплатно можно здесь.

Месяц аналитики собирали статистику. За это время плагин загрузили 2.5К раз. И вот сегодня на LMSYS наконец появились результаты! Они забавные: на первом месте, например, открытая модель, Llama 3.1 лучше GPT-4o, а GPT-4o mini внезапно оказалась хуже всех.

Кстати, оказалось, что в основном плагином пользовались питонисты. На следующем месте – java script и html. Интересно, что медианная длина контекстного окна рассматривается 560 (это много, в human eval например всего 100).

Кажется, такой тест, как бы автоматически взвешенный по используемости ЯП + с сохранением естественной пользовательской длины контекста, должен быть явно репрезентативнее бенчмарков. А это не может не радовать

Блогпост от Lmsys
👍55🔥117🍌3
Data Secrets
⚡️ Еще трое соучредителей, среди которых Грег Брокман, покинули OpenAI Правда, Грег не совсем ушел: он взял длительный отпуск до конца года. В твиттере он написал, что это его первый отпуск за 9 лет в OpenAI. Однако, его мотивы все еще неизвестны. Кроме…
⚫️ Грег Брокман вернулся в OpenAI

В августе Грег написал, что берет длительный отпуск, впервые за 9 лет работы. Тогда многие подумали, что это отговорка, и так соучредитель сгладил свой уход (одновременно с ним из компании увольнялся его друг и коллега Джон Шульман).

Но нет! Сегодня Грег написал в Твиттере, что возвращается. Кажется, настрой у него оптимистичный.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66👍16😁53🤯1
Кто-то приходит, значит кто-то уходит – в OpenAI все стабильно

The Information, видимо, нашли бодрого информатора из OpenAI. Они выпускают уже третью статью про стартап за неделю. На этот раз пишут о том, что Мира Мурати начала успешно хантить исследователей в свою компанию. Точно известно, что к ней, как минимум, ушла разработчица из команды safety, которая отвечала за пост трейнинг, – Миана Чен. Еще говорят, что Мира заполучила Баррета Зофа и Люка Метца. Это тоже бывшие ключевые сотрудники отдела alignment’a.

Кроме того, инсайдер сообщает, что OpenAI собирается выпустить полную версию o1 до конца года. Возможно даже на ближайшем devday в конце ноября.
33🔥10👍5
Нашли на архиве забавный препринт, в котором исследователи с помощью LLM-симуляции предсказали победу Трампа

Сразу скажем: дата сабмита – 3 ноября, за три дня до объявления результатов. А вообще, исследование касалось не только выборов: ученые выясняли, способны ли LLM в целом моделировать поведение общественности и, главное, людей с определенными социальными качествами.

В начале проверяли, может ли LLM правдоподобно предсказывать мнение людей в вопросах этического характера исходя из их национальности, пола, возраста и прочего. Для этого использовали WVS, то есть данные Всемирного исследования ценностей. Оказалось, что смоделированная выборка достаточно точно отражает различия и показывает общие тренды, и исследователи пошли дальше.

Они заставили агентов голосовать на выборах 2016, 2020 и 2024 года. Но при этом LLM думали не "за себя", а опять же за людей с определенными характеристиками, роль которых как бы играла модель. А чтобы выборка получилась репрезентативная, данные о респондентах брали из ANES (Американских национальных избирательных исследований).

В итоге LLM-респонденты предсказали победу Трампа с результатом 300/538. Реальные результаты, тем временем, 312/538. На картинках сверху сперва симуляция, потом реальные результаты по штатам. Посмотрите, как похоже 😲

P.S. Возможно, в ближайшем будущем люди действительно будут использовать LLM в качестве моделирования настоящих социальных исследований? Подвижки в эту сторону уже были (пост про подобное исследование #1, и #2). А вы как считаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
99👍25🔥20🤯10🤔52❤‍🔥1😐1