Сиолошная
46.1K subscribers
831 photos
154 videos
1 file
1.01K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Download Telegram
Jimmy Apples, надёжный источник касательно слухов про OpenAI, написал про другую компанию. Не знаю, насколько надёжный инсай(т)д, но ситуация крайне занимательная.

«МЕТА планирует не предоставлять доступ к весам LLAMA 3 400B [прим.: крупнейшая версия модели, которая ещё не была опубликована. В 5.5 раз больше 70B версии, доступной нам].

Они надеятся на то, что мы не заметим/пропустим это.

Не позволяйте этому ускользнуть от вас»

Это вызвало очень говорящую реакцию в сообществе (читать тут). Люди понимают, что без этого релиза им до GPT-4-Turbo/Opus/и тем более следующих поколений моделей — как до Луны. Весь опенсурс ближайшего будущего (и большое количество экспериментов независимых лабораторий) буквально крутятся вокруг того, будет ли META дальше выкладывать модели, обучение которых стоит десятки-сотни миллионов долларов [есть другие лаборатории и компании, которые выкладывают, но у этих пока самые масштабные релизы].

Не поймите неправильно, людям будет чем заняться, но они по сути навсегда застрянут на одном и том же уровне навыков моделей. Будет борьба за то, кто улучшит модель на 3-5% (в отдельных задачах на 20%!) и ускорит на 15%. Люди будут пытаться впихнуть существующие модели тут и там, как-то оптимизировать, то сё. Но этот момент как бы застынет в истории, пока ведущие игроки будут скакать вперёд. Разрыв будет стремительно нарастать.

Zuck на подкасте ведь говорил прямо: мы будем публиковать модели пока 1) это помогает нам 2) их навыки ниже определённых порогов. А я писал, что с развитием моделей уже в ближайшем будущем помощь сообщества будет минимальна, и ценности для компании публикация очень-очень дорогих моделей не несёт. Запуск топ-тир моделей очень дорог, расходы на команду и поддержку тоже не маленькие, а их обучение и улучшение так вообще — потому такие 400B модели это игрушки для очень малого количества юзеров. Без 8 видеокарточек (или 12? 16? сколько надо) по $20k каждая даже не запустить.

А может быть это неправда, и модель выпустят. А может не выпустят следующую. А может что-то ещё. Поживём — увидим, но в концепцию опенсурса как помощника развития технической стороны AGI я не верю. Вся история показывает, что улучшение происходит с масштабированием, и даже если модели 2024-го уже имеют неадекватные размеры и ценник, то что и куда дальше?

Цель META может быть какой угодно, но корпорация точно не будет опенсурсить модели и системы вплоть до AGI, хоть их VP и говорит иначе.
Наверняка вам попадались выдержки из недавнего интервью Джона Шульмана (кофаундера OpenAI) на Dwarkesh Podcast. Вернее даже одна конкретная выдержка, где Джон говорит, что его работу искусственный интеллект заменит через 5 лет

Я решила целиком посмотреть интервью, так как Джон достаточно интересный чел: он первый автор в статье про PPO, лидит команду, которая файнтюнит модели в OAI, а после недавних событий еще и видимо alignment на нем. Так что вот список каких-то интересных его тейков:
- Его главный фокус сейчас на том, чтобы научить модели выполнять длинные и сложные задачи, а не решать мелкие таски за один шаг. Например, хочется чтобы модель не просто подсказала тебе код для конкретной функции, а могла по промпту сделать целый репозиторий. С тем, чтобы обучать модели на таких “длинных” задачах много проблем, но одновременно с этим Джон считает это low-hanging fruit. Решать это он предлагает с помощью RL, видимо как-то адаптировав и улучшив текущие методы тренировки
- Fun fact №1: у gpt-3.5 изначально планировался web browsing, но потом оказалось, что своих знаний у модели достаточно для QA, и особого смысла в этом не оказалось
- Fun fact №2: изначально gpt-3.5 вообще не различала, что она может или не может делать (например, она могла сказать, что успешно отправила кому-то письмо или заказала что-то в магазине). Чтобы это пофиксить оказалось достаточно около 30 примеров в датасете для файнтюна!
- Для обучения ChatGPT данные делились на инструкции и чат. При чем, прототипы модели, которые обучались на чат-данных, оказывались более просты в использовании (лучше понимали, что от них хочет пользователь), выдавали более осмысленные ответы и лучше отдавали себе отчет, что они могут и что не могут выполнить. Объяснение этому Джон видит в том, что в формате инструкций задача “complete this text, but in a nice or helpful way” довольно мутная и непонятная, как для разметчиков, которые готовят данные, так потом и для модели. А качественные чат-данные людям было проще собирать и размечать, так как было понятнее, как именно модель должна ответить. Видимо за счет этого был скачок InstructGPT -> ChatGPT
- Интересная интуиция откуда у больших моделей emergent capabilities: можно представить, что когда у нас столько параметров, модель в латентном пространстве развивает много линий размышления параллельно, и повышается шанс, что какая-то из них будет верной (примерно как происходит в MoE)
- Также довольно необычный комментарий касательно Model Spec (это недавний вайтпейпер о том, какое поведение OAI считает желательным и нежелательным) – Джон сказал, что модели должны быть продолжением воли человека и делать, что от них просят, и что OAI не хочет тут занимать патерналистскую позицию и насаждать свои моральные представления. Снова заставляет задуматься о каком-то проигрыше фракции сейфитистов, так как я не могу представить такой ответ от OAI еще пару лет назад….
- Интересное было объяснение тому, почему модель часто выплевывает очень водянистую и обширную статью в ответ на какой-то вопрос: она тренировалась на одном ответе за раз (а не на всей истории диалога), поэтому она пытается уместить всю информацию в одно сообщение, а не ждет от вас каких-то уточняющих вопросов
- Наконец про следующие шаги в разработке моделей Джон отметил проактивность: в идеале пользователь не будет обращаться к модели как к поисковику с какими-то изолированными запросами. Модель скорее должна быть как helpful colleague, который сам тебе может предложить какие-то решения, напомнить о чем-то, и так далее
Пока я читаю статьи о скандале с отбором акций (PPU) у бывших сотрудников OpenAI, The Washington Post связались с несколькими источниками и пытались прояснить ситуацию с похожестью голоса Sky на Scarlet Johansson. И вы не поверите... OpenAI не виноваты. Те, кто хочет поверить, может прочитать статью в журнале или же мою выжимку ниже:

— они валидировали, что это реально другая актриса, и что её голос идентичен голосу в ChatGPT («The actress’s natural voice sounds identical...»). Не похож, а идентичен!
— согласно опросу множества людей, которые были вовлечены в процесс прослушивания и найма, OpenAI ни разу не просили копировать голос Scarlett, и это ни разу не было отражено в документах
— также агент и актриса утверждают, что «neither Johansson nor the movie “Her” were ever mentioned by OpenA». Куда уж прямее я не знаю, но люди в шапочках из фольги видимо будут думать, что их подкупили, и платят за молчание.
— документы неназванной актрисы, с которыми ознакомились The Washington Post, подтверждают, что её наняли за несколько месяцев до появления голоса (и, как следствие, того, что Sama связался с Johansson)
— Joanne Jang, продукт менеджер из OpenAI, утверждает, что за проект отвечала Mira Murati, CTO OpenAI, и она же принимала решения. Это не написано явно, но я предположу, что это означает, что Sama не слышал голоса и не говорил сотрудникам «Ну вот этот берите, этот нет». В интервью неделю назад Altman говорил, что увидел демку за неделю до презентации.
— Зато указано, что Altman не принимал непосредственного участия в кастинге, так как в то время был занят мировым турне

То есть ни одна частичка информации, которую смогли раздобыть журналисты, и ни один человек в процессе общения, в том числе не работающие в OpenAI напрямую, не обвиняет OpenAI в нарушениях/плохой морали/etc.

И ещё:
— В заявлении актрисы Sky, предоставленном её агентом, она написала, что временами негативная реакция «чувствуется личной, поскольку это просто мой естественный голос, и люди, которые меня близко знают, никогда не сравнивали меня с ней [со Scarlett]»
Forwarded from Denis Sexy IT 🤖
Еще интересный слайд к размышлению:

В мире примерно 27 миллионов разработчиков – в OpenAI зарегистрировано 3 миллиона, то есть пока примерно ~10% разработчиков в каком-то виде использует LLM, мне кажется масс адаптация еще не случилась, и только-только начинается.

Преза целиком (видео про Sora выше – оттуда же)
This media is not supported in your browser
VIEW IN TELEGRAM
SpaceX объявили, что следующая попытка запуска Starship состоится 5-го июня в 15:00 мск.

Четвертое летное испытание переключает внимание компании с выхода на орбиту (что уже было достигнуто) к демонстрации возможности возвращения и повторного использования Starship (корабль, верхняя ступень) и Super Heavy (ускоритель, нижняя ступень). Основными задачами будут выполнение приземления и мягкое приводнение сверхтяжелой ракеты-носителя в Мексиканском заливе, а также контролируемый вход корабля в атмосферу.

В прошлый раз корабль не пережил этот этап и сгорел на высоте ~45 километров. Причина — частичная потеря контроля над двигателями ориентации и незапланированный крен. Корабль начал падать боком, а не тепловым щитом вниз. Наиболее вероятная причина — засорение клапанов. С тех пор SpaceX добавила дополнительные дублирующие двигатели на все будущие корабли Starship.

Среди других изменений — теперь после разделения будет сбрасываться кольцо, соединяющее две ступени. Это сделано для облегчения ускорителя и упрощения посадки.

SpaceX пишут, что лицензия на следующий полёт может быть выдана без официального закрытия расследования по поводу прошлого пуска, так как не было никаких негативных последствий для общественной безопасности.

Ну и вишенка на торте — в программу посадки включен переворот корабля и включение двигателей, так что если корабль переживёт вход в атмосферу — то нас ждёт очень крутой финал! Правда, не ясно, получится ли получить запись посадки, так как это всё же центр Индийского океана. Будем надеяться, что Starlink сможет подключиться к сети и передаст кадры.
Подглядел у @j_links ссылку на невероятную историю (твиттер тред тут)

Исследователи обучали агента играть в игру NetHack. Это очень старая ролевая игра из времён (1987 г.), когда нормальных пользовательских интерфейсов не было, и всё происходило в консоли. Игрок проходит уровни, собирает вещи и награды, участвует в сражениях и набирает очки — и всё выражается самыми простыми символами.

Агент научился стабильно набирать примерно 5000 очков. Но однажды после запуска он достиг лишь ~3000, то есть показал результат существенно хуже. Отладка решений всегда дело весёлое, поэтому автор треда попробовал:
— найти проблему в коде загрузки модели агента
— откатить код на пару дней назад
— откатить код на несколько недель назад (ну там то ТОЧНО всё работает?)
— пересобрать окружение
— поменять версию CUDA (драйверов для запуска нейросетей на видеокарте)
— запустить код на персональном ноутбуке, а не сервере

...и ничего не помогало: агент предательски, но стабильно играл на 3000 очков.

После этого автор треда написал автору модели, тот ответил:
— А, да, вероятно, сегодня полнолуние 🌗

Что?? 😑

И да, в тот день и вправду было полнолуние. Чувак запустил игру, и увидел ... надпись «Ты — везунчик! Сегодня полнолуние»

Оказывается, в NetHack есть
механика, которая немного меняет процесс игры каждый раз, когда наступает полнолуние (проверка происходит по времени вашей системы). В этот день у героя увеличивается удача, и меняется ещё пара вещей. Это не делает игру сложнее, но модель просто не понимает, как изменились правила, и старается играть так, как привыкла — отсюда и просадка в очках. Для проверки можно сменить время на компьютере — и агент снова набирает 5000 очков.

вот так и сиди отлаживай программу
Please open Telegram to view this post
VIEW IN TELEGRAM
Немного запоздалая новость, лежавшая с неделю в закладках. LMSYS добавляет 2 среза для сравнения моделей на Chatbot Arena (что это такое — писал тут).

Первый очень простой, и скоро станет рейтингом по умолчанию. В нём отфильтровали порядка 10% голосов, убрав примерно 1000 самых повторяющихся вопросов (те, что встречаются больше 25 раз). В основном там были запросы типа «привет» и вариации на разных языках. Так как всего 1000 запросов брали на себя 10% голосов (порядка 100000), то это вызывало перекос в их сторону — а сообщения-то были не сказать что самыми полезными для оценки LLM.

Второй — куда более интересный. Помните я писал про Arena Hard? Авторы тогда подготовили пайплайн для выделения самых сложных, комплексных и интересных запросов для того, чтобы сравнивать модели на вопросах не по типу «2+2=?». Для того, чтобы это сделать, было выделено 7 аспектов (например, важна ли точность ответа, должна ли модель решить какую-то конкретную проблему, нужна ли креативность, итд). Один промпт может относиться хоть ко всем категориям сразу.

Hard вопросами назвали те, из которых выделяется как минимум 6 аспектов (для определения использовали запромпченную LLAMA-3-70B, дав ей описания классов). Всего их вышло порядка 20% — больше всего отфильтровалось по критериям креативности и комплексности (то есть необходимости сделать несколько шагов, чтобы дать ответ).

Чтобы посмотреть рейтинг моделей, нужно перейти на https://chat.lmsys.org/?leaderboard и выбрать вкладку «Hard Prompts». Ниже — моё саммари результатов.

Примеры промптов:

(сложность: 6) tell me how to make a hydroponic nutrient solution at home to grow lettuce with precise amount of each nutrient

(сложность: 6) write me GLSL code which can gennrate at least 5 colors and 2 waves of particles cross each other

(сложность: 7) Write me a python script for the foobar problem, but make it so that if read aloud, each pair of lines rhymes. (i.e. lines 1/2 rhyme, 3/4 rhyme and so on)
Слева на каждой картинке рейтинг модели по всем запросам, справа — лишь по тем, что были классифицированы как Hard. За основу шкалы взята самая первая GPT-4: сделано так, чтобы её рейтинг не менялся (такое называется anchor model, в русском, наверное, якорная модель), а вот остальные модели вокруг неё уже поднимались или опускались в рейтинге.

Первая картинка — изменение рейтинга топ-моделей, вторая — моделей попроще. На всякий случай проясню, что рейтинг измеряется по голосам реальных людей, которые задали свой запрос (который мы отметили как «Hard», в некотором смысле качественный) и выбрали, какая из моделей отвечает лучше. То есть это не «GPT-4 сама себя оценивает высоко»

Легко заметить, что Llama-3-8B-Instruct, качество которой якобы был сопоставимо с GPT-4-0314 (по запросам на английском, в мультиязе то она плоха), значительно падает в рейтинге. Это говорит о том, что модель буксует на вопросах с возросшей сложностью. Также видно, что Claude-3-Opus теперь располагается выше Llama-3-70B-Instruct (у меня-то и сомнений не было), а GPT-4o даже показывает небольшое улучшение относительно множества «обычных» запросов

Но это про дорогие проприетарные модели, давайте посмотрим на вторую картинку. Тут самое интересное — как кроха Phi-3-mini (всего 3.8B параметров!) подбирается вплотную к GPT-3.5-Turbo. Жаль, Microsoft не делятся деталями обучения и генерации синтетических данных.

И для справки: лучшая GPT-4o выигрывает LLAMA-3-70B на 103 очка, в 77% случаев. Если запомните из этого поста одну вещь, то это «на более сложных запросах открытые модели даже не близки к закрытым» 👍 А ведь это ещё даже не запросы на реализацию агентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Слева на каждой картинке рейтинг модели по всем запросам, справа — лишь по тем, что были классифицированы как Hard. За основу шкалы взята самая первая GPT-4: сделано так, чтобы её рейтинг не менялся (такое называется anchor model, в русском, наверное, якорная…
Случайно удалил посты в чате (не канале), но из-за этого пропадает возможность комментировать посты. Кстати, именно так отключают комментарии у рекламных постов в других каналах.

Оставляйте комментарии для двух сообщений выше здесь.
Начинается секция Advanced LLMs ДатаФеста ODS 2024-го года. Как и в прошлом году, я принимал участие в её подготовке, и даже должен был сегодня выступить с докладом, но из-за здоровья перенесли на попозже (~1-ое июня).

Напомню, что в прошлом году наш трек стал самым высокооценённым и любимым, согласно опросу участников. В этом году мы подготовили больше 20 докладов про самые разные аспекты работы с LLM — от инженерных штук с написанием кода и до бизнес-кейсов.

Ссылки-пароли-явки всё те же: spatial.chat (пароль parrotsfortheparrotthrone)
Плюс эфир на youtube для тех, кто не хочет нетворкаться и задавать вопросы.

Сейчас выступает Ринат (автор @llm_under_hood), он рассказывает про интеграцию невекторых баз знаний для борьбы с галлюцинациями в RAG.

Всем хорошего просмотра, и увидимся!

P.S.: записи всех докладов по всем трекам — будут!
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует некоторого бекграунда, чтобы разобраться. Все выводы и мелкие, но важные детальки я не смогу выписать в посты, потому рекомендую технарям прочитать самостоятельно, оно того стоит.

Для того, чтобы понять ниженаписанное, необходимо знать следующие термины:

Валидация — обычно при обучении моделей в самом простом случае все данные разбивают на 2 части: тренировочная часть и валидационная, служащая для проверки. Затем алгоритм (нейросеть) тренируют на тренировочной части, а на валидационной замеряют качество. Так как модель не видела эти данные во время тренировки, то можно сказать, что это хорошая оценка того, как модель будет вести себя в реальных условиях, на данных, которые не встречались.

Генерализация/обощение — грубо говоря, когда модель находит какие-то паттерны и закономерности в данных, которые являются общими, а не присущими только маленькому набору данных. Если модель генерализуется, то она хорошо работает на данных, которые до этого не видела.

Переобучение — не «давай обучим снова?», как можно подумать. В какой-то момент модель перестаёт учить обобщающиеся/генерализуемые паттерны, и начинает переобучаться — и её качество на валидационной части падает. В этот момент обучение кажется логичным приостановить — мы как бы думаем, что на новых данных, которые модель не видела, лучше уже не получится сделать. Например, сейчас у вас качество 80% на тренировочных данных и 78% на валидацонных. А через некоторое время 90% и 50%. Получается, что модель стала хуже -> лишняя тренировка не помогла. Но оказывается, что существует...

Гроккинг — это когда после очень долгого обучения, когда кажется, что модель уже переобучилась, и показывает почти идеальное качество на тренировочной выборке (то есть больше учиться нечему), но низкое на валидации, вдруг ситуация меняется. И модель неожиданным образом, не меняя качество на трейне, резко улучшается на валидации. Лучше всего это охарактеризовать фразой «чё-то щёлкнуло внутри»: каким-то образом модель пришла к алгоритму, который очень хорошо обобщается. Развивая пример выше, представьте, что качество стало 97% и 30% (то есть ещё хуже на валидации), а потом вдруг 98% и 95% — хотя казалось бы, метрика ведь деградировала.

На данный момент не ясно, как и почему случается гроккинг. Он замечен только в маленьких моделях на малом наборе задач — но не потому, что не масштабируется, а потому, что он возникает только тогда, когда модель тренируют ОООООООООЧЕНЬ долго (в десятки раз дольше обычного). В одном из экспериментов, например, о нём узнали лишь потому, что оставили компьютер на ночь включённым по ошибке (а там обучалась маленькая модель на простой задаче).

Но считается, что в момент гроккинга в модели возникает некоторый набор логики, который очень строго формализован и почти не ошибается. Буквально как если бы вы писали программу, где всё задано жёсткими условиями «если <что-то> то <что-то>». Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.

Интерпретирование моделей (про которое я пишу всё чаще и чаще) — это как раз попытка заглянуть в модель после обучения и разобраться, какой именно механизм она изобрела для того, чтобы решать задачу. Таким образом получается показать, что модель точно будет надёжно работать с примерами, которые до этого не встречала. Например, вот работа по изучению сложения по модулю.
Наконец, давайте поговорим про конкретно эту работу. Для этого нужны следующие понятия:

Атомарный факт — самая малая частица информации, выраженная как факт. В рамках этой работы подразумеваются факты в духе «Жена Барака — Мишель», только тут они выражаются как тройки (Сущность 1, отношение, Сущность 2). Другой пример: «Мишель родилась в 1964-м» (тут отношение — это «родиться в»).

Задача композиции — это задача выведения связи по двум атомарным фактам. По примеру выше человек может легко догадаться, что «Жена барака родилась в 1964-м». Для того, чтобы осуществить это, нам нужно как бы сделать один прыжок в логике между двумя атомарными фактами.

Задача сравнения— это задача выведения отношения по двум атомарным фактам. Есть три вида отношений: больше, меньше, равно. «Трампу 78 лет», «Байдену 82 года» превращается в «Трамп моложе Байдена». Подумайте, как вы в голове решаете такую задачу, по шагам.

Во время тренировки модели показываются все атомарные факты (чтобы она могла выучить и дальше оперировать ими), но показывают лишь часть связей. Причём эти связи разбиты по сущностям. Сначала все атомарные факты бьют на две группы. Из первой сгенерируют связи, и их и будут показывать модели. Вторую откладывают, для тех фактов будет показано 0 связей, только факты.
Первая группа называется In-Distribution (ID на графиках), так как по сути мы даём модели понять, как работают конкретные связи на конкретных фактах. А для второй группы мы вообще не показываем связи никаким образом, модель их никогда не видела и не знает, только голые знания. Такое называется Out-of-Distribution (OOD на графиках). По идее, если модель может понять логику и создать общий алгоритм работы со знаниями — то OOD будет работать.

Основная вера скептиков нейросетей — что OOD не работает. То есть если модель что-то не видела, она никогда не сможет до этого догадаться. Но в теории, если модель смогла грокнуть алгоритм решения и изобрести логику, то нет причин не решать задачи, которые раньше не встречались.
На картинке вы видите два графика для двух вышеописанных задач. На обоих графиках красная линия очень быстро доход почти до 100% — модель выучивает тренировочную выборку. В этот момент качество на ID/OOD-валидации очень маленькое. Обычно люди разводят руки и говорят «эх, нихрена не выучилось...». Авторы же тренируют модель в 10-15 раз дольше (относительно достижения этой точки).

Задача 1 (слева)
В задаче композиции гроккинг возникает только для ID-примеров, то есть модель может вывести новые связи (отношения между фактами), которые ей не показывали, но только если с этими атомарными фактами уже были демонстрации установки связей. OOD не работает.

Задача 2 (справа)
В задаче сравнения картинка существенно отличается, и даже на 10^4 шагов качество ID/OOD существенно отличается от нуля. А к концу обучения и вовсе подходит к 100% — то есть модель может сравнивать произвольные атрибуты двух разных сущностей даже если они никогда не фигурировали в сравнениях, вообще ни в каких.
Но это была не самая интересная часть статьи — не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.— все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
— Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки — она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера — у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) — и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм — в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое — что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.
Теперь ещё несколько фактов из работы:
— скорость появления гроккинга зависит от соотношения двух групп данных во время тренировки: атомарные факты и связи/отношения. Гроккинга можно достичь значительно быстрее, если кормить модели в 15-18 раз больше связей нежели фактов. Большая находка тут в том, что гроккинг, получается, не так зависим от вбуханных в обучение мощностей/количества данных, сколько от «умности» (качества) данных.
— в тысячный раз оказывается, что бОльшие модели сходятся быстрее. То есть даже если данные и ресурсы на обучение не менять, можно добиться лучших результатов. В теории, если у нас кончатся данные после GPT-6, то GPT-7 можно просто сделать больше и учить на тех же данных — всё равно будет лучше.
— интересно, как трансформер выучил «параллельное» решение казалось бы последовательной задачи (это я про сравнение). Это не первый раз, когда модель находит шорткат и приводит к генерализуемому решению.
— фраза из статьи, которую можно кидать критикам нейронок в лицо (я даже затвитил с тэгом Гари Маркуса аххаха): «Разница в полученных обобщениях по двум изучаемым задачам также подчеркивает необходимость контролируемого и механистического исследования [интерпретирования] понимания рассуждений моделей, прежде чем делать общие заявления о его ограничениях». По примеру очевидно, что генерализация случается, а когда нет — тогда нужно понять, чем это вызвано, а не кричать «Deep Learning hitting the wall» (10 лет)
— когда модель грокает задачу, то вся логика становится очень компактной и занимает очень малую часть модели. Это потому, что вместо запоминания наступает понимание. Гроккинг вообще часто этим объясняется (модель сначала запоминает, потом медленно выводит прваила, и тогда большая часть знаний будет не нужна — их можно получать на лету логикой). Верю, что через улучшений по этому направлению модели получится сделать меньше, но умнее.
— регуляризация помогает достигнуть гроккинга быстрее, так как модель по сути заставляют выполнять задачу меньшим количеством параметров, что уменьшает размер схемы (набора блоков, которые реализуют логику), и потому модель не ударяется в запоминание.

В работе ещё с десяток крючков, за которые можно зацепиться и начать рассуждать про то, что и как нужно менять, чтобы модели стали умнее, не галлюцинировали итд.

Но все эти свойства, как вы видите, появляются в результате гроккинга, когда модель учат неприлично много. Про это есть релевантное исследование от META, которое я разбирал — там одни и те же факты показывали по 1000 раз, чтобы модель их запомнила. Для меня это выглядит как «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения». Инвестируем в NVIDIA, ждём суперкластеров)

Всё! Теперь постов не будет неделю, кек
OpenAI создали комитет по безопасности. Он отвечает за выработку рекомендаций по критически важным решениям в области AI Safety для всех проектов OpenAI.

Самая главная часть в посте:
«OpenAI has recently begun training its next frontier model...»

Вторая главная часть: комитет должен предоставить свои рекомендации через 90 дней, после чего на них посмотрит совет директоров. А после этого их увидим и мы - OpenAI хотят огласить их публично.

Согласно слухам, анонс новой модели запланирован на ноябрь 2024-го года.