Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers
https://arxiv.org/abs/2212.10559
https://github.com/microsoft/LMOps/tree/main/understand_icl
В статье исследователи математически доказали, что in-context информация имеет эффект, аналогичный градиентному спуску, который обновляет веса внимания zero-shot промпта.
GPT сначала создает мета-градиенты согласно демонстрационным примерам, а затем эти мета-градиенты применяются к исходному GPT для построения модели ICL.
Экспериментальные результаты показывают, что in-context обучение ведет себя аналогично явному файнтюнингу. Авторы разработали momentum-based attention, который дал улучшение производительности.
https://arxiv.org/abs/2212.10559
https://github.com/microsoft/LMOps/tree/main/understand_icl
В статье исследователи математически доказали, что in-context информация имеет эффект, аналогичный градиентному спуску, который обновляет веса внимания zero-shot промпта.
GPT сначала создает мета-градиенты согласно демонстрационным примерам, а затем эти мета-градиенты применяются к исходному GPT для построения модели ICL.
Экспериментальные результаты показывают, что in-context обучение ведет себя аналогично явному файнтюнингу. Авторы разработали momentum-based attention, который дал улучшение производительности.
Попалась на глаза активация SinLU (Sinu-Sigmoidal Linear Unit). Решил испытать её и прогнал через неё выход со слоя энкодера, на выходе получились сильно разреженные эмбеддинги.
В итоге ёмкость модели поднялась к теоретическому пределу (LLMs can and only can store 2 bits of knowledge per parameter).
Теперь 512d слой предиктит на претрейне с ошибкой 0,05% на 16K токенов и 0,39% на 30K. Для слоя 512d предел ёмкости ~35K токенов.
В итоге ёмкость модели поднялась к теоретическому пределу (LLMs can and only can store 2 bits of knowledge per parameter).
Теперь 512d слой предиктит на претрейне с ошибкой 0,05% на 16K токенов и 0,39% на 30K. Для слоя 512d предел ёмкости ~35K токенов.
Попробовал в качестве скорости обучения использовать среднее абсолютное значение дельты весов.
Первый график с гладкой скоростью даёт малую ошибку на трейне, но генерация на LM ломается.
Второй график с паттернами осцилляций даёт немного большую ошибку, но LM генерирует.
Третий график самый интересный, на нём получились ступеньки как в этой работе.
И обратите внимание, что около 2 тыс эпохи сеть в конце последней ступеньки останавливает обучение.
По оси X эпохи.
Первый график с гладкой скоростью даёт малую ошибку на трейне, но генерация на LM ломается.
Второй график с паттернами осцилляций даёт немного большую ошибку, но LM генерирует.
Третий график самый интересный, на нём получились ступеньки как в этой работе.
И обратите внимание, что около 2 тыс эпохи сеть в конце последней ступеньки останавливает обучение.
По оси X эпохи.
The Genomic Code: The genome instantiates a generative model of the organism
https://arxiv.org/abs/2407.15908
Геном как автоэнкодер.
X
https://arxiv.org/abs/2407.15908
Геном как автоэнкодер.
X
Здесь мы предлагаем новую аналогию, вдохновленную недавними работами в области машинного обучения и нейробиологии: геном кодирует генеративную модель организма. В этой схеме, по аналогии с вариационными автокодировщиками, геном не кодирует непосредственно ни форму организма, ни процессы развития, а представляет собой сжатое пространство «латентных переменных». Эти латентные переменные представляют собой последовательности ДНК, которые определяют биохимические свойства кодируемых белков и относительное сродство между транс-действующими регуляторными факторами и элементами их целевой последовательности.
❤1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
arXiv -> alphaXiv
Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.
Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.
Ну чем не рай для ресерчера?
Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.
Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.
Ну чем не рай для ресерчера?
🔥3
Forwarded from Алексей
This media is not supported in your browser
VIEW IN TELEGRAM
Figure 02 coming 8/6
Forwarded from Pro AI
Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей.
Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.
Читать дальше
Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.
Читать дальше
Telegraph
На каком языке думают языковые модели
Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком…
This media is not supported in your browser
VIEW IN TELEGRAM
У модели андроида 1X прогресс.