Sparse Hash AI

Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers
https://arxiv.org/abs/2212.10559

https://github.com/microsoft/LMOps/tree/main/understand_icl

В статье исследователи математически доказали, что in-context информация имеет эффект, аналогичный градиентному спуску, который обновляет веса внимания zero-shot промпта.

GPT сначала создает мета-градиенты согласно демонстрационным примерам, а затем эти мета-градиенты применяются к исходному GPT для построения модели ICL.

Экспериментальные результаты показывают, что in-context обучение ведет себя аналогично явному файнтюнингу. Авторы разработали momentum-based attention, который дал улучшение производительности.

57 viewsedited 17:14

Sparse Hash AI

Попалась на глаза активация SinLU (Sinu-Sigmoidal Linear Unit). Решил испытать её и прогнал через неё выход со слоя энкодера, на выходе получились сильно разреженные эмбеддинги.

В итоге ёмкость модели поднялась к теоретическому пределу (LLMs can and only can store 2 bits of knowledge per parameter).

Теперь 512d слой предиктит на претрейне с ошибкой 0,05% на 16K токенов и 0,39% на 30K. Для слоя 512d предел ёмкости ~35K токенов.

73 viewsedited 18:33

Sparse Hash AI

Попробовал в качестве скорости обучения использовать среднее абсолютное значение дельты весов.

Первый график с гладкой скоростью даёт малую ошибку на трейне, но генерация на LM ломается.

Второй график с паттернами осцилляций даёт немного большую ошибку, но LM генерирует.

Третий график самый интересный, на нём получились ступеньки как в этой работе.

И обратите внимание, что около 2 тыс эпохи сеть в конце последней ступеньки останавливает обучение.

По оси X эпохи.

76 views16:01

Sparse Hash AI

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

A = B, C = D

71 views15:52

Sparse Hash AI

Linear Attention Is All You Need

перевод
Всё, что вам нужно — это линейное внимание

109 views17:23

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

Kling AI

95 views18:28

Sparse Hash AI

The Genomic Code: The genome instantiates a generative model of the organism
https://arxiv.org/abs/2407.15908

Геном как автоэнкодер.

X

Здесь мы предлагаем новую аналогию, вдохновленную недавними работами в области машинного обучения и нейробиологии: геном кодирует генеративную модель организма. В этой схеме, по аналогии с вариационными автокодировщиками, геном не кодирует непосредственно ни форму организма, ни процессы развития, а представляет собой сжатое пространство «латентных переменных». Эти латентные переменные представляют собой последовательности ДНК, которые определяют биохимические свойства кодируемых белков и относительное сродство между транс-действующими регуляторными факторами и элементами их целевой последовательности.

❤1

102 views19:08

Sparse Hash AI

Forwarded from Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

arXiv -> alphaXiv

Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.

Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.

Ну чем не рай для ресерчера?

🔥3

74 views16:40

Sparse Hash AI

Forwarded from Алексей

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Figure 02 coming 8/6

81 views18:40

Sparse Hash AI

Forwarded from Pro AI

Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей.

Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.

Читать дальше

Telegraph

На каком языке думают языковые модели

74 views15:55

Sparse Hash AI

Forwarded from Уткогорлонос