Sparse Hash AI
135 subscribers
154 photos
263 videos
3 files
351 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers
https://arxiv.org/abs/2212.10559

https://github.com/microsoft/LMOps/tree/main/understand_icl

В статье исследователи математически доказали, что in-context информация имеет эффект, аналогичный градиентному спуску, который обновляет веса внимания zero-shot промпта.

GPT сначала создает мета-градиенты согласно демонстрационным примерам, а затем эти мета-градиенты применяются к исходному GPT для построения модели ICL.

Экспериментальные результаты показывают, что in-context обучение ведет себя аналогично явному файнтюнингу. Авторы разработали momentum-based attention, который дал улучшение производительности.
Попалась на глаза активация SinLU (Sinu-Sigmoidal Linear Unit). Решил испытать её и прогнал через неё выход со слоя энкодера, на выходе получились сильно разреженные эмбеддинги.

В итоге ёмкость модели поднялась к теоретическому пределу (LLMs can and only can store 2 bits of knowledge per parameter).

Теперь 512d слой предиктит на претрейне с ошибкой 0,05% на 16K токенов и 0,39% на 30K. Для слоя 512d предел ёмкости ~35K токенов.
Попробовал в качестве скорости обучения использовать среднее абсолютное значение дельты весов.

Первый график с гладкой скоростью даёт малую ошибку на трейне, но генерация на LM ломается.

Второй график с паттернами осцилляций даёт немного большую ошибку, но LM генерирует.

Третий график самый интересный, на нём получились ступеньки как в этой работе.

И обратите внимание, что около 2 тыс эпохи сеть в конце последней ступеньки останавливает обучение.

По оси X эпохи.
The Genomic Code: The genome instantiates a generative model of the organism
https://arxiv.org/abs/2407.15908

Геном как автоэнкодер.

X

Здесь мы предлагаем новую аналогию, вдохновленную недавними работами в области машинного обучения и нейробиологии: геном кодирует генеративную модель организма. В этой схеме, по аналогии с вариационными автокодировщиками, геном не кодирует непосредственно ни форму организма, ни процессы развития, а представляет собой сжатое пространство «латентных переменных». Эти латентные переменные представляют собой последовательности ДНК, которые определяют биохимические свойства кодируемых белков и относительное сродство между транс-действующими регуляторными факторами и элементами их целевой последовательности.
1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
arXiv -> alphaXiv

Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.

Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.

Ну чем не рай для ресерчера?
🔥3
Forwarded from Pro AI
Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей.

Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных.

Читать дальше
Пара интересных шейдеров с кластеризацией частиц.

Thermal Particles

Communication and Grouping
This media is not supported in your browser
VIEW IN TELEGRAM
У модели андроида 1X прогресс.