Sparse Hash AI
135 subscribers
154 photos
263 videos
3 files
354 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
golf pattern 1 ( 214 chars )
https://www.shadertoy.com/view/XXtXWM

весь код
void mainImage(out vec4 O, vec2 u)
{
u = 12.*(u+u - (O.xy=iResolution.xy)) /O.y;
float a,r;
for(int i; i++<132;O[i%4] = .5-.5*cos(a+a) )
r = dot(u,u),
r>1. ? u *= r = 1./r : u,
u *= mat2(cos(10.107+vec4(0,33,11,0))) * 5.662,
u.y += 1.62,
a = a*.99+r;
}
1
The Remarkable Robustness of LLMs: Stages of Inference?
https://arxiv.org/abs/2406.19384

В работе изучалось как удаление и перестановки слоёв сказываются на качестве вывода LLM.

В результате обнаружили, что модель расслаивается по глубине на функциональные блоки: "detokenization, feature engineering, prediction ensembling, and residual sharpening".
👍1
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
https://arxiv.org/abs/2404.05405

LLMs can and only can store 2 bits of knowledge per parameter.

Для достижения емкости 2 бита/параметр необходимо, чтобы каждая часть знаний была посещена 1000 раз во время обучения, что называется 1000-экспозицией, чтобы отличать ее от традиционной терминологии «1000 проходов», поскольку за один проход данных можно раскрыть часть знаний 1000 раз.

ист
🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Вырастет и всем припомнит.
👍1
Предобученные LLM на файнтюне могут запомнить данные с единственного предъявления. И эта меморизация выдаёт себя на графике лосса характерными ступеньками.

Can LLMs learn from a single example?
https://www.fast.ai/posts/2023-09-04-learning-jumps/

X
This media is not supported in your browser
VIEW IN TELEGRAM
Stephen Wolfram says the concept of a soul is a description of the computational essence of a mind, an abstraction that is independent of the details of the physical substrate on which it runs.
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://arxiv.org/abs/2407.04620

ttt-lm-jax: Official JAX implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://github.com/test-time-training/ttt-lm-jax

ttt-lm-pytorch: Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://github.com/test-time-training/ttt-lm-pytorch

Мы разработали новую архитектуру, которая заменяет скрытое состояние RNN моделью машинного обучения. Эта модель сжимает контекст посредством фактического градиентного спуска на входных токенах. Мы называем наш метод «Test-Time-Training layers».

Слои TTT напрямую заменяют внимание и открывают архитектуру линейной сложности с выразительной памятью, что позволяет нам обучать LLM с помощью миллионов (а иногда и миллиардов) токенов в контексте.

match or beat the strongest Transformers and Mamba


X X
Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers
https://arxiv.org/abs/2212.10559

https://github.com/microsoft/LMOps/tree/main/understand_icl

В статье исследователи математически доказали, что in-context информация имеет эффект, аналогичный градиентному спуску, который обновляет веса внимания zero-shot промпта.

GPT сначала создает мета-градиенты согласно демонстрационным примерам, а затем эти мета-градиенты применяются к исходному GPT для построения модели ICL.

Экспериментальные результаты показывают, что in-context обучение ведет себя аналогично явному файнтюнингу. Авторы разработали momentum-based attention, который дал улучшение производительности.
Попалась на глаза активация SinLU (Sinu-Sigmoidal Linear Unit). Решил испытать её и прогнал через неё выход со слоя энкодера, на выходе получились сильно разреженные эмбеддинги.

В итоге ёмкость модели поднялась к теоретическому пределу (LLMs can and only can store 2 bits of knowledge per parameter).

Теперь 512d слой предиктит на претрейне с ошибкой 0,05% на 16K токенов и 0,39% на 30K. Для слоя 512d предел ёмкости ~35K токенов.
Попробовал в качестве скорости обучения использовать среднее абсолютное значение дельты весов.

Первый график с гладкой скоростью даёт малую ошибку на трейне, но генерация на LM ломается.

Второй график с паттернами осцилляций даёт немного большую ошибку, но LM генерирует.

Третий график самый интересный, на нём получились ступеньки как в этой работе.

И обратите внимание, что около 2 тыс эпохи сеть в конце последней ступеньки останавливает обучение.

По оси X эпохи.