Sparse Hash AI
135 subscribers
154 photos
263 videos
3 files
351 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Простое объяснение умножения матриц.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
https://github.com/kvfrans/jax-flow

Flow-matching implementation

Flow-matching is very similar to diffusion, but simplifies things. Noised images are linear interpolations between (data, noise) pairs, and the network predicts *velocity* of this trajectory.

post
Ускоряем Grokking до 50 раз
Grokfast - технология\подход для ускорения возникновения феномена grokking'а за счет усиления низкочастотных компонент градиентов параметров с помощью дополнительного механизма поверх используемого оптимизатора.

Буквально в пару строк:
from grokfast import gradfilter_ma, gradfilter_ema


# Insert the following line before the training loop.
grads = None

# Between loss.backward() and optimizer.step(), insert one of the following line. Make sure model is of type nn.Module and grads are initialized properly before the training loop:
# ... in the optimization loop.
loss.backwards() # Calculate the gradients.

### Option 1: Grokfast (has argument alpha, lamb)
grads = gradfilter_ema(model, grads=grads, alpha=alpha, lamb=lamb)
### Option 2: Grokfast-MA (has argument window_size, lamb)
# grads = gradfilter_ma(model, grads=grads, window_size=window_size, lamb=lamb)

optimizer.step() # Call the optimizer.
# ... logging & other codes.


Github
Paper

@toshoseti
golf pattern 1 ( 214 chars )
https://www.shadertoy.com/view/XXtXWM

весь код
void mainImage(out vec4 O, vec2 u)
{
u = 12.*(u+u - (O.xy=iResolution.xy)) /O.y;
float a,r;
for(int i; i++<132;O[i%4] = .5-.5*cos(a+a) )
r = dot(u,u),
r>1. ? u *= r = 1./r : u,
u *= mat2(cos(10.107+vec4(0,33,11,0))) * 5.662,
u.y += 1.62,
a = a*.99+r;
}
1
The Remarkable Robustness of LLMs: Stages of Inference?
https://arxiv.org/abs/2406.19384

В работе изучалось как удаление и перестановки слоёв сказываются на качестве вывода LLM.

В результате обнаружили, что модель расслаивается по глубине на функциональные блоки: "detokenization, feature engineering, prediction ensembling, and residual sharpening".
👍1
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
https://arxiv.org/abs/2404.05405

LLMs can and only can store 2 bits of knowledge per parameter.

Для достижения емкости 2 бита/параметр необходимо, чтобы каждая часть знаний была посещена 1000 раз во время обучения, что называется 1000-экспозицией, чтобы отличать ее от традиционной терминологии «1000 проходов», поскольку за один проход данных можно раскрыть часть знаний 1000 раз.

ист
🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Вырастет и всем припомнит.
👍1
Предобученные LLM на файнтюне могут запомнить данные с единственного предъявления. И эта меморизация выдаёт себя на графике лосса характерными ступеньками.

Can LLMs learn from a single example?
https://www.fast.ai/posts/2023-09-04-learning-jumps/

X
This media is not supported in your browser
VIEW IN TELEGRAM
Stephen Wolfram says the concept of a soul is a description of the computational essence of a mind, an abstraction that is independent of the details of the physical substrate on which it runs.
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://arxiv.org/abs/2407.04620

ttt-lm-jax: Official JAX implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://github.com/test-time-training/ttt-lm-jax

ttt-lm-pytorch: Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://github.com/test-time-training/ttt-lm-pytorch

Мы разработали новую архитектуру, которая заменяет скрытое состояние RNN моделью машинного обучения. Эта модель сжимает контекст посредством фактического градиентного спуска на входных токенах. Мы называем наш метод «Test-Time-Training layers».

Слои TTT напрямую заменяют внимание и открывают архитектуру линейной сложности с выразительной памятью, что позволяет нам обучать LLM с помощью миллионов (а иногда и миллиардов) токенов в контексте.

match or beat the strongest Transformers and Mamba


X X