Sparse Hash AI

49 views19:33

This media is not supported in your browser

Stephen Wolfram says the concept of a soul is a description of the computational essence of a mind, an abstraction that is independent of the details of the physical substrate on which it runs.

49 views19:45

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

Gen-3 Alpha

49 views13:39

Sparse Hash AI

Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://arxiv.org/abs/2407.04620

ttt-lm-jax: Official JAX implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://github.com/test-time-training/ttt-lm-jax

ttt-lm-pytorch: Official PyTorch implementation of Learning to (Learn at Test Time): RNNs with Expressive Hidden States
https://github.com/test-time-training/ttt-lm-pytorch

Мы разработали новую архитектуру, которая заменяет скрытое состояние RNN моделью машинного обучения. Эта модель сжимает контекст посредством фактического градиентного спуска на входных токенах. Мы называем наш метод «Test-Time-Training layers».

Слои TTT напрямую заменяют внимание и открывают архитектуру линейной сложности с выразительной памятью, что позволяет нам обучать LLM с помощью миллионов (а иногда и миллиардов) токенов в контексте.

match or beat the strongest Transformers and Mamba

X X

69 views16:19

Sparse Hash AI

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

👍1

51 views20:09

Sparse Hash AI

Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers
https://arxiv.org/abs/2212.10559

https://github.com/microsoft/LMOps/tree/main/understand_icl

В статье исследователи математически доказали, что in-context информация имеет эффект, аналогичный градиентному спуску, который обновляет веса внимания zero-shot промпта.

GPT сначала создает мета-градиенты согласно демонстрационным примерам, а затем эти мета-градиенты применяются к исходному GPT для построения модели ICL.

Экспериментальные результаты показывают, что in-context обучение ведет себя аналогично явному файнтюнингу. Авторы разработали momentum-based attention, который дал улучшение производительности.

57 viewsedited 17:14

Sparse Hash AI

Попалась на глаза активация SinLU (Sinu-Sigmoidal Linear Unit). Решил испытать её и прогнал через неё выход со слоя энкодера, на выходе получились сильно разреженные эмбеддинги.

В итоге ёмкость модели поднялась к теоретическому пределу (LLMs can and only can store 2 bits of knowledge per parameter).

Теперь 512d слой предиктит на претрейне с ошибкой 0,05% на 16K токенов и 0,39% на 30K. Для слоя 512d предел ёмкости ~35K токенов.

73 viewsedited 18:33

Sparse Hash AI

Попробовал в качестве скорости обучения использовать среднее абсолютное значение дельты весов.

Первый график с гладкой скоростью даёт малую ошибку на трейне, но генерация на LM ломается.

Второй график с паттернами осцилляций даёт немного большую ошибку, но LM генерирует.

Третий график самый интересный, на нём получились ступеньки как в этой работе.

И обратите внимание, что около 2 тыс эпохи сеть в конце последней ступеньки останавливает обучение.

По оси X эпохи.

76 views16:01

Sparse Hash AI

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

A = B, C = D

71 views15:52

Sparse Hash AI

Linear Attention Is All You Need

перевод
Всё, что вам нужно — это линейное внимание

109 views17:23

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

Kling AI

95 views18:28

Sparse Hash AI

The Genomic Code: The genome instantiates a generative model of the organism
https://arxiv.org/abs/2407.15908

Геном как автоэнкодер.

X

Здесь мы предлагаем новую аналогию, вдохновленную недавними работами в области машинного обучения и нейробиологии: геном кодирует генеративную модель организма. В этой схеме, по аналогии с вариационными автокодировщиками, геном не кодирует непосредственно ни форму организма, ни процессы развития, а представляет собой сжатое пространство «латентных переменных». Эти латентные переменные представляют собой последовательности ДНК, которые определяют биохимические свойства кодируемых белков и относительное сродство между транс-действующими регуляторными факторами и элементами их целевой последовательности.

❤1

102 views19:08

Sparse Hash AI

Forwarded from Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

arXiv -> alphaXiv

Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.

Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.

Ну чем не рай для ресерчера?

🔥3

74 views16:40

Sparse Hash AI

Forwarded from Алексей

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Figure 02 coming 8/6

81 views18:40

About

Blog

Apps

Platform