Техножнец

TrueKAN (Kolmogorov-Arnold Network). Архитектурная альтернатива обычным нейросетям, построенная на теореме Колмогорова-Арнольда о представлении функций. Вместо фиксированных активаций учит сами активации, раскладывая их по базисам. В моём варианте базисы это полиномы Чебышева. Тема свежая, 2024-2025 год.

.down слой. Внутри FFN две линейные операции: .up расширяет размерность сигнала (например с 1024 до 4096), .down сжимает обратно (с 4096 до 1024). В моём коде проблема была именно в .down части TrueKAN, где сигнал перед сжатием проходил через tanh и насыщался.

Dimensions (размерности). Каждый скрытый сигнал в модели это вектор из чисел. У меня длиной 1024 числа. «52-90% размерностей залипали» = из этих 1024 чисел 500-900 всегда оказывались равны почти единице, то есть вели себя как константа а не как осмысленный сигнал.

Hidden state (скрытое состояние). Внутренний сигнал который течёт от слоя к слою. На входе закодированный текст, дальше каждый слой что-то с ним делает, на выходе предсказание следующего слова. Hidden state norm это длина этого вектора — насколько он большой численно.

Residual stream (остаточный поток). Главная магистраль сигнала в трансформере. Каждый слой не заменяет предыдущее состояние, а добавляет к нему свой вклад. Как накопительный счёт: кладёшь понемногу с каждого слоя, к концу модели там итоговая информация. Норма residual stream должна расти умеренно. У меня в V9 раздувалась в 7 раз.

━━━━━━━━━━━━━━━━━━━━

⚠️ ПАТОЛОГИИ

Attention sink (сток внимания). Патологическое поведение, когда механизм внимания залипает на одном токене (обычно первом) и смотрит туда всегда, независимо от контекста. Модель как бы «сливает» своё внимание в один угол откуда оно уже не возвращается. Из-за этого она перестаёт видеть остальной текст нормально.

Saturation (насыщение). Когда функция упирается в свой предел и перестаёт различать разницу во входе. Как передержанная фотография, где белое стало просто белым и деталей уже не видать. Tanh saturation в моей модели убивал FFN: функция становилась константой, слой выдавал одно и то же независимо от входа.

Tanh (гиперболический тангенс). Математическая функция которая любое число сжимает в диапазон от минус единицы до плюс единицы. Форма похожа на растянутую букву S. Проблема: если подать слишком большое число, tanh почти упирается в единицу и перестаёт чувствовать разницу между 5 и 50. Это и есть saturation.

Norm inflation (раздувание нормы). Когда длина сигнала растёт от слоя к слою бесконтрольно. К последним слоям сигнал становится настолько большим численно, что мелкие осмысленные колебания тонут в нём. Градиенты при этом тоже взрываются, обучение ломается.

Gradient (градиент). Направление в котором надо подвинуть параметры модели чтобы ошибка уменьшилась. На каждом шаге тренировки считают градиенты, параметры сдвигаются чуть-чуть по ним. Если градиенты становятся слишком большими («взрываются»), сдвиги получаются бешеные и модель расколбашивает.

━━━━━━━━━━━━━━━━━━━━

🛠 МЕТОДЫ ЛЕЧЕНИЯ

Bias (смещение). Маленькая константа, которую добавляют в нейросети к вычислениям чтобы дать модели дополнительный параметр для настройки. В большинстве мест оно полезно. В конкретном случае в моём attention перед RoPE оказалось вредным.

RMSNorm (Root Mean Square Normalization). Процедура которая приводит длину вектора к стандартному размеру без изменения направления. Как если бы взял стрелку и нормировал её до единичной длины, оставив направление. Ставят перед активациями и слоями чтобы сигнал не раздувался и не сжимался непредсказуемо.

Learnable parameter (обучаемый параметр). Число в модели, которое изначально случайное, но во время тренировки подстраивается градиентным спуском под задачу. pretanh_scale у меня это 48 таких чисел, по одному на каждый .down слой. Они учатся сами подбирать масштаб сигнала перед tanh чтобы не уходил в saturation.

👍15🔥7❤2🕊1

1.02K views15:17