Greenruff

🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели

Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.

И это не “ещё один attention”.

Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства

И получаем совсем другую динамику обучения. 👇

🚀 1. Контекстное окно → практически бесконечное

В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого

Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно

👉 это не полный attention
👉 это эффективное поле зависимости

Без квадратичной сложности
Без взрыва памяти

⚡️ 2. Сходимость быстрее (*зависит от температуры)

Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000

👉 ×5 ускорение

Почему?

❌ глобальный attention = все со всеми → шум
✅ иерархия = фильтрация по уровням

Верхние уровни больше не “видят мусор”.

🎯 3. Качество выше при тех же параметрах

Ключевая проблема LLM:
vocab → embedding → FFN

При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.

👉 мы теряем информацию уже на входе

Вводим нелинейную геометрию:
→ логарифмическое преобразование

Результат:
• больше разрешения там, где есть структура
• меньше — где её нет

👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости

📊 Пример(loss)

Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90

Классический transformer:
“свяжем всё со всем и пусть модель разберётся”

Новый подход:
“построим структуру и уберём шум”

💥 Итог. 3 ключевых эффекта:

📈 Контекст → до триллионов токенов (*для современных видеокарт)

⚡️ Обучение → быстрее

🎯 Качество → выше без увеличения модели

И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания

Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре

PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.

🔥12🤔2

475 views17:00

Greenruff

В прошлом посте я написал, что удалось:
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество

Но объяснение получилось сумбурным. Попробую объяснить проще.

📌 Ключевая идея

Классический механизм внимания решает задачу в лоб:

он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2))

Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона

🧠 Что изменилось в науке

Потом появился Коперник → Кеплер → Ньютон

И вместо:

“давайте хранить все наблюдения”

мы получили:

“давайте опишем закон” движение планет → формула

И больше не нужно хранить всё — можно вычислять

⚙️ То же самое происходит с attention

Классический attention:

“сравни всё со всем и запомни результат”

Это буквально те же “таблицы майя”, только в матричном виде.

🔬 В чем тогда разница?

Я не считаю все попарные зависимости.

Я моделирую сам закон зависимости:

p(d) ~ sum ( exp( -λ · d) )
где (d) — расстояние между токенами

Вместо:

“сравнить каждую пару токенов”

мы говорим:

“зависимость убывает с расстоянием по определённой форме”

И учим эту форму, а не все значения.

🔺 Почему это важно

Реальные данные имеют локальные максимумы зависимостей:

— ближайший контекст
— уровень фраз
— дальние зависимости

Классический attention:
→ не знает их форму
→ пытается их угадать

Моя модель:
→ задаёт правильную форму напрямую
→ и учит параметры

Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности

📊 По сути

Мы сделали то же самое, что Кеплер сделал для астрономии:

перешли от:
хранения всех наблюдений

к:
параметрической модели закона

📚 Теория

Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны.

Но без них сложно понять, почему это вообще работает.

Поэтому выкладываю часть уже сейчас:

https://disk.yandex.ru/d/HOBD_pfp_Tae3g

(скармливать LLM последовательно: step1 → step2 → step3....)

Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают:

— механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации

Важно: это не “ещё одна архитектура”

Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.

🔥10👏6

516 views08:26

Greenruff

🚀 Новая архитектура внимания: первые результаты

Новая модель внимания на основе ранговой теории показала очень обнадёживающие результаты уже на ранней стадии обучения.

📉 Мы снизили loss с 10–11 до 6.4 — и это уже даёт заметное качество генерации.

🔍 Примеры (β = 0.2)

Prompt: Коты это
Генерация: Коты это женщ. Владимир (193) — авта

Prompt: Коты это животные, которые
Генерация: Коты это животные, которые Западной области

Да, текст ещё сырой — но:
👉 модель уже улавливает структуру языка
👉 начинает корректно использовать скобки (193)
👉 умеет завершать последовательность (EOS)

Это нетривиальные признаки того, что модель не просто шумит, а учится структуре.

🧠 Главное: это НЕ трансформер и НЕ SSM

Архитектура:
• не использует классические attention-heads
• не использует SSM
• не опирается на прямое попарное сравнение (PPMI)

Вместо этого:
👉 всё построено через энергетическую модель (energy-based)
👉 и полностью основано на ранговой теории и теоремах

📐 Почему это важно
Самое главное — модель обучается.

Это критично, потому что:
если бы реализация на основе теорем давала хаос —
это означало бы ошибку в теории или её интерпретации

Но мы видим обратное:

✔️ модель обучается
✔️ улавливает зависимости
✔️ строит структуру

👉 Значит, теория работает на практике

🔬 Интерпретируемость — ключевое преимущество

В отличие от трансформеров:
• веса интерпретируемы
• поведение можно сопоставить с теоремами
• можно анализировать обучение математически

Это делает архитектуру кандидатом на полностью интерпретируемые нейронные модели

⚙️ Что внутри (важные отличия)

1. Нет attention-голов
👉 вместо них — динамические ядра

2. Нет явного PPMI
👉 связи моделируются через энергию и локальные максимумы

3. Нет прямой работы с embedding
👉 embeddings преобразуются в энергетическое пространство g(x)

4. Иерархия вместо плоской структуры
👉 уровни согласуют энергию между собой

🧩 Важно почеркнуть
Модель показывает, что не обязательно использовать классический attention

Можно:
• отказаться от голов
• отказаться от pairwise сравнения
• перейти к энергетической интерпретации

⚠️ Ограничения
Есть и недостатки, приходится хранить всю иерархию на каждом уровне — это избыточно.
Но теория подсказывает решение — переход к динамическим моделям (как SSM) где состояния уровней можно хранить компактно.

🔥 Почему это важно

Главный результат не в качестве (обучение было только 1 день):

❗️ мы показали, что новая парадигма вообще обучается

Вероятность того, что:
• архитектура сильно отличается от известных
• при этом случайно работает
• и при этом согласуется с теорией
👉 крайне мала

📌 Итог

✔️ теория → реализуема
✔️ теория → обучается
✔️ теория → даёт структуру

➡️ Что дальше
• анализ интерпретации
• сравнение с предсказаниями теории
• переход к более эффективным архитектурам

Мы показали, что можно строить нейросети не из эвристик, а напрямую из теорем — и это работает.

📎 Почему я выложил код

• это практическое подтверждение теорем
• потеря интереса к статическим моделям (вроде трансформеров)
• статика ограничивает теорию — реализует только её часть
• в контексте новой работы по спайковым нейронам на базе теории — трансформеры, и статика в целом, остаются скорее академическим инструментом

💻 Исходный код
(все версии: от QKV до текущей с аппроксимацией функций)

https://disk.yandex.ru/d/eJg7Nc__qIeQ9A

👉 в своих проектах достаточно заменить Attention на HierarchicalMHA
👉 параметр beta можно не передавать

📐 Теоремы + объяснение через LLM

https://disk.yandex.ru/d/UNyaCbYUm-jpWw

👉 подавать последовательно:
step1 → step2 → step3 → ...

Это не просто реализация — это попытка собрать модель напрямую из теории.

🔥12👍1

349 views06:28

About

Blog

Apps

Platform