🔥 Трансформеры можно сделать в 5 раз эффективнее — без увеличения размера модели
Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.
И это не “ещё один attention”.
Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства
И получаем совсем другую динамику обучения. 👇
🚀 1. Контекстное окно → практически бесконечное
В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого
Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно
👉 это не полный attention
👉 это эффективное поле зависимости
Без квадратичной сложности
Без взрыва памяти
⚡️ 2. Сходимость быстрее (*зависит от температуры)
Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000
👉 ×5 ускорение
Почему?
Верхние уровни больше не “видят мусор”.
🎯 3. Качество выше при тех же параметрах
Ключевая проблема LLM:
vocab → embedding → FFN
При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.
👉 мы теряем информацию уже на входе
Вводим нелинейную геометрию:
→ логарифмическое преобразование
Результат:
• больше разрешения там, где есть структура
• меньше — где её нет
👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости
📊 Пример(loss)
Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90
Классический transformer:
“свяжем всё со всем и пусть модель разберётся”
Новый подход:
“построим структуру и уберём шум”
💥 Итог. 3 ключевых эффекта:
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания
Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре
PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
Пока я шлифую статью про спайковые сети, удалось собрать архитектуру, которая ломает привычные ограничения LLM.
И это не “ещё один attention”.
Коротко:
• убираем глобальный attention
• вводим иерархию
• меняем геометрию пространства
И получаем совсем другую динамику обучения. 👇
🚀 1. Контекстное окно → практически бесконечное
В классических моделях:
• 8k–32k — нормально
• 100k — уже дорого
Здесь:
• каждый уровень учится функции
• 40 уровней ≈ более чем триллионное окно
👉 это не полный attention
👉 это эффективное поле зависимости
Без квадратичной сложности
Без взрыва памяти
⚡️ 2. Сходимость быстрее (*зависит от температуры)
Результат на одинаковых данных:
• классический transformer → ~10000 примеров
• новая архитектура → ~2000
👉 ×5 ускорение
Почему?
❌ глобальный attention = все со всеми → шум
✅ иерархия = фильтрация по уровням
Верхние уровни больше не “видят мусор”.
🎯 3. Качество выше при тех же параметрах
Ключевая проблема LLM:
vocab → embedding → FFN
При этом:
• функция g(x) имеет точки излома
• они распределены НЕравномерно
А модель использует линейную шкалу.
👉 мы теряем информацию уже на входе
Вводим нелинейную геометрию:
→ логарифмическое преобразование
Результат:
• больше разрешения там, где есть структура
• меньше — где её нет
👉 модель перестаёт усреднять
👉 начинает видеть реальные зависимости
📊 Пример(loss)
Глобальный attention: 5.65 → 4.98 → 4.35
Новая архитектура: 4.30 → 2.98 → 1.90
Классический transformer:
“свяжем всё со всем и пусть модель разберётся”
Новый подход:
“построим структуру и уберём шум”
💥 Итог. 3 ключевых эффекта:
📈 Контекст → до триллионов токенов (*для современных видеокарт)
⚡️ Обучение → быстрее
🎯 Качество → выше без увеличения модели
И это без:
- MoE
- увеличения параметров
- роста вычислений
- без голов
- без матрицы внимания
Если коротко:
👉 Похоже, что дело не в размере модели
👉 а в геометрии и структуре
PS: сейчас предстоит проверить это на обучении крупной LLM, на масштабировании.
🔥12🤔2
В прошлом посте я написал, что удалось:
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество
Но объяснение получилось сумбурным. Попробую объяснить проще.
📌 Ключевая идея
Классический механизм внимания решает задачу в лоб:
он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2))
Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона
🧠 Что изменилось в науке
Потом появился Коперник → Кеплер → Ньютон
И вместо:
мы получили:
И больше не нужно хранить всё — можно вычислять
⚙️ То же самое происходит с attention
Классический attention:
Это буквально те же “таблицы майя”, только в матричном виде.
🔬 В чем тогда разница?
Я не считаю все попарные зависимости.
Я моделирую сам закон зависимости:
Вместо:
мы говорим:
И учим эту форму, а не все значения.
🔺 Почему это важно
Реальные данные имеют локальные максимумы зависимостей:
— ближайший контекст
— уровень фраз
— дальние зависимости
Классический attention:
→ не знает их форму
→ пытается их угадать
Моя модель:
→ задаёт правильную форму напрямую
→ и учит параметры
Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности
📊 По сути
Мы сделали то же самое, что Кеплер сделал для астрономии:
перешли от:
хранения всех наблюдений
к:
параметрической модели закона
📚 Теория
Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны.
Но без них сложно понять, почему это вообще работает.
Поэтому выкладываю часть уже сейчас:
https://disk.yandex.ru/d/HOBD_pfp_Tae3g
(скармливать LLM последовательно: step1 → step2 → step3....)
Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают:
— механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации
Важно: это не “ещё одна архитектура”
Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.
— уменьшить сложность внимания
— ускорить сходимость
— и улучшить качество
Но объяснение получилось сумбурным. Попробую объяснить проще.
📌 Ключевая идея
Классический механизм внимания решает задачу в лоб:
он сравнивает каждый токен с каждым
→ получаем квадратичную сложность (O(n^2))
Это похоже на то, как цивилизация майя тысячелетиями записывали положение каждой звезды вручную. Это огромные ресурсы, огромные таблицы, но без понимания закона
🧠 Что изменилось в науке
Потом появился Коперник → Кеплер → Ньютон
И вместо:
“давайте хранить все наблюдения”
мы получили:
“давайте опишем закон” движение планет → формула
И больше не нужно хранить всё — можно вычислять
⚙️ То же самое происходит с attention
Классический attention:
“сравни всё со всем и запомни результат”
Это буквально те же “таблицы майя”, только в матричном виде.
🔬 В чем тогда разница?
Я не считаю все попарные зависимости.
Я моделирую сам закон зависимости:
p(d) ~ sum ( exp( -λ · d) )
где (d) — расстояние между токенами
Вместо:
“сравнить каждую пару токенов”
мы говорим:
“зависимость убывает с расстоянием по определённой форме”
И учим эту форму, а не все значения.
🔺 Почему это важно
Реальные данные имеют локальные максимумы зависимостей:
— ближайший контекст
— уровень фраз
— дальние зависимости
Классический attention:
→ не знает их форму
→ пытается их угадать
Моя модель:
→ задаёт правильную форму напрямую
→ и учит параметры
Именно это и даёт нам:
— сложность ≈ линейная
— быстрее сходимость
— лучше качество
— лучше масштабирование на длинные последовательности
📊 По сути
Мы сделали то же самое, что Кеплер сделал для астрономии:
перешли от:
хранения всех наблюдений
к:
параметрической модели закона
📚 Теория
Я планировал выложить теоремы позже, вместе со статьёй про спайковые нейроны.
Но без них сложно понять, почему это вообще работает.
Поэтому выкладываю часть уже сейчас:
https://disk.yandex.ru/d/HOBD_pfp_Tae3g
(скармливать LLM последовательно: step1 → step2 → step3....)
Там примерно половина всех доказанных теорем (что они доказывали и что доказали), но они уже покрывают:
— механизм внимания
— происхождение softmax
— роль голов
— и связь с теорией информации
Важно: это не “ещё одна архитектура”
Это попытка описать attention как оптимальное распределение, а не как эвристику через QK.
🔥10👏6
🚀 Новая архитектура внимания: первые результаты
Новая модель внимания на основе ранговой теории показала очень обнадёживающие результаты уже на ранней стадии обучения.
📉 Мы снизили loss с 10–11 до 6.4 — и это уже даёт заметное качество генерации.
🔍 Примеры (β = 0.2)
Prompt: Коты это
Генерация: Коты это женщ. Владимир (193) — авта
Prompt: Коты это животные, которые
Генерация: Коты это животные, которые Западной области
Да, текст ещё сырой — но:
👉 модель уже улавливает структуру языка
👉 начинает корректно использовать скобки (193)
👉 умеет завершать последовательность (EOS)
Это нетривиальные признаки того, что модель не просто шумит, а учится структуре.
🧠 Главное: это НЕ трансформер и НЕ SSM
Архитектура:
• не использует классические attention-heads
• не использует SSM
• не опирается на прямое попарное сравнение (PPMI)
Вместо этого:
👉 всё построено через энергетическую модель (energy-based)
👉 и полностью основано на ранговой теории и теоремах
📐 Почему это важно
Самое главное — модель обучается.
Это критично, потому что:
если бы реализация на основе теорем давала хаос —
это означало бы ошибку в теории или её интерпретации
Но мы видим обратное:
✔️ модель обучается
✔️ улавливает зависимости
✔️ строит структуру
👉 Значит, теория работает на практике
🔬 Интерпретируемость — ключевое преимущество
В отличие от трансформеров:
• веса интерпретируемы
• поведение можно сопоставить с теоремами
• можно анализировать обучение математически
Это делает архитектуру кандидатом на полностью интерпретируемые нейронные модели
⚙️ Что внутри (важные отличия)
1. Нет attention-голов
👉 вместо них — динамические ядра
2. Нет явного PPMI
👉 связи моделируются через энергию и локальные максимумы
3. Нет прямой работы с embedding
👉 embeddings преобразуются в энергетическое пространство g(x)
4. Иерархия вместо плоской структуры
👉 уровни согласуют энергию между собой
🧩 Важно почеркнуть
Модель показывает, что не обязательно использовать классический attention
Можно:
• отказаться от голов
• отказаться от pairwise сравнения
• перейти к энергетической интерпретации
⚠️ Ограничения
Есть и недостатки, приходится хранить всю иерархию на каждом уровне — это избыточно.
Но теория подсказывает решение — переход к динамическим моделям (как SSM) где состояния уровней можно хранить компактно.
🔥 Почему это важно
Главный результат не в качестве (обучение было только 1 день):
❗️ мы показали, что новая парадигма вообще обучается
Вероятность того, что:
• архитектура сильно отличается от известных
• при этом случайно работает
• и при этом согласуется с теорией
👉 крайне мала
📌 Итог
✔️ теория → реализуема
✔️ теория → обучается
✔️ теория → даёт структуру
➡️ Что дальше
• анализ интерпретации
• сравнение с предсказаниями теории
• переход к более эффективным архитектурам
📎 Почему я выложил код
• это практическое подтверждение теорем
• потеря интереса к статическим моделям (вроде трансформеров)
• статика ограничивает теорию — реализует только её часть
• в контексте новой работы по спайковым нейронам на базе теории — трансформеры, и статика в целом, остаются скорее академическим инструментом
💻 Исходный код
(все версии: от QKV до текущей с аппроксимацией функций)
https://disk.yandex.ru/d/eJg7Nc__qIeQ9A
👉 в своих проектах достаточно заменить Attention на HierarchicalMHA
👉 параметр beta можно не передавать
📐 Теоремы + объяснение через LLM
https://disk.yandex.ru/d/UNyaCbYUm-jpWw
👉 подавать последовательно:
step1 → step2 → step3 → ...
Новая модель внимания на основе ранговой теории показала очень обнадёживающие результаты уже на ранней стадии обучения.
📉 Мы снизили loss с 10–11 до 6.4 — и это уже даёт заметное качество генерации.
🔍 Примеры (β = 0.2)
Prompt: Коты это
Генерация: Коты это женщ. Владимир (193) — авта
Prompt: Коты это животные, которые
Генерация: Коты это животные, которые Западной области
Да, текст ещё сырой — но:
👉 модель уже улавливает структуру языка
👉 начинает корректно использовать скобки (193)
👉 умеет завершать последовательность (EOS)
Это нетривиальные признаки того, что модель не просто шумит, а учится структуре.
🧠 Главное: это НЕ трансформер и НЕ SSM
Архитектура:
• не использует классические attention-heads
• не использует SSM
• не опирается на прямое попарное сравнение (PPMI)
Вместо этого:
👉 всё построено через энергетическую модель (energy-based)
👉 и полностью основано на ранговой теории и теоремах
📐 Почему это важно
Самое главное — модель обучается.
Это критично, потому что:
если бы реализация на основе теорем давала хаос —
это означало бы ошибку в теории или её интерпретации
Но мы видим обратное:
✔️ модель обучается
✔️ улавливает зависимости
✔️ строит структуру
👉 Значит, теория работает на практике
🔬 Интерпретируемость — ключевое преимущество
В отличие от трансформеров:
• веса интерпретируемы
• поведение можно сопоставить с теоремами
• можно анализировать обучение математически
Это делает архитектуру кандидатом на полностью интерпретируемые нейронные модели
⚙️ Что внутри (важные отличия)
1. Нет attention-голов
👉 вместо них — динамические ядра
2. Нет явного PPMI
👉 связи моделируются через энергию и локальные максимумы
3. Нет прямой работы с embedding
👉 embeddings преобразуются в энергетическое пространство g(x)
4. Иерархия вместо плоской структуры
👉 уровни согласуют энергию между собой
🧩 Важно почеркнуть
Модель показывает, что не обязательно использовать классический attention
Можно:
• отказаться от голов
• отказаться от pairwise сравнения
• перейти к энергетической интерпретации
⚠️ Ограничения
Есть и недостатки, приходится хранить всю иерархию на каждом уровне — это избыточно.
Но теория подсказывает решение — переход к динамическим моделям (как SSM) где состояния уровней можно хранить компактно.
🔥 Почему это важно
Главный результат не в качестве (обучение было только 1 день):
❗️ мы показали, что новая парадигма вообще обучается
Вероятность того, что:
• архитектура сильно отличается от известных
• при этом случайно работает
• и при этом согласуется с теорией
👉 крайне мала
📌 Итог
✔️ теория → реализуема
✔️ теория → обучается
✔️ теория → даёт структуру
➡️ Что дальше
• анализ интерпретации
• сравнение с предсказаниями теории
• переход к более эффективным архитектурам
Мы показали, что можно строить нейросети не из эвристик, а напрямую из теорем — и это работает.
📎 Почему я выложил код
• это практическое подтверждение теорем
• потеря интереса к статическим моделям (вроде трансформеров)
• статика ограничивает теорию — реализует только её часть
• в контексте новой работы по спайковым нейронам на базе теории — трансформеры, и статика в целом, остаются скорее академическим инструментом
💻 Исходный код
(все версии: от QKV до текущей с аппроксимацией функций)
https://disk.yandex.ru/d/eJg7Nc__qIeQ9A
👉 в своих проектах достаточно заменить Attention на HierarchicalMHA
👉 параметр beta можно не передавать
📐 Теоремы + объяснение через LLM
https://disk.yandex.ru/d/UNyaCbYUm-jpWw
👉 подавать последовательно:
step1 → step2 → step3 → ...
Это не просто реализация — это попытка собрать модель напрямую из теории.
🔥12👍1