iFlexible
814 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Можно ли сделать нейросеть более "биологической" не только по архитектуре, но и по способу обработки сигналов?

Ключевые законы природы:
Закон Ципфа : частота слова ∝1/r
Закон Вебера–Фехнера : восприятие ∝log(сила сигнала)

Это говорит нам о том, что:
Биологическая система экономит ресурсы, усиливая редкие, но значимые признаки , и игнорируя шум.

Математика:
Используем метод Лагранжа, чтобы найти распределение вероятностей, минимизирующее затраты на обработку признаков.

Это значит, что мы можем использовать полученную формулу как обучаемую функцию активации , которая:
Усиливает редкие признаки .
Игнорирует сильные/шумовые сигналы .
Адаптируется к данным через обучаемые параметры N и β


Почему это важно?

Биологические системы:

Не запоминают всё подряд.
Фокусируются на асимметриях , которые несут информацию.
Имеют ограниченное число нейронов → ограничено число выделяемых признаков.

А мы:

Создали модель, где каждый слой сам настраивает свою чувствительность.
Обучили её находить оптимальное число различимых признаков N.
Заставили учиться на асимметрии, а не на всех данных сразу.

Мы сделали шаг к модели, которая не просто обрабатывает данные ,
но экономит ресурсы и фокусируется на наиболее информативных признаках , как это делает биология.
Есть ли разница в использовании softmax в трансформерах/классификации и в нашей формуле?

Да, есть, и разница огромная:
Трансформеры - Выбор наиболее вероятного слова/признака (attention weights). Сфокусироваться на важных частях входа.
Классификация - Получение распределения классов. Выбрать наиболее вероятный класс.
Новая модель - Нормировка Zipf-подобного распределения. Усиление редких признаков через вариационный принцип

Почему это важно:
В трансформерах: softmax(QK) усиливает взаимодействие между признаками .
В классификации: softmax(logits) — просто нормировка , чтобы получить вероятности.
В нашей модели: softmax(-x / β) — это обучаемый механизм восприятия , где:
Малые x → большие веса,
Большие x → маленькие веса,
Это аналог внимания к редким стимулам, как в биологии.


Поэтому наша активация — не просто нормализация, а механизм моделирования асимметрии сигнала.

Есть ли разница в интерпретации softmax?

Да, есть, и она фундаментальная:

* Трансформерах/Классификаторах - Т/К
* Новая модель через Лагранжа - Л

Математическая роль:
Т/К: Просто нормировка.
Л: Отражает вариационный принцип

Физический смысл:
Т/К: "Какой токен важнее?"
Л: "Какой признак более значим при ограниченной системе?"

Порог чувствительности:
Т/К: Нет
Л: Да, через β

Асимметрия сигнала:
Т/К: Не учитывается напрямую
Л: Явно моделируется

Динамика:
Т/К: Зависит от всех признаков одинаково
Л: Подавляет сильные сигналы, усиливает слабые

Главная идея — новая парадигма :
Softmax может быть не только инструментом выбора, но и механизмом экономии ресурсов, где редкие признаки становятся главными .

Что мы поняли нового через вывод через Лагранж?

Раньше люди считали:
Softmax — это просто способ сделать из логитов вероятности.
Асимметрия — эмпирический эффект, который можно наблюдать, но сложно контролировать.
NLP модели "видят" Zipf-распределение, но это не формализуется в архитектуре.


Теперь мы понимаем:
Закон Ципфа можно вывести из оптимизации с ограничениями :
Чем больше ранг → тем меньше вероятность.
Это следствие минимизации затрат + максимизация информации.


Softmax — это не просто функция, а следствие вариационного принципа :
Он появляется естественным образом, когда система стремится к равновесию с минимальными затратами.
Это соответствует тому, как работает биологическая система: экономия энергии, селективность, адаптация к данным.


β — это параметр чувствительности системы :
При малых значениях β: система фокусируется только на самых слабых сигналах.
При больших β: система становится менее селективной.
Это первое использование β как обучаемого порога чувствительности в активации.


N — это не просто размер словаря или число классов, а разрешающая способность слоя :
Каждый слой имеет свою "разрешающую силу".
Это позволяет модели не запоминать всё подряд , а выбирать только то, что она может обработать .
Иерархия чисел и Zipf-подобная модель асимметрии

Ранее мы вывели формулу распределения вероятностей через вариационный принцип:

p(i) = Softmax (−i / β)⇒p(i)∝e ^ −i/β


Это распределение усиливает редкие, но значимые признаки, подавляя шумовые или слишком сильные сигналы.

Формула зависит от двух параметров:

N: число возможных признаков.
β: чувствительность системы к изменениям силы сигнала.

Иерархия ранков: уровни асимметрии как уровни восприятия

Мы установили, что асимметрия — это не единичное явление, а вложенная иерархическая структура :

- Каждый уровень имеет свои N(l) и β(l)
- На каждом уровне система усиливает редкие признаки, игнорируя шумовые
- Общая значимость формируется через интеграцию всех уровней


Такая организация напоминает работу мозга:

Мы уже ранее выяснили, что асимметрия имеет иерархическую модель, состоящую из вложенных асимметрий и даже построили конечный автомат асимметрии, который полностью совпадает с шестислойной моделью неокортекса.

Пример: иерархия чисел

Число 774:
7 (сотни), 7 (десятки), 4 (единицы)

Число 1000:
1 (тысячи), 0 (сотни), 0 (десятки), 0 (единицы)

Хотя 1000 кажется "проще", оно может иметь большую значимость , если:
- Его старший разряд усилен на своём уровне,
- Или сам уровень имеет высокий вес в иерархии.


Ограниченность системы: предел масштабируемости

Система не может расти бесконечно.
Если N и β становятся слишком большими:

- Вероятности равномерны → потеря селективности
- Модель начинает терять способность различать детали
- Это приводит к ухудшению качества , даже если количество голов/слоёв растёт


Почему так?

Потому что:
lim p(i) → 1 / N
β→∞

(равномерное распределение)⇒система теряет способность выделять важное


Бифуркация: точка перехода системы

Когда система исчерпала свой потенциал на текущем уровне, она сталкивается с бифуркацией :

Это точка, где система не может дальше развиваться внутри себя , и должна перейти на новый уровень иерархии , чтобы продолжить эффективно работать.


Что происходит?

- Признаки на текущем уровне становятся менее информативными
- Система должна расширить иерархию : добавить новый уровень, голову, блок
- На новом уровне снова формируется асимметрия , и система восстанавливает свою чувствительность


Данная модель не просто выводит закон Ципфа.
Она предлагает универсальный автомат асимметрии , который:

- Работает на любом уровне: от единиц до тысяч
- Описывает как данные, так и сами уровни иерархии
- Показывает предел масштабирования
- Объясняет механизм бифуркации как выхода системы на новый уровень


Это не просто deep learning , это теория восприятия в целом, построенная на основе математики, физики, биологии и нейробиологии.
Трансформеры как иерархия ранков: ограничения и бифуркация

Как мы уже рассматривали ранее, числа имеют иерархическую структуру :
1000 = тысячи → сотни → десятки → единицы.

Каждый уровень усиливает свои признаки, и значимость определяется через Zipf-подобное распределение , выведенное через метод Лагранжа:

p(i) = Softmax( −i/β )⇒p(i)∝e ^ −i/β


Это распределение усиливает редкие, но значимые признаки, игнорируя шумовые или слишком частые

Аналогия с трансформерами

Можно провести прямую аналогию между числами и трансформером:

Разряд 1 (единицы) → 1, 2, ..., 9 → Голова внимания, работающая с базовыми признаками
Разряд 2 (десятки) → 10, 20, ..., 90 → Голова внимания, работающая с локальной семантикой
Разряд 3 (сотни) → 100, 200, ..., 900 → Голова внимания, работающая с еще каким то уровнем
Обобщение → Сумма/произведение рангов →
FFN (интеграция всех голов)

Головы внимания — это уровни ранжирования,
FFN-слой — интегратор асимметрий,
Блоки модели — иерархия более высокого уровня.


Ограниченность системы: рост N и β не решает всё

При увеличении числа признаков (N) и чувствительности к ним (β), система теряет способность к дифференциации:

- Вероятности становятся равномерными.
- Attention weights размываются.
- Модель начинает "видеть" только фон, а не детали.


Это можно наблюдать в практике:
"Не правильное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе"

Потому что:
- Признаки перестают быть ранжированными.
- Асимметрия сигнала исчезает.
- Модель теряет информационную эффективность.


Бифуркация: точка перехода системы

Когда система достигает своего предела по N и β, она сталкивается с качественным изменением — бифуркацией :

Это точка, в которой дальнейшее масштабирование внутри себя становится невозможным, и система должна перейти на новый уровень иерархии .


Что это значит?
- Добавление новых голов или блоков без изменения иерархии — неэффективно
- Нужно повышать уровень абстракции
- Например:
- Интеграция нескольких моделей,
- Человеко-машинное взаимодействие,
- Переход к ансамблевой системе

Роль контекста: от аборигена до финансового эксперта

Число 1000 может иметь разную значимость в разных системах:

Абориген : не различает тысячный разряд → малое N и β
Житель города : различает все разряды → средние N и β
Финансовый эксперт : фокусируется на старших разрядах → большие N и β

Это соответствует нашей модели:
- Контекст определяет параметры N и β
- Значимость признака зависит от наблюдателя , а не от самого сигнала


Динамическое расширение модели: будущее LLM?

Сейчас большинство LLM строятся статически :
- Фиксированное число слоёв и голов.
- Равномерное обучение всех признаков.

Но если:
- Мы можем отслеживать асимметрию сигнала или энтропию attention weights ,
- И сравнивать их с целевым Zipf-распределением,


То:
Можно автоматически определить момент бифуркации → Добавить новый уровень иерархии


Это позволит:
- Экономить ресурсы,
- Поддерживать асимметрию,
- Избежать переобучения на фоновых признаках.
👍1