Тест новой функции активации с параметром N
Я заменил все стандартные функции активации на новую, зависящую от параметра N, который обучается отдельно для каждой головы.
Модель: dim = 80, 20 голов, 3 блока.
Что сделано:
Заменены все функции активации на log(x) / log(N) + CDF
Опробованы разные значения N: от 10 до 200
Сравнение поведение с функциями ReLU, SiLU, Gelu, Tanh, Sigmoid
Наблюдения:
Новая функция:
Быстрый спад Loss на ранних шагах (особенно при малом N), но с колебаниями — вероятно, модель сразу входит в «рабочую зону», и дальше идёт тонкая настройка.
Обучение N идёт медленно (например, за 1000 шагов с 100 до 99), что указывает на необходимость более длительного обучения при больших N.
Вывод:
Новая функция:
Работает лучше всех стандартных, кроме sigmoid, которая близка по форме.
Более гибкая — может адаптироваться к данным через N, тогда как sigmoid — фиксированная.
Требует больше времени на обучение, особенно при больших N.
Loss почти не отличается между train/test, что говорит о хорошей обобщающей способности.
Я заменил все стандартные функции активации на новую, зависящую от параметра N, который обучается отдельно для каждой головы.
Модель: dim = 80, 20 голов, 3 блока.
Что сделано:
Заменены все функции активации на log(x) / log(N) + CDF
Опробованы разные значения N: от 10 до 200
Сравнение поведение с функциями ReLU, SiLU, Gelu, Tanh, Sigmoid
Наблюдения:
Стандартные функции передают диапазон хуже. Особенно tanh и ReLU — диапазон "уплывает" (например, [-1.5, 2.5] → [-4, 4]). Sigmoid — исключение, он сохраняет диапазон и детали лучше остальных.
Новая функция:
При N=10–50 сохраняет диапазон точно.
При N ≥ 80 диапазон начинает смещаться, но качество не сильно падает.
При N=100–200 Loss уменьшается плавнее, но более стабильно.
Быстрый спад Loss на ранних шагах (особенно при малом N), но с колебаниями — вероятно, модель сразу входит в «рабочую зону», и дальше идёт тонкая настройка.
Обучение N идёт медленно (например, за 1000 шагов с 100 до 99), что указывает на необходимость более длительного обучения при больших N.
Вывод:
Новая функция:
Работает лучше всех стандартных, кроме sigmoid, которая близка по форме.
Более гибкая — может адаптироваться к данным через N, тогда как sigmoid — фиксированная.
Требует больше времени на обучение, особенно при больших N.
Loss почти не отличается между train/test, что говорит о хорошей обобщающей способности.
Можно ли сделать нейросеть более "биологической" не только по архитектуре, но и по способу обработки сигналов?
Ключевые законы природы:
Закон Ципфа : частота слова ∝1/r
Закон Вебера–Фехнера : восприятие ∝log(сила сигнала)
Это говорит нам о том, что:
Биологическая система экономит ресурсы, усиливая редкие, но значимые признаки , и игнорируя шум.
Математика:
Используем метод Лагранжа, чтобы найти распределение вероятностей, минимизирующее затраты на обработку признаков.
Это значит, что мы можем использовать полученную формулу как обучаемую функцию активации , которая:
Почему это важно?
Биологические системы:
Не запоминают всё подряд.
Фокусируются на асимметриях , которые несут информацию.
Имеют ограниченное число нейронов → ограничено число выделяемых признаков.
А мы:
Создали модель, где каждый слой сам настраивает свою чувствительность.
Обучили её находить оптимальное число различимых признаков N.
Заставили учиться на асимметрии, а не на всех данных сразу.
Мы сделали шаг к модели, которая не просто обрабатывает данные ,
но экономит ресурсы и фокусируется на наиболее информативных признаках , как это делает биология.
Ключевые законы природы:
Закон Ципфа : частота слова ∝1/r
Закон Вебера–Фехнера : восприятие ∝log(сила сигнала)
Это говорит нам о том, что:
Биологическая система экономит ресурсы, усиливая редкие, но значимые признаки , и игнорируя шум.
Математика:
Используем метод Лагранжа, чтобы найти распределение вероятностей, минимизирующее затраты на обработку признаков.
Это значит, что мы можем использовать полученную формулу как обучаемую функцию активации , которая:
Усиливает редкие признаки .
Игнорирует сильные/шумовые сигналы .
Адаптируется к данным через обучаемые параметры N и β
Почему это важно?
Биологические системы:
Не запоминают всё подряд.
Фокусируются на асимметриях , которые несут информацию.
Имеют ограниченное число нейронов → ограничено число выделяемых признаков.
А мы:
Создали модель, где каждый слой сам настраивает свою чувствительность.
Обучили её находить оптимальное число различимых признаков N.
Заставили учиться на асимметрии, а не на всех данных сразу.
Мы сделали шаг к модели, которая не просто обрабатывает данные ,
но экономит ресурсы и фокусируется на наиболее информативных признаках , как это делает биология.
Есть ли разница в использовании softmax в трансформерах/классификации и в нашей формуле?
Да, есть, и разница огромная:
Трансформеры - Выбор наиболее вероятного слова/признака (attention weights). Сфокусироваться на важных частях входа.
Классификация - Получение распределения классов. Выбрать наиболее вероятный класс.
Новая модель - Нормировка Zipf-подобного распределения. Усиление редких признаков через вариационный принцип
Почему это важно:
В трансформерах: softmax(QK) усиливает взаимодействие между признаками .
В классификации: softmax(logits) — просто нормировка , чтобы получить вероятности.
В нашей модели: softmax(-x / β) — это обучаемый механизм восприятия , где:
Малые x → большие веса,
Большие x → маленькие веса,
Это аналог внимания к редким стимулам, как в биологии.
Поэтому наша активация — не просто нормализация, а механизм моделирования асимметрии сигнала.
Есть ли разница в интерпретации softmax?
Да, есть, и она фундаментальная:
* Трансформерах/Классификаторах - Т/К
* Новая модель через Лагранжа - Л
Математическая роль:
Т/К: Просто нормировка.
Л: Отражает вариационный принцип
Физический смысл:
Т/К: "Какой токен важнее?"
Л: "Какой признак более значим при ограниченной системе?"
Порог чувствительности:
Т/К: Нет
Л: Да, через β
Асимметрия сигнала:
Т/К: Не учитывается напрямую
Л: Явно моделируется
Динамика:
Т/К: Зависит от всех признаков одинаково
Л: Подавляет сильные сигналы, усиливает слабые
Главная идея — новая парадигма :
Softmax может быть не только инструментом выбора, но и механизмом экономии ресурсов, где редкие признаки становятся главными .
Что мы поняли нового через вывод через Лагранж?
Раньше люди считали:
Softmax — это просто способ сделать из логитов вероятности.
Асимметрия — эмпирический эффект, который можно наблюдать, но сложно контролировать.
NLP модели "видят" Zipf-распределение, но это не формализуется в архитектуре.
Теперь мы понимаем:
Закон Ципфа можно вывести из оптимизации с ограничениями :
Чем больше ранг → тем меньше вероятность.
Это следствие минимизации затрат + максимизация информации.
Softmax — это не просто функция, а следствие вариационного принципа :
Он появляется естественным образом, когда система стремится к равновесию с минимальными затратами.
Это соответствует тому, как работает биологическая система: экономия энергии, селективность, адаптация к данным.
β — это параметр чувствительности системы :
При малых значениях β: система фокусируется только на самых слабых сигналах.
При больших β: система становится менее селективной.
Это первое использование β как обучаемого порога чувствительности в активации.
N — это не просто размер словаря или число классов, а разрешающая способность слоя :
Каждый слой имеет свою "разрешающую силу".
Это позволяет модели не запоминать всё подряд , а выбирать только то, что она может обработать .
Да, есть, и разница огромная:
Трансформеры - Выбор наиболее вероятного слова/признака (attention weights). Сфокусироваться на важных частях входа.
Классификация - Получение распределения классов. Выбрать наиболее вероятный класс.
Новая модель - Нормировка Zipf-подобного распределения. Усиление редких признаков через вариационный принцип
Почему это важно:
В трансформерах: softmax(QK) усиливает взаимодействие между признаками .
В классификации: softmax(logits) — просто нормировка , чтобы получить вероятности.
В нашей модели: softmax(-x / β) — это обучаемый механизм восприятия , где:
Малые x → большие веса,
Большие x → маленькие веса,
Это аналог внимания к редким стимулам, как в биологии.
Поэтому наша активация — не просто нормализация, а механизм моделирования асимметрии сигнала.
Есть ли разница в интерпретации softmax?
Да, есть, и она фундаментальная:
* Трансформерах/Классификаторах - Т/К
* Новая модель через Лагранжа - Л
Математическая роль:
Т/К: Просто нормировка.
Л: Отражает вариационный принцип
Физический смысл:
Т/К: "Какой токен важнее?"
Л: "Какой признак более значим при ограниченной системе?"
Порог чувствительности:
Т/К: Нет
Л: Да, через β
Асимметрия сигнала:
Т/К: Не учитывается напрямую
Л: Явно моделируется
Динамика:
Т/К: Зависит от всех признаков одинаково
Л: Подавляет сильные сигналы, усиливает слабые
Главная идея — новая парадигма :
Softmax может быть не только инструментом выбора, но и механизмом экономии ресурсов, где редкие признаки становятся главными .
Что мы поняли нового через вывод через Лагранж?
Раньше люди считали:
Softmax — это просто способ сделать из логитов вероятности.
Асимметрия — эмпирический эффект, который можно наблюдать, но сложно контролировать.
NLP модели "видят" Zipf-распределение, но это не формализуется в архитектуре.
Теперь мы понимаем:
Закон Ципфа можно вывести из оптимизации с ограничениями :
Чем больше ранг → тем меньше вероятность.
Это следствие минимизации затрат + максимизация информации.
Softmax — это не просто функция, а следствие вариационного принципа :
Он появляется естественным образом, когда система стремится к равновесию с минимальными затратами.
Это соответствует тому, как работает биологическая система: экономия энергии, селективность, адаптация к данным.
β — это параметр чувствительности системы :
При малых значениях β: система фокусируется только на самых слабых сигналах.
При больших β: система становится менее селективной.
Это первое использование β как обучаемого порога чувствительности в активации.
N — это не просто размер словаря или число классов, а разрешающая способность слоя :
Каждый слой имеет свою "разрешающую силу".
Это позволяет модели не запоминать всё подряд , а выбирать только то, что она может обработать .