Удалось обнаружить, что асимметрия сигнала лежит в основе иерархической структуры обработки информации в нейронных системах: от отдельного нейрона до крупных ассоциативных зон мозга. Каждому уровню соответствует своя степень асимметрии, и когда она становится неразличимой от шума, система переходит на следующий уровень абстракции — от букв к словам, от слов к синтагмам и далее. Эта иерархия формирует хаотичный, но ограниченный биологическими пределами фрактал признаков, в котором каждый уровень асимметрии выделяется специализированным блоком — аналогом слоя трансформера. Такая структура задаёт естественную инициализацию нейронной сети: каждый слой должен быть настроен на распознавание паттернов с определённой степенью асимметрии, что формирует базу для обучения и адаптации модели в условиях реального шума.
Это должно многократно повысить скорость обучения за счет того. что мы заранее инициализируем каждый блок на обобщенный признак. Обучение лишь детализирует его.
Сейчас тестирую обобщение признаков LLM.
Это должно многократно повысить скорость обучения за счет того. что мы заранее инициализируем каждый блок на обобщенный признак. Обучение лишь детализирует его.
Сейчас тестирую обобщение признаков LLM.
👍2
Сейчас отлаживается блочная архитектура.
В посте описана ее основа. В прежних версиях была отработана 6-и слойная модель и разные решения у слоев.
Сейчас это - модель автомата асимметрии. Она не привязана к биологии, но она идеально описывает биологию нейронов.
Гистерезис - привел к пониманию асимметрии.
Шестислойная модель (не только она) - разработке конечного автомата.
Асимметрия сигнала - к созданию иерархии вложенных автоматов.
Текущая архитектура позволяет сократить размер глобального контекста до нескольких сотен токенов, вместо десятков тысяч в современных LLM.
Асимметрия признаков - позволяет выделить самые сильные асимметрии и инициализировать веса. Обучение детализирует их для моделей любого размера и архитектуры.
Новый метод обучения, позволяет ускорить и распараллелить обучение блоков.
Далее, разберём как на основе асимметрии из звуков получаются фонемы, буквы, слова, предложения. Почему их кол-во ограничено. Почему происходит переход от букв к словам. Затем перейдем к саморефлексии.
В посте описана ее основа. В прежних версиях была отработана 6-и слойная модель и разные решения у слоев.
Сейчас это - модель автомата асимметрии. Она не привязана к биологии, но она идеально описывает биологию нейронов.
Гистерезис - привел к пониманию асимметрии.
Шестислойная модель (не только она) - разработке конечного автомата.
Асимметрия сигнала - к созданию иерархии вложенных автоматов.
Текущая архитектура позволяет сократить размер глобального контекста до нескольких сотен токенов, вместо десятков тысяч в современных LLM.
Асимметрия признаков - позволяет выделить самые сильные асимметрии и инициализировать веса. Обучение детализирует их для моделей любого размера и архитектуры.
Новый метод обучения, позволяет ускорить и распараллелить обучение блоков.
Далее, разберём как на основе асимметрии из звуков получаются фонемы, буквы, слова, предложения. Почему их кол-во ограничено. Почему происходит переход от букв к словам. Затем перейдем к саморефлексии.
🔥2
В архитектуре нейросетей особенно важно сохранять стабильность сигнала и направленность градиентов при обучении. Модель Scale In → Function → Scale Out → Residual обеспечивает предсказуемый и сбалансированный поток информации на каждом этапе. Scale In (нормализация и активация) подготавливает вход, приводя его к единому масштабу, Function (Conv, FFN, Attention и т.д.) извлекает признаки, а Scale Out возвращает выход к нейтральному масштабу перед сложением с residual-сигналом. Это устраняет дисбаланс между путями и ускоряет сходимость loss.
По сравнению с классическими схемами (например, Norm → Function → Residual или Function → Norm + Residual), этот подход показывает более устойчивое поведение в глубинных сетях и улучшает обучение без дополнительных костылей.
Рекомендуется использовать эту схему в качестве базового строительного блока и заменить ею существующие Residual-блоки с частичной нормализацией. Это простой и универсальный способ сделать архитектуры глубже, стабильнее и обучаемыми быстрее.
По сравнению с классическими схемами (например, Norm → Function → Residual или Function → Norm + Residual), этот подход показывает более устойчивое поведение в глубинных сетях и улучшает обучение без дополнительных костылей.
Рекомендуется использовать эту схему в качестве базового строительного блока и заменить ею существующие Residual-блоки с частичной нормализацией. Это простой и универсальный способ сделать архитектуры глубже, стабильнее и обучаемыми быстрее.
🔥3
После того как подход Scale-In → Поиск Асимметрии → Scale-Out показал отличные результаты, а его простая и наглядная интерпретация оказалась мощной концептуальной основой, возник естественный вопрос: какой вообще должна быть функция активации? Насколько существующие функции действительно решают задачу выделения асимметрий?
В качестве базовой идеи был взят закон Ципфа. На это повлияли два наблюдения:
Градиенты в речи (как формы асимметрий) указывают на логарифмически-подобное и частотно обусловленное распределение по уровням;
Моделирование кругового разделения асимметрий также приводит к приближённому частотному распределению.
Поэтому обратимся к эмпирическому закону Ципфа, чтобы на его основе построить новую функцию активации. Это привело к логарифмической форме:
где N — это не просто масштабный параметр, а биологически и архитектурно значимая величина, отражающая максимально различимое множество сигналов на конкретном уровне обработки — от звуков и букв до смысловых блоков.
В качестве базовой идеи был взят закон Ципфа. На это повлияли два наблюдения:
Градиенты в речи (как формы асимметрий) указывают на логарифмически-подобное и частотно обусловленное распределение по уровням;
Моделирование кругового разделения асимметрий также приводит к приближённому частотному распределению.
Поэтому обратимся к эмпирическому закону Ципфа, чтобы на его основе построить новую функцию активации. Это привело к логарифмической форме:
log(x) / log(N),
где N — это не просто масштабный параметр, а биологически и архитектурно значимая величина, отражающая максимально различимое множество сигналов на конкретном уровне обработки — от звуков и букв до смысловых блоков.