iFlexible
812 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Удалось обнаружить, что асимметрия сигнала лежит в основе иерархической структуры обработки информации в нейронных системах: от отдельного нейрона до крупных ассоциативных зон мозга. Каждому уровню соответствует своя степень асимметрии, и когда она становится неразличимой от шума, система переходит на следующий уровень абстракции — от букв к словам, от слов к синтагмам и далее. Эта иерархия формирует хаотичный, но ограниченный биологическими пределами фрактал признаков, в котором каждый уровень асимметрии выделяется специализированным блоком — аналогом слоя трансформера. Такая структура задаёт естественную инициализацию нейронной сети: каждый слой должен быть настроен на распознавание паттернов с определённой степенью асимметрии, что формирует базу для обучения и адаптации модели в условиях реального шума.

Это должно многократно повысить скорость обучения за счет того. что мы заранее инициализируем каждый блок на обобщенный признак. Обучение лишь детализирует его.

Сейчас тестирую обобщение признаков LLM.
👍2
Сейчас отлаживается блочная архитектура.

В посте описана ее основа. В прежних версиях была отработана 6-и слойная модель и разные решения у слоев.
Сейчас это - модель автомата асимметрии. Она не привязана к биологии, но она идеально описывает биологию нейронов.

Гистерезис - привел к пониманию асимметрии.

Шестислойная модель (не только она) - разработке конечного автомата.

Асимметрия сигнала - к созданию иерархии вложенных автоматов.

Текущая архитектура позволяет сократить размер глобального контекста до нескольких сотен токенов, вместо десятков тысяч в современных LLM.

Асимметрия признаков - позволяет выделить самые сильные асимметрии и инициализировать веса. Обучение детализирует их для моделей любого размера и архитектуры.

Новый метод обучения, позволяет ускорить и распараллелить обучение блоков.

Далее, разберём как на основе асимметрии из звуков получаются фонемы, буквы, слова, предложения. Почему их кол-во ограничено. Почему происходит переход от букв к словам. Затем перейдем к саморефлексии.
🔥2
В архитектуре нейросетей особенно важно сохранять стабильность сигнала и направленность градиентов при обучении. Модель Scale In → Function → Scale Out → Residual обеспечивает предсказуемый и сбалансированный поток информации на каждом этапе. Scale In (нормализация и активация) подготавливает вход, приводя его к единому масштабу, Function (Conv, FFN, Attention и т.д.) извлекает признаки, а Scale Out возвращает выход к нейтральному масштабу перед сложением с residual-сигналом. Это устраняет дисбаланс между путями и ускоряет сходимость loss.

По сравнению с классическими схемами (например, Norm → Function → Residual или Function → Norm + Residual), этот подход показывает более устойчивое поведение в глубинных сетях и улучшает обучение без дополнительных костылей.

Рекомендуется использовать эту схему в качестве базового строительного блока и заменить ею существующие Residual-блоки с частичной нормализацией. Это простой и универсальный способ сделать архитектуры глубже, стабильнее и обучаемыми быстрее.
🔥3