Forwarded from НИИ Антропогенеза (ARI)
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh
Ревью: https://arxiviq.substack.com/p/the-dragon-hatchling
Что сделано?
В статье представлена "Dragon Hatchling" (BDH) — новая архитектура LLM, разработанная как "недостающее звено" между тензорными трансформерами и распределёнными графовыми моделями мозга
Динамика BDH определяется не матричными операциями, а локальным, биологически правдоподобным "ядром перевзвешивания рёбер", которое сочетает в себе вывод в стиле modus ponens и обучение по Хеббу
Её GPU-дружественный вариант, BDH-GPU, является моделью в пространстве состояний, которая масштабируется в основном по одной, высокой нейронной размерности (n)
Она использует линейное внимание в этом большом пространстве и уникальный низкоранговый feed-forward блок с ReLU, что обеспечивает разреженность и положительность всех активаций нейронов
Почему это важно?
Эта работа предлагает конкретный архитектурный путь к "Аксиоматическому Ml" — моделям, чьё поведение более предсказуемо и обобщаемо, особенно для рассуждений на длинном горизонте
Достигая производительности, сравнимой с архитектурой GPT-2, BDH-GPU естественным образом демонстрирует крайне желательные свойства, часто отсутствующие в стандартных трансформерах:
1. Эмерджентная структура: Её параметры спонтанно развивают модульные, безмасштабные сетевые структуры, подобные эффективным биологическим системам
2. Внутренняя интерпретируемость: Состояние модели локализовано на отдельных связях нейрон-нейрон ("синапсах"), что приводит к эмпирически подтверждённым "моносемантическим синапсам", которые избирательно активируются для конкретных абстрактных понятий
3. Новый подход к инженерии: Её равномерное масштабирование делает возможными новые формы инженерии моделей, такие как прямое слияние отдельно обученных моделей путём конкатенации их параметров
Это создаёт мощную микро-основу для понимания того, как рассуждения высокого уровня могут возникать из простых, локальных взаимодействий
В поисках фундаментальной модели рассуждений
Несмотря на выдающийся успех больших языковых моделей (LLM) вроде трансформеров, у них есть ахиллесова пята: неспособность систематически обобщать рассуждения на временных масштабах и в контекстах, выходящих за рамки их обучающих данных
Этот разрыв подчёркивает фундаментальное несоответствие между нашими самыми производительными системами Ml — централизованными тензорными black-box моделями — и распределённым, безмасштабным и удивительно надёжным механизмом рассуждений, которым является человеческий мозг
Статья "The Dragon Hatchling" решает эту проблему в лоб, предлагая новую архитектуру, которая служит фундаментальным мостом между этими двумя мирами
Авторы выходят за рамки попыток «прикрутить» интерпретируемость к моделям уже после их создания (post-hoc) и вместо этого проектируют систему с нуля, задаваясь вопросом: что, если бы ключевые механизмы трансформера можно было вывести из локальной динамики системы взаимодействующих частиц, вдохновлённой мозгом?
В результате получилась модель, которая не только производительна, но и по своей сути интерпретируема и структурно согласована с природными системами — шаг к тому, что авторы называют "Аксиоматическим Ml"
Значимость этого подхода заключается в установлении чёткого соответствия между микро- и макроуровнями
Если крупномасштабное поведение модели можно надёжно предсказать на основе её простых, локальных правил — подобно тому, как принципы термодинамики предсказывают поведение газа на основе взаимодействий отдельных молекул, — то её производительность на невиданных, долгосрочных задачах становится более прозрачной и менее подверженной непредсказуемым сбоям
Архитектура BDH: Рассуждения как локальная динамика графа
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh
Ревью: https://arxiviq.substack.com/p/the-dragon-hatchling
Что сделано?
В статье представлена "Dragon Hatchling" (BDH) — новая архитектура LLM, разработанная как "недостающее звено" между тензорными трансформерами и распределёнными графовыми моделями мозга
Динамика BDH определяется не матричными операциями, а локальным, биологически правдоподобным "ядром перевзвешивания рёбер", которое сочетает в себе вывод в стиле modus ponens и обучение по Хеббу
Её GPU-дружественный вариант, BDH-GPU, является моделью в пространстве состояний, которая масштабируется в основном по одной, высокой нейронной размерности (n)
Она использует линейное внимание в этом большом пространстве и уникальный низкоранговый feed-forward блок с ReLU, что обеспечивает разреженность и положительность всех активаций нейронов
Почему это важно?
Эта работа предлагает конкретный архитектурный путь к "Аксиоматическому Ml" — моделям, чьё поведение более предсказуемо и обобщаемо, особенно для рассуждений на длинном горизонте
Достигая производительности, сравнимой с архитектурой GPT-2, BDH-GPU естественным образом демонстрирует крайне желательные свойства, часто отсутствующие в стандартных трансформерах:
1. Эмерджентная структура: Её параметры спонтанно развивают модульные, безмасштабные сетевые структуры, подобные эффективным биологическим системам
2. Внутренняя интерпретируемость: Состояние модели локализовано на отдельных связях нейрон-нейрон ("синапсах"), что приводит к эмпирически подтверждённым "моносемантическим синапсам", которые избирательно активируются для конкретных абстрактных понятий
3. Новый подход к инженерии: Её равномерное масштабирование делает возможными новые формы инженерии моделей, такие как прямое слияние отдельно обученных моделей путём конкатенации их параметров
Это создаёт мощную микро-основу для понимания того, как рассуждения высокого уровня могут возникать из простых, локальных взаимодействий
В поисках фундаментальной модели рассуждений
Несмотря на выдающийся успех больших языковых моделей (LLM) вроде трансформеров, у них есть ахиллесова пята: неспособность систематически обобщать рассуждения на временных масштабах и в контекстах, выходящих за рамки их обучающих данных
Этот разрыв подчёркивает фундаментальное несоответствие между нашими самыми производительными системами Ml — централизованными тензорными black-box моделями — и распределённым, безмасштабным и удивительно надёжным механизмом рассуждений, которым является человеческий мозг
Статья "The Dragon Hatchling" решает эту проблему в лоб, предлагая новую архитектуру, которая служит фундаментальным мостом между этими двумя мирами
Авторы выходят за рамки попыток «прикрутить» интерпретируемость к моделям уже после их создания (post-hoc) и вместо этого проектируют систему с нуля, задаваясь вопросом: что, если бы ключевые механизмы трансформера можно было вывести из локальной динамики системы взаимодействующих частиц, вдохновлённой мозгом?
В результате получилась модель, которая не только производительна, но и по своей сути интерпретируема и структурно согласована с природными системами — шаг к тому, что авторы называют "Аксиоматическим Ml"
Значимость этого подхода заключается в установлении чёткого соответствия между микро- и макроуровнями
Если крупномасштабное поведение модели можно надёжно предсказать на основе её простых, локальных правил — подобно тому, как принципы термодинамики предсказывают поведение газа на основе взаимодействий отдельных молекул, — то её производительность на невиданных, долгосрочных задачах становится более прозрачной и менее подверженной непредсказуемым сбоям
Архитектура BDH: Рассуждения как локальная динамика графа
arXiv.org
The Dragon Hatchling: The Missing Link between the Transformer and...
The relationship between computing systems and the brain has served as motivation for pioneering theoreticians since John von Neumann and Alan Turing. Uniform, scale-free biological networks, such...