Хотел напомнить про конструктор AR очков для обучения. Сейчас готова новая версия с улучшенной оптикой.
Готовлю пост для трансформера. Это требует времени:
1) перенес в него часть последних улучшений
2) выделил модель в отдельный модуль, чтобы можно было применять для разных примеров
3) документирую код
Так же сейчас удалось разработать новый метод обучения, который совмещает в себя локальную и глобальную ошибку. Это не классический метод обратного распространения.
1) он может обучаться на длинных цепочках без затухания сигнала.
2) подходит для любых архитектур
3) его можно распараллелить, то есть LLM может обучать каждый блок паралельно на разных машинах (это сейчас отлаживаю).
Он уже показал результат лучше, чем у метода обратного распространения ошибки.
Так же прорабатываю новый метод рассуждающей моделей, где в основе лежат обратные петли, как в мозге.
Паралельно переписал пример, аналог MoE, где разные сетки сами являются арбитрами. Цель попробовать заполнить им аналог Википедии для оценки качества
Готовлю пост для трансформера. Это требует времени:
1) перенес в него часть последних улучшений
2) выделил модель в отдельный модуль, чтобы можно было применять для разных примеров
3) документирую код
Так же сейчас удалось разработать новый метод обучения, который совмещает в себя локальную и глобальную ошибку. Это не классический метод обратного распространения.
1) он может обучаться на длинных цепочках без затухания сигнала.
2) подходит для любых архитектур
3) его можно распараллелить, то есть LLM может обучать каждый блок паралельно на разных машинах (это сейчас отлаживаю).
Он уже показал результат лучше, чем у метода обратного распространения ошибки.
Так же прорабатываю новый метод рассуждающей моделей, где в основе лежат обратные петли, как в мозге.
Паралельно переписал пример, аналог MoE, где разные сетки сами являются арбитрами. Цель попробовать заполнить им аналог Википедии для оценки качества
🔥10
На днях сделаю обещанный пост, где будет разбор публичной версии реализации шести слойной модели.
Для нетерпеливых, вот реализация , которая будет там:
https://disk.yandex.ru/d/QqlrywSk14wXoA
На первом скриншоте, это публичная реализация. Блочная модель пока сырая. И у примеров не настроены параметры.
Затем будем разбирать:
1) модель
2) блочную архитектуру
3) флуктуации
4) гистерезис - асимметрия волны сигнала
5) реализацию саморефлексии
На 2 скриншоте не публичная модель. Я вероятно позже выложу ее. Синхронизировать изменения сложно. Там гистерезис асимметрии амплитуды, частоты и фазы. Полноценный слой 1, доработка SSM.
По ссылке выше, кроме модели есть три примера и пару шагов обучения:
- гамматон фильтры
- блочная модель
- простая ллм (блочная)
Над блочной, я ещё работаю.
В планах пост о замене обучения классическому методу обратного распространения ошибки. Где идут учёт локальной и глобальной ошибки по блокам. Он показал результат лучше классического и обучение можно распараллелить по блокам.
Для нетерпеливых, вот реализация , которая будет там:
https://disk.yandex.ru/d/QqlrywSk14wXoA
На первом скриншоте, это публичная реализация. Блочная модель пока сырая. И у примеров не настроены параметры.
Затем будем разбирать:
1) модель
2) блочную архитектуру
3) флуктуации
4) гистерезис - асимметрия волны сигнала
5) реализацию саморефлексии
На 2 скриншоте не публичная модель. Я вероятно позже выложу ее. Синхронизировать изменения сложно. Там гистерезис асимметрии амплитуды, частоты и фазы. Полноценный слой 1, доработка SSM.
По ссылке выше, кроме модели есть три примера и пару шагов обучения:
- гамматон фильтры
- блочная модель
- простая ллм (блочная)
Над блочной, я ещё работаю.
В планах пост о замене обучения классическому методу обратного распространения ошибки. Где идут учёт локальной и глобальной ошибки по блокам. Он показал результат лучше классического и обучение можно распараллелить по блокам.
🤔2
Новый механизм обучения и новая модель.
Я долго думал, и выложил полную текущую модель шестислойной области неокортекса.
Пока до гитхабе руки не доходят:
https://disk.yandex.ru/d/QqlrywSk14wXoA
gammatone_model - это шестислойная модель неокортекса. Чуть позже я перенесу ее у пакет sk_pack.
sk_pack - это пакет модулей, которые я разработал для себя в основном для работы с речью.
layered_model_versions - тут можно посмотреть. каждый шаг разработки шестислойной модели неокортекса. Все версии. Как она создавалась шаг за шагом. Где каждый шаг - это небольшое исследование, а не просто косметические исправления. На сегодня последняя версия 67.
backward - это новый метод обучения, взамен классическому методу обратного распространяя ошибки. Все шаги выложены.
Все это будет описано в ближайших постах.
Так как я выложил не урезанную версию, мне надо немного изменить пост с ее описанием, перед публикацией.
Это потребует немного времени.
А пока можно посмотреть и сопоставить с прошлыми постами.
Я долго думал, и выложил полную текущую модель шестислойной области неокортекса.
Пока до гитхабе руки не доходят:
https://disk.yandex.ru/d/QqlrywSk14wXoA
gammatone_model - это шестислойная модель неокортекса. Чуть позже я перенесу ее у пакет sk_pack.
sk_pack - это пакет модулей, которые я разработал для себя в основном для работы с речью.
layered_model_versions - тут можно посмотреть. каждый шаг разработки шестислойной модели неокортекса. Все версии. Как она создавалась шаг за шагом. Где каждый шаг - это небольшое исследование, а не просто косметические исправления. На сегодня последняя версия 67.
backward - это новый метод обучения, взамен классическому методу обратного распространяя ошибки. Все шаги выложены.
Все это будет описано в ближайших постах.
Так как я выложил не урезанную версию, мне надо немного изменить пост с ее описанием, перед публикацией.
Это потребует немного времени.
А пока можно посмотреть и сопоставить с прошлыми постами.
🔥7
Шестислойная модель неокортекса и её связь с архитектурами ИИ
В этом посте кратко описана функциональная структура шестислойной модели неокортекса и её сопоставление с архитектурами трансформеров и Mamba. Из-за ограниченного объема, основная часть материала — в документе "neocortex_layered.pdf".
📄 В документе описаны:
Функции и механизмы работы каждого слоя без углубления в биологию
Перенос этих функций на архитектуры нейросетей
Возможные варианты реализации блоков (без привязки к единственному подходу)
📌 В будущих версиях документа планируется:
Добавление биологических деталей
Расширенное описание гистерезиса, флуктуаций и роли асимметрии
Представление модели как конечного автомата
👉 Документ полезен для тех, кто интересуется связью между нейробиологией и ИИ-архитектурами, но хочет сосредоточиться на функциональной стороне
В этом посте кратко описана функциональная структура шестислойной модели неокортекса и её сопоставление с архитектурами трансформеров и Mamba. Из-за ограниченного объема, основная часть материала — в документе "neocortex_layered.pdf".
📄 В документе описаны:
Функции и механизмы работы каждого слоя без углубления в биологию
Перенос этих функций на архитектуры нейросетей
Возможные варианты реализации блоков (без привязки к единственному подходу)
📌 В будущих версиях документа планируется:
Добавление биологических деталей
Расширенное описание гистерезиса, флуктуаций и роли асимметрии
Представление модели как конечного автомата
👉 Документ полезен для тех, кто интересуется связью между нейробиологией и ИИ-архитектурами, но хочет сосредоточиться на функциональной стороне
Выше изображена архитектура модели. Мы уходим от термина шестислойной модели неокортекса. Так как она является конечным автоматом. Не могу дать ему точное определение, так как это замкнутый, вложенный, хаотический автомат. Все что он делает, это выделяет асимметрию в исходном сигнале волны по амплитуде, частоте и фазе(?).
На схеме намеренно все обозначения заменены на F(X). Что это значит?
1) вы можете заменить их на W(X). FFN(X), Свертки, SSM/Mamba и так далее. Это лишь повлияет на то, как хорошо модель будет справляться с каждой функцией.
В исходниках, вы можете увидеть разные версии, где были свертки, расширенные FFN и просто слои. В последней версии, они все заменены на доработанные SMM/Mamba.
2) Вы можете убрать некоторые функции и получить классический трансформер или Mamba (она тоже является своего рода матрешкой этой модели). Это разберем.
Позже разберем сам автомат. Тут я слегка показал, что он как матрешка реализует нейрон, слои, области и целые зоны мозга. И немного затронул саморефлексию.
На схеме намеренно все обозначения заменены на F(X). Что это значит?
1) вы можете заменить их на W(X). FFN(X), Свертки, SSM/Mamba и так далее. Это лишь повлияет на то, как хорошо модель будет справляться с каждой функцией.
В исходниках, вы можете увидеть разные версии, где были свертки, расширенные FFN и просто слои. В последней версии, они все заменены на доработанные SMM/Mamba.
2) Вы можете убрать некоторые функции и получить классический трансформер или Mamba (она тоже является своего рода матрешкой этой модели). Это разберем.
Позже разберем сам автомат. Тут я слегка показал, что он как матрешка реализует нейрон, слои, области и целые зоны мозга. И немного затронул саморефлексию.
Очень сложно упростить.
Выше архитектура последней версии.
Не смотря на запутанность, сложного ничего нет.
Predictor - это просто блок предсказания сигнала из других областей мозга (блоков) для исходного сигнала
Слой 1 - это просто иерархия, обычный хаб. Мы даже можем не использовать его, заменив на аналог Predictor. Тот же DeepMind например использует в этом месте латеральное пространство, аналог предсказания сигнала.
Слой 2/3 находит будущие связи, затем разбивает на головы (кластеры).
Разница с трансформерами в том, что:
1) мы четко разделяем кластер на последовательные и пространственные признаки, а не просто через одну матрицу
2) явно задает влияние пространственных признаков на последовательные признаки.
3) В трансформерах слой 1 - заменен на упрощенный вариант Predictor, который прогнозирует сигнал только для слоя 2/3 (B_global и B_23).
Других особенностей нет.
MambaBlock - ради SMM (улавливает временную компоненту). Его можно заменить на другие решения.
Дальше предстоит оптимизация модели.
Выше архитектура последней версии.
Не смотря на запутанность, сложного ничего нет.
Predictor - это просто блок предсказания сигнала из других областей мозга (блоков) для исходного сигнала
Слой 1 - это просто иерархия, обычный хаб. Мы даже можем не использовать его, заменив на аналог Predictor. Тот же DeepMind например использует в этом месте латеральное пространство, аналог предсказания сигнала.
Слой 2/3 находит будущие связи, затем разбивает на головы (кластеры).
Разница с трансформерами в том, что:
1) мы четко разделяем кластер на последовательные и пространственные признаки, а не просто через одну матрицу
2) явно задает влияние пространственных признаков на последовательные признаки.
3) В трансформерах слой 1 - заменен на упрощенный вариант Predictor, который прогнозирует сигнал только для слоя 2/3 (B_global и B_23).
Других особенностей нет.
MambaBlock - ради SMM (улавливает временную компоненту). Его можно заменить на другие решения.
Дальше предстоит оптимизация модели.
👍4
Чтобы немного распутать приведенную выше архитектуру.Я бы хотел, выделять несколько важных вещей:
1) она не упирается только в нейробиологию. Поэтому я специально описал ее обобщенно.
2) мозг использует одни и те же механизмы. Выше один из примеров на уровне слоев и блоков.
3) важную роль играет обратная связь. Именно она модулирует ранние блоки. Когда в позднем блоке найдена связь Маша ела яблоко, то через обратную связь будут усилены признаки на прежнем уровне маша/ела/яблоко.
Трансформеры через глобальный контекст реализуют это в неявном виде.
Глобальный контекст в трансформерах это аналог слоя 1, как если бы мы решили оценить его влияние на все признаки в каждом блоке. Он в явном виде не учитывает иерархию и является избыточным. Мы полагаемся, что он сам научиться этой иерархии и влиянию слоя 1.
Как мы видим, обратная связь идет только в обратном порядке.
Именно реализация этой обратной связи должна позволить избавиться от необходимости в гигантских контекстах и реализовать влияние на слой 5.
1) она не упирается только в нейробиологию. Поэтому я специально описал ее обобщенно.
2) мозг использует одни и те же механизмы. Выше один из примеров на уровне слоев и блоков.
3) важную роль играет обратная связь. Именно она модулирует ранние блоки. Когда в позднем блоке найдена связь Маша ела яблоко, то через обратную связь будут усилены признаки на прежнем уровне маша/ела/яблоко.
Трансформеры через глобальный контекст реализуют это в неявном виде.
Глобальный контекст в трансформерах это аналог слоя 1, как если бы мы решили оценить его влияние на все признаки в каждом блоке. Он в явном виде не учитывает иерархию и является избыточным. Мы полагаемся, что он сам научиться этой иерархии и влиянию слоя 1.
Как мы видим, обратная связь идет только в обратном порядке.
Именно реализация этой обратной связи должна позволить избавиться от необходимости в гигантских контекстах и реализовать влияние на слой 5.
👍2