iFlexible
812 subscribers
2.16K photos
142 videos
65 files
53 links
Все вопросы: https://t.me/proxy3d
Download Telegram
Следующим постом, мы напишем свой трансформер.

Но сначала,обобщим прошлые посты, чтобы показать что мы делаем и зачем.
Я специально ранее подробно описывал каждый механизм, нейробиологию. Это нужно для того, чтобы при разборе коде всегда было можно отмотать и почитать, что конкретно это значит и почему мы это делаем, с какими процессами это связано.

Здесь же, я подробнее описал модель. Убрал связи, которые были редкие.

Показал разницу между ассоциативной и сенсорной зоной.
Описал обобщенную схему работы модели, чтобы было понятно какие функции она выполняет. Как видно ничего сложного: обобщение, признаки, коррекция.

Сопоставил с трансформерами.
В следующем посте, реализуя код, опишу в нем с какими механизмами он связан. Постараюсь продублировать в нем ссылки на посты.

Мы реализуем только ту часть, результат которой я показывал в тестовых примерах ранее. В ней не будет слоев 1 и слоя 6. Что-то должно остаться за кадром. Но и этого будет достаточно, чтобы улучшить работу трансформера.
👍4🔥1
Хотел напомнить про конструктор AR очков для обучения. Сейчас готова новая версия с улучшенной оптикой.

Готовлю пост для трансформера. Это требует времени:
1) перенес в него часть последних улучшений
2) выделил модель в отдельный модуль, чтобы можно было применять для разных примеров
3) документирую код

Так же сейчас удалось разработать новый метод обучения, который совмещает в себя локальную и глобальную ошибку. Это не классический метод обратного распространения.
1) он может обучаться на длинных цепочках без затухания сигнала.
2) подходит для любых архитектур
3) его можно распараллелить, то есть LLM может обучать каждый блок паралельно на разных машинах (это сейчас отлаживаю).
Он уже показал результат лучше, чем у метода обратного распространения ошибки.

Так же прорабатываю новый метод рассуждающей моделей, где в основе лежат обратные петли, как в мозге.

Паралельно переписал пример, аналог MoE, где разные сетки сами являются арбитрами. Цель попробовать заполнить им аналог Википедии для оценки качества
🔥10
На днях сделаю обещанный пост, где будет разбор публичной версии реализации шести слойной модели.
Для нетерпеливых, вот реализация , которая будет там:

https://disk.yandex.ru/d/QqlrywSk14wXoA

На первом скриншоте, это публичная реализация. Блочная модель пока сырая. И у примеров не настроены параметры.

Затем будем разбирать:
1) модель
2) блочную архитектуру
3) флуктуации
4) гистерезис - асимметрия волны сигнала
5) реализацию саморефлексии

На 2 скриншоте не публичная модель. Я вероятно позже выложу ее. Синхронизировать изменения сложно. Там гистерезис асимметрии амплитуды, частоты и фазы. Полноценный слой 1, доработка SSM.

По ссылке выше, кроме модели есть три примера и пару шагов обучения:
- гамматон фильтры
- блочная модель
- простая ллм (блочная)
Над блочной, я ещё работаю.

В планах пост о замене обучения классическому методу обратного распространения ошибки. Где идут учёт локальной и глобальной ошибки по блокам. Он показал результат лучше классического и обучение можно распараллелить по блокам.
🤔2
Новый механизм обучения и новая модель.

Я долго думал, и выложил полную текущую модель шестислойной области неокортекса.

Пока до гитхабе руки не доходят:
https://disk.yandex.ru/d/QqlrywSk14wXoA

gammatone_model - это шестислойная модель неокортекса. Чуть позже я перенесу ее у пакет sk_pack.

sk_pack - это пакет модулей, которые я разработал для себя в основном для работы с речью.

layered_model_versions - тут можно посмотреть. каждый шаг разработки шестислойной модели неокортекса. Все версии. Как она создавалась шаг за шагом. Где каждый шаг - это небольшое исследование, а не просто косметические исправления. На сегодня последняя версия 67.

backward - это новый метод обучения, взамен классическому методу обратного распространяя ошибки. Все шаги выложены.

Все это будет описано в ближайших постах.

Так как я выложил не урезанную версию, мне надо немного изменить пост с ее описанием, перед публикацией.
Это потребует немного времени.
А пока можно посмотреть и сопоставить с прошлыми постами.
🔥7
Шестислойная модель неокортекса и её связь с архитектурами ИИ

В этом посте кратко описана функциональная структура шестислойной модели неокортекса и её сопоставление с архитектурами трансформеров и Mamba. Из-за ограниченного объема, основная часть материала — в документе "neocortex_layered.pdf".

📄 В документе описаны:

Функции и механизмы работы каждого слоя без углубления в биологию

Перенос этих функций на архитектуры нейросетей

Возможные варианты реализации блоков (без привязки к единственному подходу)

📌 В будущих версиях документа планируется:

Добавление биологических деталей

Расширенное описание гистерезиса, флуктуаций и роли асимметрии

Представление модели как конечного автомата

👉 Документ полезен для тех, кто интересуется связью между нейробиологией и ИИ-архитектурами, но хочет сосредоточиться на функциональной стороне
Выше изображена архитектура модели. Мы уходим от термина шестислойной модели неокортекса. Так как она является конечным автоматом. Не могу дать ему точное определение, так как это замкнутый, вложенный, хаотический автомат. Все что он делает, это выделяет асимметрию в исходном сигнале волны по амплитуде, частоте и фазе(?).

На схеме намеренно все обозначения заменены на F(X). Что это значит?

1) вы можете заменить их на W(X). FFN(X), Свертки, SSM/Mamba и так далее. Это лишь повлияет на то, как хорошо модель будет справляться с каждой функцией.
В исходниках, вы можете увидеть разные версии, где были свертки, расширенные FFN и просто слои. В последней версии, они все заменены на доработанные SMM/Mamba.

2) Вы можете убрать некоторые функции и получить классический трансформер или Mamba (она тоже является своего рода матрешкой этой модели). Это разберем.

Позже разберем сам автомат. Тут я слегка показал, что он как матрешка реализует нейрон, слои, области и целые зоны мозга. И немного затронул саморефлексию.