Прежде чем вносить изменения и менять трансформеры, мы должны рассмотреть наиболее слабые места.
Для этого:
1) Соотнесем части трансформера и шестислойной модели в ассоциативных зонах мозга отвечающих за абстрактное мышление
2) Посмотрим к каким проблемам приводит отсутствие у трансформеров биологических аналогий . Проследив эти нарушения на примере исследований повреждения или нарушения работы этих слоев и их механизмов.
Это позволит нам исправить в трансформерах конкретные места, чтобы убрать данные проблемы.
Дисбаланс обратной связи (слой VI → IV) → галлюцинации.
Дисфункция слоя V → бред, нарушение речи.
Нарушение межслойных связей (II–III → V) → когнитивная дезорганизация.
Дисбаланс нейромодуляции (дофамин) → усиление бредовых идей.
Для этого:
1) Соотнесем части трансформера и шестислойной модели в ассоциативных зонах мозга отвечающих за абстрактное мышление
2) Посмотрим к каким проблемам приводит отсутствие у трансформеров биологических аналогий . Проследив эти нарушения на примере исследований повреждения или нарушения работы этих слоев и их механизмов.
Это позволит нам исправить в трансформерах конкретные места, чтобы убрать данные проблемы.
Дисбаланс обратной связи (слой VI → IV) → галлюцинации.
Дисфункция слоя V → бред, нарушение речи.
Нарушение межслойных связей (II–III → V) → когнитивная дезорганизация.
Дисбаланс нейромодуляции (дофамин) → усиление бредовых идей.
🔥2
Пока я готовлю пост по трансформерам, немного практики эмоционального управлением LLM через добавление характера.
Метод демонстрирует важность связи нейробиологии и современных LLM.
Метод управления стилем общения LLM через микродиалоги основан на принципах работы мозга: лимбическая система формирует эмоциональный фон, а лобные доли направляют поведенческие паттерны. В LLM аналогично: вставляя скрытые микродиалоги, мы активируем нужные языковые маршруты, влияя на предсказание токенов. Это позволяет задать устойчивый характер модели, менять её реакцию на эмоции пользователя и контролировать стиль общения. В отличие от системного промпта, метод сохраняет влияние в длинных диалогах и не требует модификации модели.
Новизна подхода в том, что он использует "слепоту" LLM к источнику контекста, заставляя её интуитивно следовать заданному поведению.
Этот подход небольшая часть общей эмоциональной модели. Который описывает, как управлять стилем общения и характером LLM с учётом их архитектурных ограничений.
Метод демонстрирует важность связи нейробиологии и современных LLM.
Метод управления стилем общения LLM через микродиалоги основан на принципах работы мозга: лимбическая система формирует эмоциональный фон, а лобные доли направляют поведенческие паттерны. В LLM аналогично: вставляя скрытые микродиалоги, мы активируем нужные языковые маршруты, влияя на предсказание токенов. Это позволяет задать устойчивый характер модели, менять её реакцию на эмоции пользователя и контролировать стиль общения. В отличие от системного промпта, метод сохраняет влияние в длинных диалогах и не требует модификации модели.
Новизна подхода в том, что он использует "слепоту" LLM к источнику контекста, заставляя её интуитивно следовать заданному поведению.
Этот подход небольшая часть общей эмоциональной модели. Который описывает, как управлять стилем общения и характером LLM с учётом их архитектурных ограничений.
🔥8👍2
Следующим постом, мы напишем свой трансформер.
Но сначала,обобщим прошлые посты, чтобы показать что мы делаем и зачем.
Я специально ранее подробно описывал каждый механизм, нейробиологию. Это нужно для того, чтобы при разборе коде всегда было можно отмотать и почитать, что конкретно это значит и почему мы это делаем, с какими процессами это связано.
Здесь же, я подробнее описал модель. Убрал связи, которые были редкие.
Показал разницу между ассоциативной и сенсорной зоной.
Описал обобщенную схему работы модели, чтобы было понятно какие функции она выполняет. Как видно ничего сложного: обобщение, признаки, коррекция.
Сопоставил с трансформерами.
В следующем посте, реализуя код, опишу в нем с какими механизмами он связан. Постараюсь продублировать в нем ссылки на посты.
Мы реализуем только ту часть, результат которой я показывал в тестовых примерах ранее. В ней не будет слоев 1 и слоя 6. Что-то должно остаться за кадром. Но и этого будет достаточно, чтобы улучшить работу трансформера.
Но сначала,обобщим прошлые посты, чтобы показать что мы делаем и зачем.
Я специально ранее подробно описывал каждый механизм, нейробиологию. Это нужно для того, чтобы при разборе коде всегда было можно отмотать и почитать, что конкретно это значит и почему мы это делаем, с какими процессами это связано.
Здесь же, я подробнее описал модель. Убрал связи, которые были редкие.
Показал разницу между ассоциативной и сенсорной зоной.
Описал обобщенную схему работы модели, чтобы было понятно какие функции она выполняет. Как видно ничего сложного: обобщение, признаки, коррекция.
Сопоставил с трансформерами.
В следующем посте, реализуя код, опишу в нем с какими механизмами он связан. Постараюсь продублировать в нем ссылки на посты.
Мы реализуем только ту часть, результат которой я показывал в тестовых примерах ранее. В ней не будет слоев 1 и слоя 6. Что-то должно остаться за кадром. Но и этого будет достаточно, чтобы улучшить работу трансформера.
👍4🔥1
Хотел напомнить про конструктор AR очков для обучения. Сейчас готова новая версия с улучшенной оптикой.
Готовлю пост для трансформера. Это требует времени:
1) перенес в него часть последних улучшений
2) выделил модель в отдельный модуль, чтобы можно было применять для разных примеров
3) документирую код
Так же сейчас удалось разработать новый метод обучения, который совмещает в себя локальную и глобальную ошибку. Это не классический метод обратного распространения.
1) он может обучаться на длинных цепочках без затухания сигнала.
2) подходит для любых архитектур
3) его можно распараллелить, то есть LLM может обучать каждый блок паралельно на разных машинах (это сейчас отлаживаю).
Он уже показал результат лучше, чем у метода обратного распространения ошибки.
Так же прорабатываю новый метод рассуждающей моделей, где в основе лежат обратные петли, как в мозге.
Паралельно переписал пример, аналог MoE, где разные сетки сами являются арбитрами. Цель попробовать заполнить им аналог Википедии для оценки качества
Готовлю пост для трансформера. Это требует времени:
1) перенес в него часть последних улучшений
2) выделил модель в отдельный модуль, чтобы можно было применять для разных примеров
3) документирую код
Так же сейчас удалось разработать новый метод обучения, который совмещает в себя локальную и глобальную ошибку. Это не классический метод обратного распространения.
1) он может обучаться на длинных цепочках без затухания сигнала.
2) подходит для любых архитектур
3) его можно распараллелить, то есть LLM может обучать каждый блок паралельно на разных машинах (это сейчас отлаживаю).
Он уже показал результат лучше, чем у метода обратного распространения ошибки.
Так же прорабатываю новый метод рассуждающей моделей, где в основе лежат обратные петли, как в мозге.
Паралельно переписал пример, аналог MoE, где разные сетки сами являются арбитрами. Цель попробовать заполнить им аналог Википедии для оценки качества
🔥10