Техножнец

V11. Починил то что ломало V9 в генерации. V9 RUKALLAMA взяла #1 на MERA PARus среди открытых русских моделей, обошла ruGPT-3.5 13B при $125 тренировки. И петляла в генерации как сломанная. «Я это ты!» до конца context window. Две недели я ебашил inference…

V11. Починил то что ломало V9.

Напомню. V9 RUKALLAMA это моя нейросеть для русского языка. Взяла первое место на независимом бенчмарке MERA PARus среди всех открытых русских моделей. Обошла даже модель в 15 раз больше себя. Обучил за $125 вместо типичных сотен тысяч. Казалось бы, победа. (не обольщайтесь - бенчмарк 2024 года, лол, но пока что не прыгаем выше головы!)

А потом я попросил её что-нибудь написать.
Она начинала осмысленно, токенов десять выдавала нормально, а потом срывалась в бесконечное повторение. «Я это ты! Я это ты! Я это ты!» пока не упрётся в лимит. Как заевшая пластинка. Две недели я писал заплатки на этапе генерации, перепробовал кучу методов. Ни один не вылечил полностью.

Тогда собрал совет из десяти ИИ-агентов, каждый независимо анализировал архитектуру. Они сошлись на красивой теории: дескать, одна из нелинейных функций в модели переходит в насыщение, и слой начинает выдавать константу вместо осмысленного преобразования. Звучало логично, математика сходилась. Запустил V10 с четырьмя исправлениями в этом направлении.

На 9% обучения V10 снова начала делать мозга и жёстко петлять, но уже просто символами.

Тогда я вернулся к диагнозу от Gemini 3.1 Pro который раньше пропустил мимо ушей. Он показывал на другое место кода - механизм кодирования позиций в тексте.

Суть на пальцах. Когда нейросеть обрабатывает текст, ей нужно понимать какое слово стоит первым, каким вторым, и так далее. Для этого есть математический приём - каждой позиции присваивается поворот в многомерном пространстве. Это работает если в слова не добавлять никаких констант перед поворотом.

А в моём коде константа добавлялась. И когда всё это вращалось вместе, возникал паразитный сигнал. Постоянный шум который не зависел от содержания текста - только от позиций. По

24 слоям модели этот шум накапливался, усиливался, и в какой-то момент начинал побеждать настоящий сигнал от слов.

В результате головы внимания модели залипали на самом первом токене текста. Постоянно туда смотрели независимо от того, о чём сейчас речь. Модель переставала «видеть» последние десять сгенерированных слов. Не видела что повторяется. Копировала сама себя по кругу. Attention sink это называется на жаргоне.

(по-русски "Трясина для внимания" 1 раз посмотрел и п***ец)

Написал диагностический скрипт который измеряет силу этого залипания. Посмотрел на V10 на 2000 шагов обучения. Паттерн уже проклюнулся: одна голова внимания в неглубоком слое уже сидит на первом токене на 28% времени, в средних слоях спорадические вспышки до 95%. До масштаба V9 ещё не доросло, но механизм работает.

Убил V10. Написал V11. Одна правка: эту самую константу перестал добавлять вовсе. Все остальные улучшения из V10 оставил.

V11 на 2000 шагов показывает:

V9 в конце: четыре мёртвые головы в последнем слое, залипание 25-40%
V10 на 2000: одна голова, 28%
V11 на 2000: ноль голов с систематическим залипанием

Последний слой который в V9 был буквально сломан - в V11 все головы чистые. Максимальные значения в физиологической норме. Качество на валидации такое же как у V10, несмотря на то что я удалил почти сто тысяч параметров. (хотя это не так очевидно связано..)

Главный урок для меня. Первая красивая теория почти угробила ещё один запуск. Она была математически элегантная, десять агентов с ней согласились, я тоже. А настоящий баг был некрасивый, без изящной истории, и лежал в файле который никто толком не смотрел. Потому что вроде как «там ничего интересного».

Дальше смотрим как V11 идёт на 5000 и 10000 шагов. Если паттерн стабилен - дотренирую до конца и проверю на MERA. Должна догнать V9 по качеству но без петель в генерации.

V9 останется в истории как модель которая умела думать, но не умела говорить. V11 должна уметь и то и другое. (НАДЕЮСЬ!!!)

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤46🔥18⚡16👍9🕊3👏2

1.55K views02:26