Технозаметки Малышева

Forwarded from RoboFuture

🔬 Когда вышел первый deepseek, я первым делом спросил его, что произошло на площади Тяньаньмэнь (на русском). Ответ был такой, что партия забрать миска рис и кошка-жена. Такого рода анти-повесточные ответы я много где замечал у моделей из самых разных стран

(А на картинке то как "исправляет ошибки" новый AI редактор сообщений в Telegram 😂 +500 социального рейтинга уходит Паше)

Стало интересно - а как вообще формируются взгляды к которым модель будет тяготеть после обучения? В данных чего только нет - теории заговора, эзотерика, лженаука и т.д.

Стандартный ответ - "потому что у академических данных больший вес", но мне стало казаться, что дело не только в этом. Обучение LLM это по сути сжатие, а компрессору все равно где "правда" - он предпочитает то, что лучше сжимается. В итоге возникла такая гипотеза:

Модель тяготеет не к правде, а к сжимаемой картине мира. Правда выигрывает, когда ложь внутренне несогласованна

Чтобы проверить эту гипотезу я обучил 210+ трансформеров с нуля (от 3.5M до 1B параметров) на контролируемых датасетах с противоречивыми данными (математика, википедия)

Случайные ошибки - модель уверенно предпочитает правду (65–87%). Каждая ошибка уникальна, а правильная математика компактна. Даже при 90% мусора в данных модель всё равно выучивает верные ответы 🤯

Я обрадовался и добавил одно систематическое ложное правило. И тут пришлось немножко охренеть - модель начала предпочитать очевидную ложь, потому что она сжимается так же хорошо, как и истина. Модель не видит разницы. На всех масштабах, от 3.5M до 1B

Пример "сломаной" математики - если второе слагаемое нечетное, то ответ всегда 0.
2 + 2 = 4
2 + 3 = 0

А вот когда я добавил два ложных правила - истина снова стала побеждать (47% → 78%). Каждое правило само по себе компактное, но вот выбор "какое правило к какой задаче применяется" - случайный, несжимаемый. С десятью противоречивыми правилами предпочтение истины было уже 88%

На Википедии повторилось то же самое, на квенах до 1B (с нуля, без инициализации открытыми весами :)) - тоже. На миксе fineweb + математика тоже подтверждается. На разных токенайзерах - тоже

Что из этого следует?

Координированная дезинформация для компрессора неотличима от правды. И масштабирование тут не спасёт. А вот противоречия в фейках заставляют модель выбирать консистентную картину мира

В результате родилась моя первая самостоятельная научная статья - Truth as a Compression Artifact in Language Model Training. Буду подавать статью на международную конференцию. Это моя первая самостоятельная работа такого плана - если у кого-то есть опыт публикации или идеи как двигаться дальше, напишите 🙏

А если вдруг среди моих подписчиков есть те, кто менторит PhD треки - буду рад обсудить, как из этого сделать большую исследовательскую программу

Статья на arXiv (пока не опубликовали последнюю версию) |Статья на github + весь код

1🔥57⚡7❤7🏆7👏2

1.65K views06:46