Во время разработки Gepse на ЭЭГ было потрачено много. Поэтому разберем ЭЭГ с точки зрения представленной модели асимметрии. Именно она отлично объясняет, что мы реальности можем получить с ЭЭГ и почему.
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37
Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы
EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.
Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.
В ЭЭГ он проявляется как:
Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),
Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,
Регулярные ERP-компоненты (например, P300 при внимании к событиям).
Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.
В ЭЭГ они выглядят как:
Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,
Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),
Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).
Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.
Примеры того, что можно извлечь из ЭЭГ:
Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).
Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.
Bottom-Up активация
Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.
Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).
Top-Down модуляция
Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.
Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.
Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.
Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)
https://disk.yandex.ru/i/Xgt5I8CFlloA3w
Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.
В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.
Много материалов было на:
https://openeeg.sourceforge.net/doc/
https://t.me/greenruff/483
https://t.me/greenruff/40
https://t.me/greenruff/37
Что можно "прочитать" из ЭЭГ: Top-Down и Bottom-Up сигналы
EEG — это карта внутренних процессов, в которой можно различить направление мысли и восприятия.
Bottom-Up сигналы — это отклик мозга на сенсорные стимулы.
Когда вы видите вспышку света или слышите резкий звук, сенсорная информация поступает снизу вверх: от органов чувств → таламус → слой 4 коры → верхние слои.
Это поток данных из внешнего мира.
В ЭЭГ он проявляется как:
Сильные фазо-связанные колебания (например, SSVEP от мерцающего света),
Всплески в γ-диапазоне (30–80 Гц) при активации сенсорных областей,
Регулярные ERP-компоненты (например, P300 при внимании к событиям).
Top-Down сигналы — это работа ума «внутри себя».
Когда вы вспоминаете, ожидаете, планируете или концентрируетесь — активируются верхние уровни (лобные, ассоциативные зоны), которые посылают сигналы вниз, подготавливая сенсорные области к восприятию или подавляя их.
В ЭЭГ они выглядят как:
Модуляция альфа/тета-ритмов (4–12 Гц), особенно в затылке и висках,
Подавление сенсорной реакции при отвлечении (альфа-ритм как фильтр),
Медленные волны во сне (top-down генерация сигналов от PFC/гиппокампа).
Важно заметить, что:
Bottom-up и top-down потоки сходятся в одних и тех же нейронах (например, слоя 2/3), но имеют разные причины и паттерны.
И хотя ЭЭГ не показывает напрямую «откуда» пришёл сигнал, его частота, локализация и контекст позволяют нам сделать обоснованные выводы.
Примеры того, что можно извлечь из ЭЭГ:
Bottom-Up:
— Узнать, смотрит ли человек на мерцающий объект (SSVEP);
— Реакция на ошибку или неожиданный звук (N100, P300);
— Сенсорная синхронизация при фокусе внимания (γ-связь).
Top-Down:
— Когда человек «задумался» или решает задачу — усиливаются тета-волны в лобной области;
— Подавление ненужной информации (альфа-ритм «глушит» зоны);
— Восстановление воспоминаний активирует тета/альфа-связь между гиппокампом и корой.
ЭЭГ — это не просто сумма ритмов. Это проекция направленного взаимодействия между кортикальными слоями и системами.
Bottom-Up активация
Источник: сенсорные ядра таламуса → L4 → L2/3.
Ритмы: γ (30–80 Гц), SSVEP, ранние ERP (P1, N1, P2).
Примеры:
— Четкие SSVEP при 8–20 Гц визуальных стимулах;
— Активация A1 при внезапном звуке → N100 ERP (в течение ~100 мс);
— Быстрая γ-связь между сенсорными и ассоциативными полями.
Время: 100–300 мс достаточно, чтобы увидеть устойчивую bottom-up синхронизацию при регулярной стимуляции.
Зоны: первичные сенсорные коры, особенно зрительная (O1/Oz/O2) и слуховая (T7/T8).
Top-Down модуляция
Источник: PFC/MPFC, ACC, ассоциативные зоны → L1/L6 → L2/3.
Ритмы: α (8–12 Гц), θ (4–7 Гц), медленные потенциалы (например, CNV, BP).
Примеры:
— Индукция α-ритма для ингибирования зрительных входов;
— Рост θ в медиальной PFC при когнитивной нагрузке или working memory;
— Снижение γ-передачи при top-down подавлении.
Обратите внимание: Top-down чаще проявляется не в появлении новых волн, а в модуляции уже идущего bottom-up потока.
Сложность анализа
— Top-down сигналы не всегда легкоразделимы: они идут через глубокие слои, но могут модулировать поверхностные ритмы.
— Bottom-up более фазосвязаны (отклик на стимул), а top-down чаще эндогенные и фазонезависимые.
Здесь можно посмотреть больше исследований (собрано порядка 30-70 тыс)
https://disk.yandex.ru/i/Xgt5I8CFlloA3w
Но важно понимать, нужно всегда осторожно относится к результатам и интерпретации данных исследований. Большинство исследований ЭЭГ экстраполирует результат, притягивает его за уши или не верно интерпретируют свой результат.
В целом, в папке собрано часть материала по ЭЭГ, который был использован в свое время:
https://disk.yandex.ru/d/LCvmeIdYPsPAvA
Там только часть материала.
Много материалов было на:
https://openeeg.sourceforge.net/doc/
👍1
На примере выше, показано, затем нужна модель бифуркации системы. Когда она сама на основе внешних сигналов разворачивается исходя из выделенных в сигнале признаков. Потому что изначально мы не можем сказать точно, сколько признаков надо выделить, глубина иерархии и так далее.
Поэтому пока тестирование проходит на LLM.
Бифуркация сложна в инженерном плане. При расширении архитектуры входы и выходы меняются динамически и их надо согласовывать как с соседними слоями/блоками, так и с модулирующими сигналами.
Но ещё одна сложность, это адаптация багажа современных нейронных сетей: оптимизаторов и других частей, которые заточены под статическую архитектуру. С этим пока приходится решать проблемы и смотреть как их доработать.
Выше разбор ранков на примере кохлеарного ядра.
Слуховая система человека представляет собой сложный сенсорный механизм, обеспечивающий восприятие, фильтрацию и интерпретацию звуковых сигналов. Одним из первых этапов обработки звука в центральной нервной системе является "кохлеарное ядро" (Cochlear Nucleus, CN), расположенное в стволе мозга. Оно принимает информацию от волосковых клеток внутреннего уха через "слуховой нерв" и начинает её обработку, прежде чем передать в более высокие отделы слуховой системы.
pVCN обеспечивает точное временное кодирование звуковой информации, что критично для распознавания речи и музыки.
aVCN участвует в формировании представления о громкости, тембре и пространственном положении источника звука.
DCN играет ключевую роль в обработке слуховой информации, особенно в анализе спектральных характеристик звука и пространственной локализации источников. Оно участвует в распознавании формы звукового сигнала, адаптации к фоновому шуму и интеграции сенсорной информации из других систем (например, соматосенсорной), что помогает определить положение звука в пространстве.
Цель поста показать, как иерархия ранков ложиться на пример одной из зон мозга. А так же на примере проиллюстрировать конечный автомат асимметрии.
Это показывает, как ветвится и детализируются признаки и области мозга.
В свое время, казалось что мозг не оптимально развил эти области. Дело в том, что VCN хорошо справляется с речью, а DCN с эхолокацией. Казалось, затем такое усложнение, почему одна область не вместила в себя обе функции. С учётом ранковой модели ответ просто. Один ранк отвечает за речь как признак, другой ближе к эхолокации как признак. И дальше они уже по своему детализируют информацию, создавая свою иерархию признаков.
Поэтому пока тестирование проходит на LLM.
Бифуркация сложна в инженерном плане. При расширении архитектуры входы и выходы меняются динамически и их надо согласовывать как с соседними слоями/блоками, так и с модулирующими сигналами.
Но ещё одна сложность, это адаптация багажа современных нейронных сетей: оптимизаторов и других частей, которые заточены под статическую архитектуру. С этим пока приходится решать проблемы и смотреть как их доработать.
Выше разбор ранков на примере кохлеарного ядра.
Слуховая система человека представляет собой сложный сенсорный механизм, обеспечивающий восприятие, фильтрацию и интерпретацию звуковых сигналов. Одним из первых этапов обработки звука в центральной нервной системе является "кохлеарное ядро" (Cochlear Nucleus, CN), расположенное в стволе мозга. Оно принимает информацию от волосковых клеток внутреннего уха через "слуховой нерв" и начинает её обработку, прежде чем передать в более высокие отделы слуховой системы.
pVCN обеспечивает точное временное кодирование звуковой информации, что критично для распознавания речи и музыки.
aVCN участвует в формировании представления о громкости, тембре и пространственном положении источника звука.
DCN играет ключевую роль в обработке слуховой информации, особенно в анализе спектральных характеристик звука и пространственной локализации источников. Оно участвует в распознавании формы звукового сигнала, адаптации к фоновому шуму и интеграции сенсорной информации из других систем (например, соматосенсорной), что помогает определить положение звука в пространстве.
Цель поста показать, как иерархия ранков ложиться на пример одной из зон мозга. А так же на примере проиллюстрировать конечный автомат асимметрии.
Это показывает, как ветвится и детализируются признаки и области мозга.
В свое время, казалось что мозг не оптимально развил эти области. Дело в том, что VCN хорошо справляется с речью, а DCN с эхолокацией. Казалось, затем такое усложнение, почему одна область не вместила в себя обе функции. С учётом ранковой модели ответ просто. Один ранк отвечает за речь как признак, другой ближе к эхолокации как признак. И дальше они уже по своему детализируют информацию, создавая свою иерархию признаков.
👍1
Главное различие в «Softmax»
Классический Softmax
Для входного вектора x=[x1, x2,...,xN]:
- Основан на абсолютных значениях x(i).
- Усиливает различия: большие x(i) получают экспоненциально большие вероятности.
- Не учитывает структурную близость к устойчивым признакам.
Новый Ранковый Softmax вычисляет Z независимо от самих входов X, а лишь по заранее заданным рангам j=1…N:
Вероятность зависит только от собственного x(i), а не от всего вектора x.
Входной сигнал x ∈ [1, N] трактуется как непрерывное значение между дискретными рангами признаков.
Затем e^(-x/β) даёт вероятность того, насколько этот ранг значим.
Здесь нормировка через Z (сумма e^(-j/β), j=1..N) — это аналог нормировочной меры пространства признаков.
P(i) - это абсолютная вероятность попадания в ранг, вычисленная в рамках шкалы признаков, а не других x(j).
β ↑ → система менее чувствительна: воспринимает большие диапазоны X как один и тот же ранг → обобщение
β ↓ → система более чувствительна: различает даже небольшие изменения X → детализация
Это аналогично ширине рецептивного поля в биологической системе: чем шире, тем больше охват, но хуже различение.
Классический Softmax: глобальная нормировка по всем признакам.
Новый Ранковый Softmax: интерпретирует вход, как сигнал принадлежности к признакам.
Классический Softmax
Для входного вектора x=[x1, x2,...,xN]:
Softmax( x(i) ) = e^x(i) / { j = 1...N } ∑ e^x(j)
- Основан на абсолютных значениях x(i).
- Усиливает различия: большие x(i) получают экспоненциально большие вероятности.
- Не учитывает структурную близость к устойчивым признакам.
Новый Ранковый Softmax вычисляет Z независимо от самих входов X, а лишь по заранее заданным рангам j=1…N:
Ranked(x)= e^(−x / β) / Z , Z = {k=1..N} ∑ e ^ (−k / β)
Вероятность зависит только от собственного x(i), а не от всего вектора x.
Входной сигнал x ∈ [1, N] трактуется как непрерывное значение между дискретными рангами признаков.
x —это позиция в шкале рангов признаков.
N — максимальное число различимых признаков.
β — параметр плавности восприятия различий.
Затем e^(-x/β) даёт вероятность того, насколько этот ранг значим.
Здесь нормировка через Z (сумма e^(-j/β), j=1..N) — это аналог нормировочной меры пространства признаков.
P(i) - это абсолютная вероятность попадания в ранг, вычисленная в рамках шкалы признаков, а не других x(j).
β ↑ → система менее чувствительна: воспринимает большие диапазоны X как один и тот же ранг → обобщение
β ↓ → система более чувствительна: различает даже небольшие изменения X → детализация
Это аналогично ширине рецептивного поля в биологической системе: чем шире, тем больше охват, но хуже различение.
Классический Softmax: глобальная нормировка по всем признакам.
Новый Ранковый Softmax: интерпретирует вход, как сигнал принадлежности к признакам.
👍4🔥2
Что такое β-чувствительность и как серотонин влияет на восприятие признаков, ритм речи, концентрацию и даже сон?
Эта статья — попытка описать серотонин не как уровень "настроения", а как динамический регулятор когнитивного окна.
Подробности — с формулами, примерами, инфографикой.
Что такое β-чувствительность и при чём тут серотонин?
Как параметр β определяет масштаб восприятия, влияет на выделение признаков, временную динамику, а серотонин — это его глобальный модулятор. Мы описали модель, где масштаб восприятия управляется серотонином — через параметр β.
Почему при одинаковом звуке мы иногда слышим разные слова?
Ответ — в масштабе восприятия, управляемом β. Этот параметр регулирует, сколько признаков одновременно охватываются и насколько чувствительно мы различаем их границы.
https://telegra.ph/Serotonin-v-mozge--%CE%B2-chuvstvitelnost-07-03
Эта статья — попытка описать серотонин не как уровень "настроения", а как динамический регулятор когнитивного окна.
Подробности — с формулами, примерами, инфографикой.
Что такое β-чувствительность и при чём тут серотонин?
Как параметр β определяет масштаб восприятия, влияет на выделение признаков, временную динамику, а серотонин — это его глобальный модулятор. Мы описали модель, где масштаб восприятия управляется серотонином — через параметр β.
Почему при одинаковом звуке мы иногда слышим разные слова?
Ответ — в масштабе восприятия, управляемом β. Этот параметр регулирует, сколько признаков одновременно охватываются и насколько чувствительно мы различаем их границы.
https://telegra.ph/Serotonin-v-mozge--%CE%B2-chuvstvitelnost-07-03
Telegraph
Серотонин в мозге / β чувствительность
Параметр β определяет ширину когнитивного окна — диапазон сигналов, воспринимаемых как устойчивые признаки. Он регулирует обобщение, чувствительность к различиям, скорость распознавания и ритм восприятия. Серотонин в этой модели действует как глобальный модулятор…
💯4👍2🤔1
"Больше данных ≠ лучше результат: почему классический подход к обучению ИИ приводит к переобучению на шуме"
Популярное утверждение "чем больше данных, тем лучше модель" имеет фундаментальные ограничения. В этой заметке я покажу, почему качество обучения важнее объема данных, и как постепенное увеличение энтропии может привести к качественно лучшим результатам даже при меньшем объеме данных.
Краткий обзор экспериментов
Я сравнил два подхода к обучению LLM (4 блока, 8 голов):
1. Классический подход
- Данные: 1000 примеров из Википедии
- Эпохи: 1 и 10
- Результат: Высокий тестовый Loss (7.92), генерация, переполненная шумом и артефактами
2. Поэтапное обучение с увеличением энтропии
- Этапы:
- Детский лепет (низкая энтропия)
- Детские слова
- Детские фразы
- Детские диалоги
- Стихи
- Детские сказки
- Википедия (высокая энтропия)
- Активация блоков: Постепенная (сначала 1 блок, затем 2 и т.д.)
- Результат: Намного более структурированная генерация при значительно меньшем объеме данных
Важно: Объем данных для поэтапного обучения в разы меньше (детские примеры вместе даже с сотней эпох эквивалентны одной статье Википедии). При этом результат качественно лучше — несмотря на то, что Loss не всегда это отражает (он не учитывает семантику и грамматику).
Почему это работает: аналогия с изучением языка
Представьте, что вы оказались на рынке в чужой стране и пытаетесь выучить язык, наблюдая за всем происходящим:
- Вы слышите, как один продавец кричит "арбузы" на разных языках, но не понимаете, что это разные языки
- Другой размахивает руками и кричит "эй, эй", свистит, чтобы привлечь внимание
- Вы пытаетесь уловить закономерности в этом хаосе
Что происходит? Вы запоминаете шум, а не язык. Позже, пытаясь говорить, вы будете размахивать руками и выкрикивать обрывки фраз, вырванные из контекста.
Это и происходит при классическом обучении ИИ: когда мы скармливаем модели много данных без предварительного усвоения основ, она улавливает шум, а не устойчивые паттерны.
Ключевой принцип: устойчивая асимметрия
Устойчивая асимметрия — это статистически значимое отклонение от равномерного распределения, которое сохраняется при добавлении контекста. Например:
- Без контекста: вероятность "ш" после "а" = 0.45
- С контекстом "Ма": вероятность "ш" после "а" = 0.8
Это снижение энтропии (с 0.99 до 0.595) формализует выделение устойчивого паттерна "Ма-ша" на фоне шума.
Важно: Чем последовательнее мы увеличиваем энтропию данных, тем лучше модель усваивает устойчивые паттерны, а не шум.
Проблема фиксации шума
Когда модель обучается на сложных данных без основ, она закрепляет шум как устойчивые паттерны. Это похоже на историю детей Маугли:
- Дети, выросшие среди животных, формируют речевые паттерны на основе волчьих звуков
- Даже при последующем обучении человеку сложно переучить их правильной речи
- Их базовые паттерны уже устойчиво зафиксированы
То же происходит с ИИ: если на ранних этапах обучения модель зафиксировала шум как устойчивые паттерны, их практически невозможно переучить на поздних этапах из-за затухания градиентов.
Что дальше?
Полная статья содержит строгое математическое доказательство того, что:
1. Ранговая модель с топ-даун модуляцией сохраняет общую вероятность (статика)
2. Она снижает условную энтропию при генерации (динамика)
3. Это формализует выделение устойчивых паттернов через устойчивую асимметрию
Исходный код и данные для воспроизведения:
https://disk.yandex.ru/d/cxu6z988kbAnvw
P.S. Если вы верите, что "больше данных = лучше результат", подумайте: почему дети учатся языку на относительно небольшом объеме данных, а современные LLM требуют терабайты текста? Ответ кроется не в объеме, а в структуре обучения.
Популярное утверждение "чем больше данных, тем лучше модель" имеет фундаментальные ограничения. В этой заметке я покажу, почему качество обучения важнее объема данных, и как постепенное увеличение энтропии может привести к качественно лучшим результатам даже при меньшем объеме данных.
Краткий обзор экспериментов
Я сравнил два подхода к обучению LLM (4 блока, 8 голов):
1. Классический подход
- Данные: 1000 примеров из Википедии
- Эпохи: 1 и 10
- Результат: Высокий тестовый Loss (7.92), генерация, переполненная шумом и артефактами
2. Поэтапное обучение с увеличением энтропии
- Этапы:
- Детский лепет (низкая энтропия)
- Детские слова
- Детские фразы
- Детские диалоги
- Стихи
- Детские сказки
- Википедия (высокая энтропия)
- Активация блоков: Постепенная (сначала 1 блок, затем 2 и т.д.)
- Результат: Намного более структурированная генерация при значительно меньшем объеме данных
Важно: Объем данных для поэтапного обучения в разы меньше (детские примеры вместе даже с сотней эпох эквивалентны одной статье Википедии). При этом результат качественно лучше — несмотря на то, что Loss не всегда это отражает (он не учитывает семантику и грамматику).
Почему это работает: аналогия с изучением языка
Представьте, что вы оказались на рынке в чужой стране и пытаетесь выучить язык, наблюдая за всем происходящим:
- Вы слышите, как один продавец кричит "арбузы" на разных языках, но не понимаете, что это разные языки
- Другой размахивает руками и кричит "эй, эй", свистит, чтобы привлечь внимание
- Вы пытаетесь уловить закономерности в этом хаосе
Что происходит? Вы запоминаете шум, а не язык. Позже, пытаясь говорить, вы будете размахивать руками и выкрикивать обрывки фраз, вырванные из контекста.
Это и происходит при классическом обучении ИИ: когда мы скармливаем модели много данных без предварительного усвоения основ, она улавливает шум, а не устойчивые паттерны.
Ключевой принцип: устойчивая асимметрия
Устойчивая асимметрия — это статистически значимое отклонение от равномерного распределения, которое сохраняется при добавлении контекста. Например:
- Без контекста: вероятность "ш" после "а" = 0.45
- С контекстом "Ма": вероятность "ш" после "а" = 0.8
Это снижение энтропии (с 0.99 до 0.595) формализует выделение устойчивого паттерна "Ма-ша" на фоне шума.
Важно: Чем последовательнее мы увеличиваем энтропию данных, тем лучше модель усваивает устойчивые паттерны, а не шум.
Проблема фиксации шума
Когда модель обучается на сложных данных без основ, она закрепляет шум как устойчивые паттерны. Это похоже на историю детей Маугли:
- Дети, выросшие среди животных, формируют речевые паттерны на основе волчьих звуков
- Даже при последующем обучении человеку сложно переучить их правильной речи
- Их базовые паттерны уже устойчиво зафиксированы
То же происходит с ИИ: если на ранних этапах обучения модель зафиксировала шум как устойчивые паттерны, их практически невозможно переучить на поздних этапах из-за затухания градиентов.
Что дальше?
Полная статья содержит строгое математическое доказательство того, что:
1. Ранговая модель с топ-даун модуляцией сохраняет общую вероятность (статика)
2. Она снижает условную энтропию при генерации (динамика)
3. Это формализует выделение устойчивых паттернов через устойчивую асимметрию
Исходный код и данные для воспроизведения:
https://disk.yandex.ru/d/cxu6z988kbAnvw
P.S. Если вы верите, что "больше данных = лучше результат", подумайте: почему дети учатся языку на относительно небольшом объеме данных, а современные LLM требуют терабайты текста? Ответ кроется не в объеме, а в структуре обучения.
👍8🔥2