Sparse Hash AI
135 subscribers
154 photos
261 videos
3 files
350 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Sparse Hash AI pinned «Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck https://www.alphaxiv.org/overview/2404.07647 Статья приводит эмпирическое и теоретическое доказательство, что LM-голова (LM head) в малых языковых моделях…»
This media is not supported in your browser
VIEW IN TELEGRAM
Испытательный полет беспилотника вертикального взлета и посадки Razor P100 от американской компании Mayman Aerospace. БПЛА может нести полезную нагрузку до 45 кг и развивать скорость до 0,75 Маха.

Sparse Hash AI
🔥1
A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning
https://www.alphaxiv.org/overview/2601.06851

Большие языковые модели (LLM) спонтанно развивают «синергетическое ядро» в своих средних слоях, информационную архитектуру, которая параллельна когнитивным областям более высокого порядка человеческого мозга. Это ядро характеризуется интегрированной обработкой информации и функционально важно для связного поведения LLM, надежной производительности в сложных задачах и способности обобщать знания, особенно при усилении с помощью обучения с подкреплением.

Sparse Hash AI
🔥3
Knee-Deep in C-RASP: A Transformer Depth Hierarchy
https://www.alphaxiv.org/abs/2506.16055

https://github.com/pentagonalize/CRASP_depth

Данное исследование формально доказывает и эмпирически подтверждает, что реальные модели трансформеров требуют определенной глубины для достижения 100% точности в задачах.

Авторы показывают, что трансформеры демонстрируют строгую иерархию глубины — это означает, что для любой глубины k существуют вычислительные задачи, которые могут быть решены трансформером с k+1 слоями, но не могут быть решены никаким трансформером всего с k слоями.

Модели постоянно достигают 100% точности, когда их глубина соответствует или превышает теоретически предсказанный минимум. Например, трансформер глубины 2 (см. картинку) может идеально решить L_4, в то время как трансформеры глубины 1 значительно испытывают трудности.

Sparse Hash AI
🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
У аудитории 40+ звуковое сопровождение ролика зашито в прошивку и включается в голове автоматически. Если ваша версия модели выше v2.0.0.0 - просто включите звук 🔊


Sparse Hash AI
🔥1
Attention Layers Add Into Low-Dimensional Residual Subspaces
https://www.alphaxiv.org/ru/overview/2508.16929

Авторы обнаруживают, что слои внимания способствуют формированию удивительно низкоразмерных подпространств в остаточном потоке.

Исследование затрагивает критическую практическую проблему в механистической интерпретируемости: распространенность "мёртвых признаков" в методах разреженного словарного обучения. Это параметры, которые никогда не активируются во время обучения.

Авторы устанавливают прямую эмпирическую зависимость между внутренней размерностью активаций и распространенностью неактивных признаков в SAE. Исследователи представляют Active Subspace Initialization (ASI) – метод, который выравнивает признаки SAE с этой внутренней геометрией, значительно сокращая количество мертвых признаков до менее 1%.

Sparse Hash AI
🔥1
Extracting books from production language models
https://www.alphaxiv.org/overview/2601.02671

Исследователи продемонстрировали способность извлекать существенные, почти дословные фрагменты защищенных авторским правом книг, включая почти целые произведения, из ведущих производственных больших языковых моделей, таких как Claude 3.7 Sonnet, Gemini 2.5 Pro, Grok 3 и GPT-4.1, что выявило значительные ограничения в их текущих механизмах защиты.

Sparse Hash AI
Reorganizing attention-space geometry with expressive attention
https://www.alphaxiv.org/overview/2407.18601
Представлено выразительное внимание (Expressive Attention, EA) как прямая замена для внимания, основанного на скалярном произведении (Dot-Product Attention, DPA), переопределяя сходство запрос-ключ таким образом, что как параллельные, так и антипараллельные выравнивания означают высокое внимание, в то время как ортогональные конфигурации представляют низкое внимание. Этот механизм последовательно превосходит DPA в различных синтетических авторегрессионных задачах, в частности, достигая 100% точности в сценариях, где DPA попадает в локальные минимумы.

Эта статья представляет Экспрессивное Внимание (EA) — простую, но мощную модификацию основного вычисления внимания, которая реорганизует геометрическую структуру пространства внимания. Экспрессивное Внимание модифицирует стандартное внимание с точечным произведением (Dot-Product Attention), просто возводя в квадрат скалярное произведение.

Sparse Hash AI
A model of errors in transformers
https://www.alphaxiv.org/overview/2601.14175
Исследователи представляют количественную модель "эффективной теории поля", которая объясняет ошибки больших языковых моделей в детерминированных задачах как накопление небольших, шумоподобных неточностей в механизме внимания. Двухпараметрическая модель точно предсказывает снижение точности по мере увеличения сложности задачи, что подтверждается обширной эмпирической проверкой на различных задачах и современных LLM.

Эта работа представляет подход к моделированию ошибок LLM, вдохновленный физикой, рассматривая эти сложные системы как природные явления, которые можно анализировать с использованием методов теоретической физики. Авторы предполагают, что ошибки возникают из-за накопления небольших, "шумоподобных" неточностей в механизме внимания. Их работа демонстрирует, как поведение моделей с сотнями миллиардов параметров может быть эффективно охарактеризовано всего двумя интерпретируемыми параметрами.

Sparse Hash AI