Sparse Hash AI
135 subscribers
154 photos
263 videos
3 files
351 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Extracting books from production language models
https://www.alphaxiv.org/overview/2601.02671

Исследователи продемонстрировали способность извлекать существенные, почти дословные фрагменты защищенных авторским правом книг, включая почти целые произведения, из ведущих производственных больших языковых моделей, таких как Claude 3.7 Sonnet, Gemini 2.5 Pro, Grok 3 и GPT-4.1, что выявило значительные ограничения в их текущих механизмах защиты.

Sparse Hash AI
Reorganizing attention-space geometry with expressive attention
https://www.alphaxiv.org/overview/2407.18601
Представлено выразительное внимание (Expressive Attention, EA) как прямая замена для внимания, основанного на скалярном произведении (Dot-Product Attention, DPA), переопределяя сходство запрос-ключ таким образом, что как параллельные, так и антипараллельные выравнивания означают высокое внимание, в то время как ортогональные конфигурации представляют низкое внимание. Этот механизм последовательно превосходит DPA в различных синтетических авторегрессионных задачах, в частности, достигая 100% точности в сценариях, где DPA попадает в локальные минимумы.

Эта статья представляет Экспрессивное Внимание (EA) — простую, но мощную модификацию основного вычисления внимания, которая реорганизует геометрическую структуру пространства внимания. Экспрессивное Внимание модифицирует стандартное внимание с точечным произведением (Dot-Product Attention), просто возводя в квадрат скалярное произведение.

Sparse Hash AI
A model of errors in transformers
https://www.alphaxiv.org/overview/2601.14175
Исследователи представляют количественную модель "эффективной теории поля", которая объясняет ошибки больших языковых моделей в детерминированных задачах как накопление небольших, шумоподобных неточностей в механизме внимания. Двухпараметрическая модель точно предсказывает снижение точности по мере увеличения сложности задачи, что подтверждается обширной эмпирической проверкой на различных задачах и современных LLM.

Эта работа представляет подход к моделированию ошибок LLM, вдохновленный физикой, рассматривая эти сложные системы как природные явления, которые можно анализировать с использованием методов теоретической физики. Авторы предполагают, что ошибки возникают из-за накопления небольших, "шумоподобных" неточностей в механизме внимания. Их работа демонстрирует, как поведение моделей с сотнями миллиардов параметров может быть эффективно охарактеризовано всего двумя интерпретируемыми параметрами.

Sparse Hash AI
Сельскохозяйственный дрон можно использовать для личных полётов.
https://d.fixupx.com/IntCyberDigest/status/2017995521118384354
Inverse Depth Scaling From Most Layers Being Similar
https://www.alphaxiv.org/overview/2602.05970

Исследователи количественно демонстрируют, что потери в больших языковых моделях обратно пропорциональны глубине (L ~ 1/ℓ). Их результаты показывают, что LLM в основном используют глубину через механизм "ансамблевого усреднения", где слои выполняют схожие, инкрементальные обновления, которые в совокупности уменьшают ошибку.
Counting Hypothesis: Potential Mechanism of In-Context Learning
https://www.alphaxiv.org/overview/2602.01687

Исследователи представляют «гипотезу подсчета» как механистическое объяснение внутриконтекстного обучения в больших языковых моделях, предполагая, что модели вспоминают ответы с помощью FFN и накапливают контекстуальную силу в остаточных потоках. Их эмпирический анализ показывает общие внутренние компоненты между примерами и ответами, при этом активность компонентов коррелирует с точностью предсказаний.
Learning to Reason in 13 Parameters
https://www.alphaxiv.org/ru/overview/2602.04118

Исследователи разработали TinyLoRA – метод эффективной тонкой настройки параметров, который позволяет большим языковым моделям приобретать сложные навыки математического рассуждения, обучаясь всего на 13 параметрах. Этот подход, в сочетании с обучением с подкреплением, достиг 91% точности на GSM8K, демонстрируя значительный прогресс в адаптации моделей со сверхнизкой емкостью.
Noise Stability of Transformer Models
https://www.alphaxiv.org/overview/2602.08287

Стабильность к шуму представлена как мера предвзятости к простоте в моделях Transformer, демонстрируя улучшенные теоретические границы для спектральной концентрации по сравнению со средней чувствительностью. Метод регуляризации, основанный на этой метрике, ускоряет феномен грокинга в синтетических задачах примерно на 35% и сокращает количество итераций для достижения высокой точности валидации при предсказании следующего токена на 75%, а также служит ранним индикатором обобщения.