Sparse Hash AI
82 subscribers
111 photos
158 videos
3 files
203 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
https://www.alphaxiv.org/ru/overview/2506.00846v1

Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.
👍1🤔1
🔥 Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
https://www.alphaxiv.org/ru/overview/2506.01562v1

Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.

Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.

Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.

Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.

Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.
This media is not supported in your browser
VIEW IN TELEGRAM
Фотки, видео, голос, синхронизация губ - всё на AI. ист

Sparse Hash AI
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Трек "Едем на колесах под грибами" @ Нейромонах Феофан )

Sparse Hash AI
1
Universal pre-training by iterated random computation
Универсальное предварительное обучение посредством итеративных случайных вычислений
https://www.alphaxiv.org/ru/overview/2506.20057v1

Исследование представляет подход, называемый «универсальным предварительным обучением» — обучение моделей на синтетически сгенерированных данных до того, как они столкнутся с какими-либо реальными задачами.

Модели, предварительно обученные таким образом, достигают улучшенной zero-shot производительности и файнтюнинге.

Структурированные случайные данные генерирует "итеративный процесс обогащения". Случайный шум пропускается через случайно инициализированную однослойную LSTM для создания «обогащенного шума», который затем пропускается через дополнительные случайные LSTM в последующих итерациях. Это создает все более структурированные данные, которые аппроксимируют универсальное распределение.
What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
Что происходит во время плато потерь? Понимание скачкообразного обучения в трансформерах
https://www.alphaxiv.org/ru/overview/2506.13688v1

Сосед грокинга — «резкое обучение» («abrupt learning»). Проявляется как характерная кривая потерь, где производительность застаивается на субоптимальном уровне (плато), прежде чем испытать резкое, внезапное улучшение. Авторы анализируют, что происходит внутри модели на этапе плато.

Исследование выявляет два критических неявных смещения, характеризующих фазу плато:

Repetition Bias: Во время плато модели демонстрируют сильную тенденцию к генерации повторяющихся выходных данных.

Representation Collapse: Внутренние скрытые представления для разных токенов становятся почти параллельными, с косинусным сходством часто превышающим 0.95.

Выявлено, что продолжительность плато обусловлена исключительно обучением весов слоя внимания, MLP имеет минимальное влияние.

Для наблюдения «скрытого прогресса» во время плато авторы вводят несколько количественных метрик.
👍1
Neural Cellular Automata for ARC-AGI
Нейронные клеточные автоматы для ARC-AGI
https://www.alphaxiv.org/ru/overview/2506.15746v1

Исследователи изучили возможности и ограничения Neural Cellular Automata (Нейронных Клеточных Автоматов) на корпусе абстрактного мышления и рассуждений (ARC-AGI), бенчмарке для человекоподобного интеллекта.

NCA решили 23 из 172 выполнимых задач ARC, при этом каждая модель, специфичная для задачи, эффективно обучалась за считанные минуты на одном графическом процессоре.
Fast and Simplex: 2-Simplicial Attention in Triton
Быстрый и Симплекс: Двухсимплексное внимание в Тритоне
https://www.alphaxiv.org/ru/overview/2507.02754v1

В данной работе представлена реализация 2-симплексного Трансформера, который расширяет стандартный механизм внимания до трилинейных функций. 2-симплексное внимание включает дополнительный набор "вторичных" ключей для формирования трилинейных взаимодействий. Это позволяет модели рассматривать триплеты токенов, улавливая более сложные зависимости.

Ключевой вклад заключается в демонстрации того, что эта архитектура фундаментально изменяет показатель степени в законе масштабирования.
SingLoRA: Low Rank Adaptation Using a Single Matrix
SingLoRA: Низкоранговая адаптация на основе одной матрицы
https://www.alphaxiv.org/ru/overview/2507.05566v1

SingLoRA предлагает симметричное низкоранговое обновление (AAᵀ) с использованием одной обучаемой матрицы (A) вместо двух, что приводит к более стабильной динамике обучения и превосходной производительности.

Этот подход сокращает количество обучаемых параметров до 50% по сравнению с традиционными вариантами LoRA, при этом достигая более высокой точности на бенчмарках.
Forgetting Transformer: Softmax Attention with a Forget Gate
Забывающий Трансформер: Софтмакс-внимание с вентилем забывания
https://www.alphaxiv.org/overview/2503.02130v2

В механизм внимания softmax трансформера внедрён механизм вентиля забывания, что решает ограничение трансформеров как неспособность избирательно "забывать" или уменьшать вес прошлой информации.

Гейты забывания встраиваются в softmax как треугольная маска D.

𝐎 = softmax(𝐐𝐊ᵀ + 𝐃)V
👍4
Antidistillation Sampling
Антидистилляционное сэмплирование
https://www.alphaxiv.org/ru/overview/2504.13146v2

Исследователи разработали Antidistillation Sampling — метод, позволяющий большим языковым моделям генерировать цепочки рассуждений, менее эффективные для дистилляции моделей. Подход значительно ухудшает производительность дистиллированных моделей-учеников (например, точность ученика упала с ~60% до ~25% на GSM8K), сохраняя при этом исходную полезность модели-учителя.

Эффективность метода обусловлена внедрением тонких, но стратегически расположенных артефактов в трассы рассуждений. Эти артефакты, хотя и не оказывают существенного влияния на способность учителя приходить к правильным выводам, мешают процессу обучения ученика во время дистилляции. Примеры включают вставки нерелевантного текста, избыточные объяснения и вводящие в заблуждение промежуточные шаги, которые сбивают с толку распознавание образов в модели ученика, не влияя на получение учителем конечного ответа.
Hierarchy or Heterarchy? A Theory of Long-Range Connections for the Sensorimotor Brain
https://www.alphaxiv.org/ru/overview/2507.05888v1

https://x.com/1000brainsproj/status/1943729883273625761

https://www.youtube.com/watch?v=QIoENhFu2VU

Новая работа от Нументы.

Эта теоретическая работа оспаривает традиционный иерархический взгляд на организацию неокортекса, предлагая, что мозг функционирует как "гетерархия" — система, сочетающая как иерархические, так и неиерархические режимы обработки. Авторы представляют всеобъемлющую концепцию, названную Теорией Тысячи Мозгов (ТТМ), которая переосмысливает функцию дальних связей в мозге, уделяя особое внимание сенсомоторной интеграции и роли таламуса.

Sparse Hash AI
👍3
The Principles of Deep Learning Theory
https://arxiv.org/abs/2106.10165
Sparse Hash AI
Hierarchy or Heterarchy? A Theory of Long-Range Connections for the Sensorimotor Brain https://www.alphaxiv.org/ru/overview/2507.05888v1 https://x.com/1000brainsproj/status/1943729883273625761 https://www.youtube.com/watch?v=QIoENhFu2VU Новая работа от…
Thousand-Brains Systems: Sensorimotor Intelligence for Rapid, Robust Learning and Inference
Тысячемозговые системы: Сенсомоторный интеллект для быстрого и надёжного обучения и вывода
https://www.alphaxiv.org/ru/overview/2507.04494v1
https://www.youtube.com/watch?v=3d4DmnODLnE

Исследование представляет «Монти» — первую реализацию «системы тысячи мозгов», основанную на теории тысячи мозгов (ТТМ) об интеллекте. В отличие от традиционных подходов ИИ, которые обучаются на статических наборах данных, Монти познает мир через активное сенсомоторное взаимодействие, строя структурированные 3D-модели объектов посредством движения и осязания.