Sparse Hash AI

0:28

76 views11:48

0:22

iRonCub3

ист

81 views17:05

0:23

0:26

AheadForm

🤔1

76 views11:37

Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
https://www.alphaxiv.org/ru/overview/2506.00846v1

Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.

👍1🤔1

65 views12:06

🔥 Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
https://www.alphaxiv.org/ru/overview/2506.01562v1

Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.

Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.

Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.

Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.

Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.

73 viewsedited 12:31

Machine Learning Q and AI

Machine Learning Q and AI
https://sebastianraschka.com/books/ml-q-and-ai/

Sebastian Raschka, PhD

A curated book of 30 concise Q&A chapters on modern machine learning and AI, from embeddings to transformers to evaluation.

69 views11:28

0:22

Фотки, видео, голос, синхронизация губ - всё на AI. ист

Sparse Hash AI

🔥2

77 views14:33

0:30

Трек "Едем на колесах под грибами" @ Нейромонах Феофан )

Sparse Hash AI

❤1

69 views19:02

Universal pre-training by iterated random computation
Универсальное предварительное обучение посредством итеративных случайных вычислений
https://www.alphaxiv.org/ru/overview/2506.20057v1

Исследование представляет подход, называемый «универсальным предварительным обучением» — обучение моделей на синтетически сгенерированных данных до того, как они столкнутся с какими-либо реальными задачами.

Модели, предварительно обученные таким образом, достигают улучшенной zero-shot производительности и файнтюнинге.

Структурированные случайные данные генерирует "итеративный процесс обогащения". Случайный шум пропускается через случайно инициализированную однослойную LSTM для создания «обогащенного шума», который затем пропускается через дополнительные случайные LSTM в последующих итерациях. Это создает все более структурированные данные, которые аппроксимируют универсальное распределение.

84 views17:50

What Happens During the Loss Plateau? Understanding Abrupt Learning in Transformers
Что происходит во время плато потерь? Понимание скачкообразного обучения в трансформерах
https://www.alphaxiv.org/ru/overview/2506.13688v1

Сосед грокинга — «резкое обучение» («abrupt learning»). Проявляется как характерная кривая потерь, где производительность застаивается на субоптимальном уровне (плато), прежде чем испытать резкое, внезапное улучшение. Авторы анализируют, что происходит внутри модели на этапе плато.

Исследование выявляет два критических неявных смещения, характеризующих фазу плато:

Repetition Bias: Во время плато модели демонстрируют сильную тенденцию к генерации повторяющихся выходных данных.

Representation Collapse: Внутренние скрытые представления для разных токенов становятся почти параллельными, с косинусным сходством часто превышающим 0.95.

Выявлено, что продолжительность плато обусловлена исключительно обучением весов слоя внимания, MLP имеет минимальное влияние.

Для наблюдения «скрытого прогресса» во время плато авторы вводят несколько количественных метрик.

👍1

103 viewsedited 07:54

🔥2

95 views08:40

0:37

CL-3 от LimX Dynamics

87 views09:54

Neural Cellular Automata for ARC-AGI | alphaXiv

Neural Cellular Automata for ARC-AGI
Нейронные клеточные автоматы для ARC-AGI
https://www.alphaxiv.org/ru/overview/2506.15746v1

Исследователи изучили возможности и ограничения Neural Cellular Automata (Нейронных Клеточных Автоматов) на корпусе абстрактного мышления и рассуждений (ARC-AGI), бенчмарке для человекоподобного интеллекта.

NCA решили 23 из 172 выполнимых задач ARC, при этом каждая модель, специфичная для задачи, эффективно обучалась за считанные минуты на одном графическом процессоре.

alphaXiv

View recent discussion. Abstract: Cellular automata and their differentiable counterparts, Neural Cellular Automata (NCA), are highly expressive and capable of surprisingly complex behaviors. This paper explores how NCAs perform when applied to tasks requiring…

89 views14:12

Fast and Simplex: 2-Simplicial Attention in Triton
Быстрый и Симплекс: Двухсимплексное внимание в Тритоне
https://www.alphaxiv.org/ru/overview/2507.02754v1

В данной работе представлена реализация 2-симплексного Трансформера, который расширяет стандартный механизм внимания до трилинейных функций. 2-симплексное внимание включает дополнительный набор "вторичных" ключей для формирования трилинейных взаимодействий. Это позволяет модели рассматривать триплеты токенов, улавливая более сложные зависимости.

Ключевой вклад заключается в демонстрации того, что эта архитектура фундаментально изменяет показатель степени в законе масштабирования.

81 views18:12

SingLoRA: Low Rank Adaptation Using a Single Matrix
SingLoRA: Низкоранговая адаптация на основе одной матрицы
https://www.alphaxiv.org/ru/overview/2507.05566v1

SingLoRA предлагает симметричное низкоранговое обновление (AAᵀ) с использованием одной обучаемой матрицы (A) вместо двух, что приводит к более стабильной динамике обучения и превосходной производительности.

Этот подход сокращает количество обучаемых параметров до 50% по сравнению с традиционными вариантами LoRA, при этом достигая более высокой точности на бенчмарках.

73 views14:35

Forgetting Transformer: Softmax Attention with a Forget Gate
Забывающий Трансформер: Софтмакс-внимание с вентилем забывания
https://www.alphaxiv.org/overview/2503.02130v2

В механизм внимания softmax трансформера внедрён механизм вентиля забывания, что решает ограничение трансформеров как неспособность избирательно "забывать" или уменьшать вес прошлой информации.

Гейты забывания встраиваются в softmax как треугольная маска D.

𝐎 = softmax(𝐐𝐊ᵀ + 𝐃)V

👍4

69 views14:40