Sparse Hash AI
89 subscribers
115 photos
172 videos
3 files
212 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
How Do Transformers Learn Variable Binding in Symbolic Programs?
https://www.alphaxiv.org/ru/overview/2505.20896

https://variablescope.org/experiment

Исследовалось как трансформеры справляются с задачей присваивания значения переменной по цепочке (a=5, b=a, ...).

При обучении модель демонстрирует фазовые состояния с резкими фазовыми переходами, наподобие грокинга.

Выяснилось, что residual стрим действует как адресуемая память. Модель учится кодировать переменные и числовые константы в отдельных выделенных подпространствах стрима.

Генерализация же в третьей фазе не заменяет ранее найденные эвристики, а формирует механизм надстройки над ними. Эвристики используется, когда работают, а схема активируется, когда они не работают.

X
This media is not supported in your browser
VIEW IN TELEGRAM
https://www.4dv.ai/en

Зайдите сзади, на стул посмотрите 😎
Predicting Human Brain States with Transformer
https://www.alphaxiv.org/overview/2412.19814

На основе 21 секунд данных функциональной магнитно-резонансной томографии (fMRI) трансформер предсказывает состояния мозга в следующие 5 секунд.

Точность на первой секунде 0.997, последующих 4 секунд > 0.85.
👍2
Scalable-Softmax Is Superior for Attention
https://www.alphaxiv.org/ru/overview/2501.19399
https://github.com/gdevos010/Scalable-Softmax

LLM сталкиваются с критическим ограничением: их производительность значительно ухудшается при обработке последовательностей, превышающих те, на которых они были обучены.

Эта работа выявляет фундаментальную причину этого ограничения: проблему "затухания внимания" в моделях transformer. Поведение стандартного softmax в механизмах внимания резко меняется с увеличением длины последовательности, что приводит к сглаживанию оценок внимания и мешает моделям эффективно фокусироваться на релевантной информации в длинных контекстах.

В статье представлен Scalable-Softmax (SSMax), новая альтернатива стандартной функции softmax, которая поддерживает стабильное поведение независимо от размера входных данных. SSMax - это модифицированная версия softmax, которая включает размер входного вектора в свои вычисления.
👍4
Overcoming a Theoretical Limitation of Self-Attention
https://www.alphaxiv.org/ru/overview/2202.12172

Это работа из 2022 года. Часть статьи, как и прошлый мой пост о Scalable-Softmax, посвящена проблеме "размывания" весов внимания.

Авторами предлагается логарифмическое масштабирование, видимо найденное эмпирически. По сути SSMax это его простое расширение, но автор дал и объяснение откуда собственно в функции softmax оказывается коэффициент масштаба log(n).

В экспериментальной задаче этой работы аналогично применение масштабирования по логарифму длины полностью решает проблемы обобщения по длине, достигая идеальной точности на всех протестированных длинах, независимо от длины обучающей последовательности.

Невзирая на отличные результаты, за прошедшие три года логарифмическое масштабирование не стало мейнстримом и, как видим, даже было заново открыто.

Сама работа посвящена преодолению критического теоретического ограничения механизмов самовнимания, выявленного Ханом (2020).
The Emergence of Abstract Thought in Large Language Models Beyond Any Language
Появление абстрактного мышления в больших языковых моделях вне какого-либо языка
https://www.alphaxiv.org/ru/overview/2506.09890

Работа исследует, развивают ли LLM форму «абстрактного мышления», которая функционирует вне какой-либо конкретной лингвистической системы. Авторы предоставляют убедительные доказательства возникновения языково-независимых механизмов обработки, которые обеспечивают рассуждения более высокого уровня на разных языках. Методология сосредоточена на выявлении конкретных типов нейронов и измерении их функциональной важности на разных языках.
🤔3
Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems
Использование фрактальной геометрии языка с помощью рекурсивного масштабирования вывода
https://www.alphaxiv.org/ru/overview/2502.07503

Основная концепция: Recursive Inference Scaling (RINS), рекурсивное масштабирование вывода, — метод, который использует самоподобную природу языка для улучшения производительности модели без увеличения параметров или вычислительных затрат на обучение. RINS масштабирует вычисления вывода путем рекурсивного применения частей нейронной сети во время прямого прохода.

Работает по простому принципу: взять раннюю часть нейронной сети (Блок А) и применить ее несколько раз к её собственному выходу, прежде чем передать уточненное представление оставшейся части сети (Блок Б).

RINS демонстрирует явные преимущества в производительности на языковых задачах. Эта закономерность подтверждает теорию о том, что эффективность RINS проистекает из присущего языку самоподобия.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield AI с функцией "Speak". Генерация видео по единственному селфи.

ист.
Introduction to Machine Learning
https://arxiv.org/abs/2409.02668
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
https://www.alphaxiv.org/ru/overview/2506.14761v1

Авторегрессивная U-Net (AU-Net) интегрирует токенизацию непосредственно в процесс обучения модели.

Сеть считывает raw байты, объединяет их в слова, затем в пары слов, затем до 4 слов. Модель предсказывает следующие несколько слов, а не следующий байт.
👍1
Статья представляет первую теоретическую основу для понимания непрерывного CoT, вводя концепцию "рассуждения посредством суперпозиции". Авторы демонстрируют, что векторы непрерывного мышления могут кодировать несколько фронтов поиска одновременно, обеспечивая параллельное исследование пространств решений — резкое отличие от последовательного характера дискретных подходов к рассуждению.

Задачу достижимости в ориентированном графе (directed graph reachability problem) на графе с n вершинами и диаметром графа D двухслойный трансформер с непрерывными CoT может решить за D шагов, в то время как лучший результат для трансформеров с дискретными CoT требует O(n^2) шагов.

Непрерывные "мысли" могут одновременно кодировать сразу множество возможных путей в графе и выполнять неявный «параллельный поиск» с такой «суперпозицией», в то время как последовательность дискретных токенов может идти только по одному пути за раз.

Архитектура этого трансформера сконструирована под задачу. Он выполняет на инференсе алгоритм поиска пути вширь, адресуясь в процессе к данным вершин-рёбер графа и храня в токене рассуждений список вершин текущего фронта.
👍1
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought
Рассуждение посредством суперпозиции: Теоретическая перспектива на цепочку непрерывной мысли
https://www.alphaxiv.org/ru/overview/2505.12514