Sparse Hash AI
81 subscribers
110 photos
153 videos
3 files
197 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
The Emergence of Abstract Thought in Large Language Models Beyond Any Language
Появление абстрактного мышления в больших языковых моделях вне какого-либо языка
https://www.alphaxiv.org/ru/overview/2506.09890

Работа исследует, развивают ли LLM форму «абстрактного мышления», которая функционирует вне какой-либо конкретной лингвистической системы. Авторы предоставляют убедительные доказательства возникновения языково-независимых механизмов обработки, которые обеспечивают рассуждения более высокого уровня на разных языках. Методология сосредоточена на выявлении конкретных типов нейронов и измерении их функциональной важности на разных языках.
🤔3
Recursive Inference Scaling: A Winning Path to Scalable Inference in Language and Multimodal Systems
Использование фрактальной геометрии языка с помощью рекурсивного масштабирования вывода
https://www.alphaxiv.org/ru/overview/2502.07503

Основная концепция: Recursive Inference Scaling (RINS), рекурсивное масштабирование вывода, — метод, который использует самоподобную природу языка для улучшения производительности модели без увеличения параметров или вычислительных затрат на обучение. RINS масштабирует вычисления вывода путем рекурсивного применения частей нейронной сети во время прямого прохода.

Работает по простому принципу: взять раннюю часть нейронной сети (Блок А) и применить ее несколько раз к её собственному выходу, прежде чем передать уточненное представление оставшейся части сети (Блок Б).

RINS демонстрирует явные преимущества в производительности на языковых задачах. Эта закономерность подтверждает теорию о том, что эффективность RINS проистекает из присущего языку самоподобия.
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield AI с функцией "Speak". Генерация видео по единственному селфи.

ист.
Introduction to Machine Learning
https://arxiv.org/abs/2409.02668
From Bytes to Ideas: Language Modeling with Autoregressive U-Nets
https://www.alphaxiv.org/ru/overview/2506.14761v1

Авторегрессивная U-Net (AU-Net) интегрирует токенизацию непосредственно в процесс обучения модели.

Сеть считывает raw байты, объединяет их в слова, затем в пары слов, затем до 4 слов. Модель предсказывает следующие несколько слов, а не следующий байт.
👍1
Статья представляет первую теоретическую основу для понимания непрерывного CoT, вводя концепцию "рассуждения посредством суперпозиции". Авторы демонстрируют, что векторы непрерывного мышления могут кодировать несколько фронтов поиска одновременно, обеспечивая параллельное исследование пространств решений — резкое отличие от последовательного характера дискретных подходов к рассуждению.

Задачу достижимости в ориентированном графе (directed graph reachability problem) на графе с n вершинами и диаметром графа D двухслойный трансформер с непрерывными CoT может решить за D шагов, в то время как лучший результат для трансформеров с дискретными CoT требует O(n^2) шагов.

Непрерывные "мысли" могут одновременно кодировать сразу множество возможных путей в графе и выполнять неявный «параллельный поиск» с такой «суперпозицией», в то время как последовательность дискретных токенов может идти только по одному пути за раз.

Архитектура этого трансформера сконструирована под задачу. Он выполняет на инференсе алгоритм поиска пути вширь, адресуясь в процессе к данным вершин-рёбер графа и храня в токене рассуждений список вершин текущего фронта.
👍1
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought
Рассуждение посредством суперпозиции: Теоретическая перспектива на цепочку непрерывной мысли
https://www.alphaxiv.org/ru/overview/2505.12514
Navigating the Latent Space Dynamics of Neural Models
Навигация по динамике латентного пространства нейронных моделей
https://www.alphaxiv.org/ru/overview/2505.22785

В статье представлена альтернативная интерпретация нейронных моделей как динамических систем, действующих на латентном многообразии. В работе исследуются автоэнкодеры.

Вместо того, чтобы рассматривать нейронные сети исключительно как статические аппроксиматоры функций, которые отображают входные данные в выходные, авторы предполагают, что каждый автоэнкодер неявно определяет "поле скрытых векторов".

Теорема Банаха о неподвижной точке гарантирует существование аттракторов в сжимающем отображении. Авторы разработали простой и эффективный итерационный метод нахождения аттракторов в векторном поле автоэнкодеров.
Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
https://www.alphaxiv.org/ru/overview/2506.00846v1

Исследователи демонстрируют посредством расширенного анализа тензорных программ, что одиночные слои внимания в реалистичных условиях (стандартное масштабирование 1/√n, конечное число голов) сходятся к иерархическим гауссовским распределениям, при этом выходы внимания являются условно гауссовскими при заданных случайных оценках сходства (скорах), которые сами следуют гауссовским распределениям с нулевым средним, что приводит к негауссовским безусловным распределениям, демонстрирующим поведение с тяжелыми хвостами.
👍1🤔1
🔥 Unpacking Softmax: How Temperature Drives Representation Collapse, Compression, and Generalization
https://www.alphaxiv.org/ru/overview/2506.01562v1

Это исследование показывает, что более высокие температуры softmax приводят к сжатым, низкоранговым представлениям, которые улучшают обнаружение внераспределенных данных (OOD), но ухудшают их обобщение.

Авторы вводят понятие смещения дефицита ранга (rank deficit bias) — феномена, при котором глубокие сети на основе softmax находят решения с рангом значительно ниже числа классов. Модели учатся представлениям гораздо более низкой размерности, чем предсказывает классическая теория Neural Collapse. Это смещение зависит от нормы логитов функции softmax, которая напрямую изменяется температурой.

Для CIFAR-100 (100 классов) baseline модели имеют ранг ~99, но при низкой норме логитов ранг падает до 42-72.

Также авторы теоретически доказывают, что softmax может отображать низкоранговые входы в полноранговые выходы посредством усиления нормы. Таким образом, функция softmax выполняет двойную роль: индуцирует внутреннее сжатие, сохраняя при этом выходную выразительность.

Различные схемы инициализации (Kaiming vs. Normal) напрямую влияют на начальные нормы логитов, при этом меньшие начальные масштабы способствуют коллапсу даже при стандартных температурах. Пакетная нормализация и нормализация по слоям могут предотвратить коллапс, активно поддерживая разнообразие представлений, особенно при применении после вычисления логитов.
This media is not supported in your browser
VIEW IN TELEGRAM
Фотки, видео, голос, синхронизация губ - всё на AI. ист

Sparse Hash AI
🔥1