Sparse Hash AI
89 subscribers
115 photos
172 videos
3 files
212 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Sparse Hash AI
Ходячий от Xpeng Motors.
Помните этого уставшего роботягу, отпахавшего две смены в сборочном цеху автоконцерна и ковыляющего на подзарядку? Его перевели в автосалон, и судя по походке, работа там явно не пыльная. )

XPENG Iron на Шанхайском автосалоне.
👍1
https://weightwatcher.ai/

WeightWatcher (w|w) is an open-source, diagnostic tool for analyzing Deep Neural Networks (DNN), without needing access to training or even test data. It is based on theoretical research into Why Deep Learning Works, using the new Theory of Heavy-Tailed Self-Regularization (HT-SR).
👍2
Sparse Hash AI
How to explain grokking https://arxiv.org/abs/2412.18624 В статье предлагается термодинамическое объяснение гроккинга. Обобщение происходит в две фазы: меморизация (оверфит) и гроккинг. В фазе меморизации градиентный спуск приводит к оверфиту, это обязательное…
Grokking 'grokking'
https://www.beren.io/2022-01-11-Grokking-Grokking/

Автор статьи приходит к аналогичным выводам о двухфазном процессе гроккинга.

Он также предполагает, что во второй фазе происходит случайное блуждание по многообразию, обусловленное градиентным шумом, и "решение" медленно движется через него из-за диффузии.

The key thing is that with a large enough degree of overparametrization we begin to get a notion of a coherent ‘optimal manifold’. Now, we need to think about what does SGD now do in the presence of such a manifold. At first it just gets initialized at some points and descends towards the manifold, hitting it at some mostly random point. Then, if training is continued when it is on the manifold, it will essentially perform a random walk on the manifold, driven by gradient noise, and slowly move across it due to diffusion.


Модель должна быть достаточно большой степени гиперпараметризации. В этом случае острова оптимальности сливаются, создавая крупномасштабные связные оптимальные поверхности или оптимальные многообразия в пространстве параметров.

При недостаточной параметризации острова остаются окружены обширными океанами субоптимальности. SGD достигнет ближайший островок, но не сможет выбраться с него, потому что расстояние до следующего острова слишком велико для случайного блуждания на градиентном шуме. Сеть застревает в оверфите, гроккинг не произойдёт.
Вышел BitNet v2.

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
https://arxiv.org/abs/2504.18415
https://www.alphaxiv.org/abs/2504.18415

Промежуточные состояния в слоях трансформера часто следуют распределению с высокой концентрацией значений около нуля и длинным хвостом выбросов. Ключевым нововведением в BitNet v2 является применение преобразования Адамара для изменения распределения активаций. При применении к векторам активации это преобразование обладает замечательным свойством: оно более равномерно перераспределяет значения, преобразуя резкое, склонное к выбросам распределение в более гауссоподобную форму. Это делает преобразованные значения более подходящими для низкобитового квантования.

* картинка Гистограммы, показывающие распределения активаций до и после преобразования Адамара, демонстрирующие, как преобразование создает более удобные для квантования распределения.
👍1
Layer by Layer: Uncovering Hidden Representations in Language Models
https://arxiv.org/abs/2502.02013
https://www.alphaxiv.org/overview/2502.02013

Промежуточные слои часто содержат более богатые и полезные представления, чем конечный слой.

The Mid-Layer Compression Valley

Одна из наиболее ярких закономерностей в моделях с авторегрессией - "долина сжатия" ("compression valley"), где энтропия резко падает в средних слоях, а затем частично восстанавливается в более поздних слоях. Эта U-образная форма проявляется во всех метриках и предполагает наличие фундаментальной стратегии обработки информации.

Долина возникает во время обучения. В начале обучения энтропия остается относительно ровной по слоям. По мере обучения средние слои развивают все более сильное сжатие. Более глубокие модели показывают более глубокие долины. Долина коррелирует с производительностью: модели с более сильными долинами сжатия, как правило, лучше справляются с задачами.
👍1
Sparse Hash AI
speeder bike https://x.com/Volonaut
Media is too big
VIEW IN TELEGRAM
Meet the Airbike - Your personal hoverbike straight from the Future!

The Volonaut Airbike flying motorbike is a breakthrough in personal air mobility.

X
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
https://arxiv.org/abs/2504.20966
https://www.alphaxiv.org/ru/overview/2504.20966

softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention-2
https://github.com/zaydzuhri/softpick-attention

Softpick (Rectified Softmax) - замена softmax-у. Полностью устраняет attention sink, нормализует активации (residual activations), не теряя в производительности.
Китайская фирма DAMODA побила мировой рекорд Гиннесса, организовав световое шоу с участием 10 518 дронов над городом Хошимин.
🔥1
Media is too big
VIEW IN TELEGRAM
Volonaut Airbike - Speeder Bike Forest Chase
https://www.youtube.com/watch?v=Q74qlF48qX0

May the 4th be with You!
This media is not supported in your browser
VIEW IN TELEGRAM
Андроид AiMOGA от Chery Automobile.
корма тяжёлая )
This media is not supported in your browser
VIEW IN TELEGRAM
Современные дипфейки в режиме реального времени с подстройкой к освещению.