Sparse Hash AI

🔥 Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно
https://habr.com/ru/articles/906592/

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

От сжатия текста к mem-векторам: новая веха в языковых моделях Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать...

🔥1

145 views02:59

Sparse Hash AI

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers
https://arxiv.org/abs/2504.20752v2
https://www.alphaxiv.org/ru/overview/2504.20752

Многошаговое рассуждение требует соединения нескольких атомарных фактов в цепочку для получения новой информации. Грокнутый восьмислойный GPT-2 в задачах многошагового рассуждения способен значительно превзойти более крупные и продвинутые модели, такие как GPT-4o и O1-mini.

Необходимым условием для полной обобщаемости, возникновения грокинга, является превышение определенного критического порога для отношения между выведенными фактами и атомарными фактами.

Интересный факт: Удивительно, но расширение некорректными фактами все еще может способствовать грокингу, предполагая, что формирование схем рассуждений в некоторой степени не зависит от фактической корректности.

139 views18:38

Оптимус деградирует.

😁5

122 views04:00

Sparse Hash AI

109 views04:01

Sparse Hash AI

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Пока ещё это фейк.

🤔1

86 views03:40

Sparse Hash AI

Harnessing the Universal Geometry of Embeddings
https://arxiv.org/abs/2505.12540v2
https://www.alphaxiv.org/overview/2505.12540

Экспериментальное доказательство "Platonic Representation Hypothesis".

Гипотеза утверждает, что все достаточно большие модели имеют одно и то же скрытое представление, в работе эта идея распространяется на текстовые модели.

vec2vec — метод трансляции текстовых эмбеддингов одной модели в эмбеддинги другой модели без парных данных или доступа к энкодеру.

Может выполнять трансляцию между любыми двумя пространствами эмбеддингов, для которых доступны примеры. Достигнута высокая косинусная схожесть (до 0.92) между транслированными эмбеддингами и эталонными векторами.

https://x.com/rishi_d_jha/status/1925212069168910340
https://x.com/jxmnop/status/1925224612872233081

86 views04:04

Sparse Hash AI

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models
https://arxiv.org/abs/2505.10554v1
https://www.alphaxiv.org/ru/overview/2505.10554

В основе статьи лежит концепция трех фундаментальных мета-способностей рассуждения, которые составляют основу человеческого и искусственного рассуждения: дедукция, индукция и абдукция.

Авторы создают набор синтетических задач, специально разработанных для каждой мета-способности, и обучают специализированные модели для каждой мета-способности. После обучения объединяют их в унифицированную модель с использованием взвешенной комбинации в пространстве параметров.

Объединенная модель превосходит отдельные специализированные модели, подтверждая, что мета-способности дополняют друг друга. Оптимальная производительность достигается при весах λd=1.0, λi=0.2 и λa=0.1, что предполагает, что дедуктивное рассуждение обеспечивает самую прочную основу, а индуктивное и абдуктивное рассуждения служат дополнительными возможностями.

96 views20:20

Sparse Hash AI

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

LYNX M20

🔥1

89 views21:14

Sparse Hash AI

This media is not supported in your browser

VIEW IN TELEGRAM

Любительская разработка.
X

85 views06:59

82 views21:30

This media is not supported in your browser

VIEW IN TELEGRAM

84 views23:28

Sparse Hash AI

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Интерактивное real-time AI-видео.

https://odyssey.world/
X

88 views03:59

Sparse Hash AI

Forwarded from Алексей

В прошлом были так называемые "растущие сети", например, "нейроподобные растущие сети Ященко". На каждый вход из обучаемых данных в сеть добавлялся новый нейрон. А что такое нейрон? Это просто строка или столбец в весовой матрице. Добавить новый нейрон — это дописать к матрице строку.

А где сейчас матрицы с растущими размерами? В трансформерах, в аттеншене. На каждый входной токен к матрицам ключей и значений дописывается новая строка — новый нейрон. Кеш трансформера — это растущая сеть. Но эта сеть с замороженными весами, веса кеша не обновляются с каждым новым токеном, в отличие от тех прошлых растущих сетей; и возможно это недоработка.

96 views19:57

Sparse Hash AI

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

Veo 3

Менее 3 часов и 7,25 долл. США на облачном кредите.

Если бы это делало традиционное агентство с использованием традиционных методов, то это обошлось бы примерно в 100 тыс. долларов.

75 views06:58

Sparse Hash AI

The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
https://www.arxiv.org/abs/2505.15807
https://www.alphaxiv.org/ru/overview/2505.15807

Исследователи обнаружили, что головы в In-Context Learning демонстрируют специализацию в своих функциях. Одни фокусируются на извлечении информации из контекста, другие полагаются на параметрические знания модели.

Эти специализированные головы не распределены случайным образом по всей архитектуре модели, а следуют определенным закономерностям.

Когда головы выборочно удалялись, способность модели выполнять определенные функции соответственно ухудшалась. Этими головами можно манипулировать для управления поведением модели.

78 views04:00

Sparse Hash AI

Softpick: No Attention Sink, No Massive Activations with Rectified Softmax https://arxiv.org/abs/2504.20966 https://www.alphaxiv.org/ru/overview/2504.20966 softpick-attention: Implementations of attention with the softpick function, naive and FlashAttention…

Апдейт от авторов softpick. К сожалению softpick не масштабируется на более крупные модели.

Лосс при обучении и результаты тестов хуже, чем у softmax на моделях с 1,8 млрд параметров.

X

77 views05:00

Sparse Hash AI

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

Raibo от KAIST.

69 views12:00

Sparse Hash AI

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

Персональный робот Isaac от Weave Robotics.

🔥1

65 views15:00

Sparse Hash AI

Decoding-based Regression
https://www.alphaxiv.org/ru/overview/2501.19383

Регрессия на основе декодирования в задачах численного прогнозирования. Преобразует традиционную задачу регрессии в задачу генерации последовательности.

Ключевая идея состоит в том, что, рассматривая числовую регрессию как задачу языкового моделирования, можно аппроксимировать произвольные гладкие одномерные функции плотности.

Этот подход требует меньше обучающих данных для достижения сопоставимой производительности с традиционными методами.

X

82 views04:01

About

Blog

Apps

Platform