Sparse Hash AI
135 subscribers
154 photos
263 videos
3 files
354 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash
Download Telegram
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем изучать пользу, которую приносит нам 3D Gaussian Splatting. Этот метод генерации решил проблемы и длительного рендеринга, и обучения этому моделей 💥

Но есть нюансы ☺️

Результат всё же зависит от входной картинки. В тех случаях, когда снято на тапок изображение размыто или к движениям камеры есть претензии (они слишком резкие или трясущиеся 🤬), ту же нечёткость, плохое воссоздание деталей, скачки и потряхивания мы получим и на выходе.

Появилось решение. Нейросеть Deblur-GS из размытого “гуляющего” изображения делает “конфетку” 🎂

Стабилизирует видео, а объектам придаёт чёткие границы. Качество картинки значительно улучшается, движения становятся плавнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
TKAN: Temporal Kolmogorov-Arnold Networks
https://arxiv.org/abs/2405.07344

Inspired by the Kolmogorov-Arnold Networks (KANs) a promising alternatives to MultiLayer Perceptrons (MLPs), we proposed a new neural networks architecture inspired by KAN and the LSTM, the Temporal Kolomogorov-Arnold Networks (TKANs). TKANs combined the strenght of both networks, it is composed of Recurring Kolmogorov-Arnold Networks (RKANs) Layers embedding memory management.
Full causal self-attention layer in O(NlogN) computation steps and O(logN) time rather than O(N^2) computation steps and O(1) time, with a big caveat, but hope for the future.
https://www.reddit.com/r/MachineLearning/comments/1cri6h6/d_full_causal_selfattention_layer_in_onlogn/

- Автор утверждает, что разработал метод расчета полного causal self-attention слоя за O(N) шагов вычислений и время O(logN), что является значительным улучшением по сравнению с традиционными O(N^2) шагами вычислений.

- Метод включает в себя использование техники параллельного сканирования для вычисления базисных функций ряда Тейлора, которые затем используются для вычисления числителя и знаменателя softmax-активации полного causal self-attention слоя.

- В настоящее время этот метод неэффективен и непрактичен, но автор надеется, что он вдохновит на дальнейшие исследования по поиску более эффективных альтернатив.
Convolutional Kolmogorov-Arnold Network (CKAN)

Convolutional-KANs: This project extends the idea of the innovative architecture of Kolmogorov-Arnold Networks (KAN) to the Convolutional Layers, changing the classic linear transformation of the convolution to learnable non linear activations in each pixel.

https://github.com/AntonioTepsich/Convolutional-KANs
Нейронауки в Science и Nature. Выпуск 286: не всякий сон влияет на контакты между нейронами

Согласно гипотезе синаптического гомеостаза, синапсы – контакты между нервными клетками – увеличиваются в количестве во время бодрствования и устраняются во время сна. Исследователи из Университетского колледжа Лондона выяснили, что таким эффектом обладает только сон «высокого давления», который случается после длительного бодрствования. Причем величина эффекта «синаптических потерь» зависит от подтипа нейронов. Подробности работы опубликованы в журнале Nature.

Читать дальше:
https://neuronovosti.ru/nejronauki-v-science-i-nature-vypusk-286-ne-vsyakij-son-vliyaet-na-kontakty-mezhdu-nejronami/
Memory Mosaics
https://arxiv.org/abs/2405.06394

Memory Mosaics — это сеть ассоциативных воспоминаний, работающих совместно для решения интересующей задачи прогнозирования. Подобно трансформаторам, Memory Mosaics обладает композиционными способностями и возможностями контекстного обучения. В отличие от трансформаторов, Memory Mosaics реализует эти возможности сравнительно прозрачным образом. Мы демонстрируем эти возможности на игрушечных примерах, а также показываем, что Memory Mosaics работает так же или даже лучше, чем трансформеры, в задачах моделирования языка среднего масштаба.

Ключевые моменты:

- Производительность: Memory Mosaics соответствует или превосходит трансформеры в задачах языкового моделирования среднего масштаба.

- Прозрачность: в отличие от часто непрозрачной внутренней работы трансформеров, Memory Mosaics реализует свои возможности более интерпретируемыми средствами.

- Predictive Disentanglement Principle: этот принцип объясняет, как обучение разлагает задачи на независимо запоминаемые фрагменты, повышая эффективность и понимание.

Архитектура:

- Никакого позиционного кодирования не требуется.

- Блоки контекстной памяти заменяют традиционные головы внимания, предлагая новый подход к обработке последовательностей.
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Окно Эймса. Все знают комнату Эймса, а вот окно видели меньше. Хотя эта иллюзия не менее крута: реальный объект, без спецэффектов, просто крутится по часовой стрелке. Глаза смотрят, мозг конструирует гипотезы и не понимает, как такой объект возможен. И окончательно запутывается.

Когда много лет назад я выложил этот ролик в жж, некоторые сказали, что им все же удалось увидеть “истину”, мне же, как я ни старался, этого не удается до сих пор — восприятие все так же порабощает знание. Да, голос за кадром принадлежит Ричарду Грегори (Richard Gregory), выдающемуся когнитивному психологу ХХ века, одному из главных экспертов в области зрительного восприятия.

Окно Эймса отлично разобрал в своем видео блогер Veritasium, построив модели разных размеров (тот же ролик с русской озвучкой). И заодно — на днях в Frontiers вышла подборка статей “Будущее иллюзий восприятия: от феноменологии до нейронауки”, как раз в тему.
👍1
а внутри у ней неонка Gradient Descent

Transformers learn in-context by gradient descent
https://arxiv.org/abs/2212.07677

краткое содержание с переводом по твиту:

Really fantastic paper for a new understanding of In-context Learning in Transformers

"Transformers learn in-context"

Контекстное обучение означает способность Трансформаторов адаптировать свои прогнозы на основе контекста, представленного во входной последовательности, без необходимости явной тонкой настройки или обновления параметров модели. Это позволяет Трансформаторам выполнять такие задачи, как пошаговое обучение, когда модель может учиться на небольшом количестве примеров, представленных во входном контексте.

Продолжение в комментах.
Официальное заявление Скарлетт Йоханссон, в котором подробно описывается предполагаемое незаконное использование OpenAI ее голоса...

видео
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
https://arxiv.org/abs/2405.12130

https://github.com/kongds/MoRA
Sparse Hash AI
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning https://arxiv.org/abs/2405.12130 https://github.com/kongds/MoRA
твит

Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.

Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров.

MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.

«MoRA: обновление высокого ранга для эффективной точной настройки параметров»

Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.

Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions.
https://github.com/greydanus/mnist1d

Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
Forwarded from AbstractDL
Your Transformer is Secretly Linear

Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось!

Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.

Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.

P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.

Статья, GitHub, хабр
Attention as an RNN
https://arxiv.org/abs/2405.13956

"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"

Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).

X
🤔1
LLM кодируют последовательности в эмбеддинги так же как я собирал их из гипервекторов (сложением векторов понятий).

Апрель = 4 + Месяц
Вторник = 2 + День

Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230

X
Transformers Can Do Arithmetic with the Right Embeddings
https://arxiv.org/abs/2405.17399

Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic

Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).

Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents
https://arxiv.org/abs/2404.15193

Introducing Structurally Flexible Neural Networks (SFNNs)! SFNNs overcome structural rigidity in neural networks, enabling them to adapt across multiple environments with different numbers of inputs & outputs and invariance to them being permutated.

tweeprint

Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.

На видео агент быстро обучается "физике".
Мультипост разбора исследования гроккинга в трансформере на задачах композиции и сравнения.

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071

Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).

Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.

Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...

Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.

Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Лонгрид на статью Anthropic-а на тему mechanistic interpretability.

Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.

Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.

Ещё интересный момент:

– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния.


Это перекликается с предыдущим постом в примере с женой Обамы.

По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).