Sparse Hash AI – Telegram

Sparse Hash AI

135 subscribers

154 photos

263 videos

3 files

355 links

AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://t.me/sparsehash

Download Telegram

About

Blog

Apps

Platform

135 subscribers

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning https://arxiv.org/abs/2405.12130 https://github.com/kongds/MoRA

твит

Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.

Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. ✨

MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.

«MoRA: обновление высокого ранга для эффективной точной настройки параметров»

Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.

Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.

36 views14:56

GitHub - greydanus/mnist1d: A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning…

A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions. - greydanus/mnist1d

A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions.
https://github.com/greydanus/mnist1d

Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.

56 views15:14

Forwarded from AbstractDL

Your Transformer is Secretly Linear

Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один nn.Linear(), а модель будет работать, будто бы ничего не поменялось!

Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.

Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.

P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.

Статья, GitHub, хабр

34 views19:59

Attention as an RNN
https://arxiv.org/abs/2405.13956

"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"

Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).

X

🤔1

52 views19:23

Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь…

Not All Language Model Features Are Linear
https://arxiv.org/abs/2405.14860

MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures

X

44 views19:48

LLM кодируют последовательности в эмбеддинги так же как я собирал их из гипервекторов (сложением векторов понятий).

Апрель = 4 + Месяц
Вторник = 2 + День

Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230

X

58 views15:38

Transformers Can Do Arithmetic with the Right Embeddings
https://arxiv.org/abs/2405.17399

Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic

Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).

Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)

44 views21:15

Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents
https://arxiv.org/abs/2404.15193

Introducing Structurally Flexible Neural Networks (SFNNs)! SFNNs overcome structural rigidity in neural networks, enabling them to adapt across multiple environments with different numbers of inputs & outputs and invariance to them being permutated.

tweeprint

Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.

На видео агент быстро обучается "физике".

52 views21:57

Мультипост разбора исследования гроккинга в трансформере на задачах композиции и сравнения.

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071

Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).

Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.

Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...

Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.

Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.

Сиолошная

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…

59 viewsedited 18:39

Лонгрид на статью Anthropic-а на тему mechanistic interpretability.

Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.

Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.

Ещё интересный момент:

– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния.

Это перекликается с предыдущим постом в примере с женой Обамы.

По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).

я обучала одну модель

У Anthropic вышла очень большая статья про interpretability – они нашли в своей модели Claude Sonnet множество хорошо и четко интерпретируемых фич, отражающих определенные концепты. Многие из них оказались мультилингвальными и даже мультимодальными

В отличие…

50 views18:31

This media is not supported in your browser

VIEW IN TELEGRAM

Custom-made RC robot

35 views21:40

Прыжок нейрона из ямы локального минимума в глобальный.

Сверху лучше видно, где самое дно.

👍1

159 viewsedited 14:01

Forwarded from Data Secrets

Вау! Событие из красной книги: у OpenAI вышла статья с открытым кодом

В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).

Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.

Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.

34 views17:31

Прыжок нейрона из ямы локального минимума в глобальный. Сверху лучше видно, где самое дно.

Скорость обучения в этом эксперименте падала как

lr = 1 # НУ
lr = lr * 0.95

Оказалось, что если выставить постоянную скорость, которая была в точке пика ошибки, то нейрон на повторном обучении находит ещё большее дно (на десяток порядков глубже).

48 viewsedited 20:01

σ-GPT генерирует в произвольном порядке.

σ-GPTs: A New Approach to Autoregressive Models
https://arxiv.org/abs/2404.09562

Demo: https://arnaudpannatier.ch/sigma-gpt/

we developed σ-GPT, capable of generating sequences in any order chosen dynamically at inference time.

112 viewsedited 13:00

This media is not supported in your browser

VIEW IN TELEGRAM

67 views13:00

image_2024-06-09_16-00-46.png

46 views13:00

Forwarded from То шо нейросети

Media is too big

VIEW IN TELEGRAM

Нейрокаверы которые мы заслужили.
P.S> Ставь огонь если тоже писал веб нас Си.

@toshoseti

👍1

36 views17:16

Forwarded from Data Secrets

Современные LLM не могут решить простейшую детскую загадку

Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".

Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.

Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.

Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.

Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."

40 views14:32

This media is not supported in your browser

VIEW IN TELEGRAM

Прогресс за один год.

43 views12:36