Официальное заявление Скарлетт Йоханссон, в котором подробно описывается предполагаемое незаконное использование OpenAI ее голоса...
видео
видео
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
https://arxiv.org/abs/2405.12130
https://github.com/kongds/MoRA
https://arxiv.org/abs/2405.12130
https://github.com/kongds/MoRA
Sparse Hash AI
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning https://arxiv.org/abs/2405.12130 https://github.com/kongds/MoRA
твит
Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.
Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. ✨
MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.
«MoRA: обновление высокого ранга для эффективной точной настройки параметров»
Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.
Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.
Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.
Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. ✨
MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.
«MoRA: обновление высокого ранга для эффективной точной настройки параметров»
Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.
Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.
GitHub
GitHub - greydanus/mnist1d: A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning…
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions. - greydanus/mnist1d
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions.
https://github.com/greydanus/mnist1d
Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
https://github.com/greydanus/mnist1d
Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
Forwarded from AbstractDL
Your Transformer is Secretly Linear
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один
Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub, хабр
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один
nn.Linear(), а модель будет работать, будто бы ничего не поменялось!Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub, хабр
Attention as an RNN
https://arxiv.org/abs/2405.13956
"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"
Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).
X
https://arxiv.org/abs/2405.13956
"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"
Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).
X
🤔1
AbstractDL
Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь…
Not All Language Model Features Are Linear
https://arxiv.org/abs/2405.14860
MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures
X
https://arxiv.org/abs/2405.14860
MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures
X
LLM кодируют последовательности в эмбеддинги так же как я собирал их из гипервекторов (сложением векторов понятий).
Апрель = 4 + Месяц
Вторник = 2 + День
Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230
X
Апрель = 4 + Месяц
Вторник = 2 + День
Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230
X
Transformers Can Do Arithmetic with the Right Embeddings
https://arxiv.org/abs/2405.17399
Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic
Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).
Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
https://arxiv.org/abs/2405.17399
Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic
Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).
Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents
https://arxiv.org/abs/2404.15193
tweeprint
Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.
На видео агент быстро обучается "физике".
https://arxiv.org/abs/2404.15193
Introducing Structurally Flexible Neural Networks (SFNNs)! SFNNs overcome structural rigidity in neural networks, enabling them to adapt across multiple environments with different numbers of inputs & outputs and invariance to them being permutated.
tweeprint
Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.
На видео агент быстро обучается "физике".
Мультипост разбора исследования гроккинга в трансформере на задачах композиции и сравнения.
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071
Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).
Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.
Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...
Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.
Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071
Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).
Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.
Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...
Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.
Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Telegram
Сиолошная
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…
Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…
Лонгрид на статью Anthropic-а на тему mechanistic interpretability.
Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.
Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.
Ещё интересный момент:
Это перекликается с предыдущим постом в примере с женой Обамы.
По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).
Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.
Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.
Ещё интересный момент:
– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния.
Это перекликается с предыдущим постом в примере с женой Обамы.
По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).
Telegram
я обучала одну модель
У Anthropic вышла очень большая статья про interpretability – они нашли в своей модели Claude Sonnet множество хорошо и четко интерпретируемых фич, отражающих определенные концепты. Многие из них оказались мультилингвальными и даже мультимодальными
В отличие…
В отличие…
This media is not supported in your browser
VIEW IN TELEGRAM
Custom-made RC robot
Forwarded from Data Secrets
Вау! Событие из красной книги: у OpenAI вышла статья с открытым кодом
В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).
Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.
Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.
В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).
Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.
Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.
Sparse Hash AI
Прыжок нейрона из ямы локального минимума в глобальный. Сверху лучше видно, где самое дно.
Скорость обучения в этом эксперименте падала как
Оказалось, что если выставить постоянную скорость, которая была в точке пика ошибки, то нейрон на повторном обучении находит ещё большее дно (на десяток порядков глубже).
lr = 1 # НУ
lr = lr * 0.95
Оказалось, что если выставить постоянную скорость, которая была в точке пика ошибки, то нейрон на повторном обучении находит ещё большее дно (на десяток порядков глубже).
σ-GPT генерирует в произвольном порядке.
σ-GPTs: A New Approach to Autoregressive Models
https://arxiv.org/abs/2404.09562
Demo: https://arnaudpannatier.ch/sigma-gpt/
tweeprint
σ-GPTs: A New Approach to Autoregressive Models
https://arxiv.org/abs/2404.09562
Demo: https://arnaudpannatier.ch/sigma-gpt/
we developed σ-GPT, capable of generating sequences in any order chosen dynamically at inference time.
tweeprint