GitHub
GitHub - greydanus/mnist1d: A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning…
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions. - greydanus/mnist1d
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions.
https://github.com/greydanus/mnist1d
Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
https://github.com/greydanus/mnist1d
Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
Forwarded from AbstractDL
Your Transformer is Secretly Linear
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один
Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub, хабр
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один
nn.Linear(), а модель будет работать, будто бы ничего не поменялось!Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub, хабр
Attention as an RNN
https://arxiv.org/abs/2405.13956
"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"
Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).
X
https://arxiv.org/abs/2405.13956
"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"
Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).
X
🤔1
AbstractDL
Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь…
Not All Language Model Features Are Linear
https://arxiv.org/abs/2405.14860
MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures
X
https://arxiv.org/abs/2405.14860
MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures
X
LLM кодируют последовательности в эмбеддинги так же как я собирал их из гипервекторов (сложением векторов понятий).
Апрель = 4 + Месяц
Вторник = 2 + День
Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230
X
Апрель = 4 + Месяц
Вторник = 2 + День
Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230
X
Transformers Can Do Arithmetic with the Right Embeddings
https://arxiv.org/abs/2405.17399
Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic
Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).
Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
https://arxiv.org/abs/2405.17399
Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic
Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).
Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents
https://arxiv.org/abs/2404.15193
tweeprint
Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.
На видео агент быстро обучается "физике".
https://arxiv.org/abs/2404.15193
Introducing Structurally Flexible Neural Networks (SFNNs)! SFNNs overcome structural rigidity in neural networks, enabling them to adapt across multiple environments with different numbers of inputs & outputs and invariance to them being permutated.
tweeprint
Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.
На видео агент быстро обучается "физике".
Мультипост разбора исследования гроккинга в трансформере на задачах композиции и сравнения.
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071
Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).
Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.
Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...
Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.
Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071
Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).
Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.
Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...
Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.
Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Telegram
Сиолошная
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…
Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…
Лонгрид на статью Anthropic-а на тему mechanistic interpretability.
Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.
Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.
Ещё интересный момент:
Это перекликается с предыдущим постом в примере с женой Обамы.
По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).
Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.
Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.
Ещё интересный момент:
– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния.
Это перекликается с предыдущим постом в примере с женой Обамы.
По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).
Telegram
я обучала одну модель
У Anthropic вышла очень большая статья про interpretability – они нашли в своей модели Claude Sonnet множество хорошо и четко интерпретируемых фич, отражающих определенные концепты. Многие из них оказались мультилингвальными и даже мультимодальными
В отличие…
В отличие…
This media is not supported in your browser
VIEW IN TELEGRAM
Custom-made RC robot
Forwarded from Data Secrets
Вау! Событие из красной книги: у OpenAI вышла статья с открытым кодом
В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).
Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.
Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.
В числе авторов Илья Суцкевер, и, как вы возможно уже поняли, статья про интерпретируемость. Подход идейно повторяет недавнюю работу Anthropic. Ресерчеры OpenAI также используют разреженный автоэнкодер и с помощью него выделяют в поведении модели "фичи" - интерпретируемые паттерны активаций (о них можно думать, как о темах).
Утверждается, однако, что заявленный подход масштабируется лучше, чем остальные существующие. Из GPT-4 удалось достать 16 миллионов фичей. Есть клевая визуализация. В опенсорсе показали подход на примере GPT-2.
Про управление фичами (в отличие от Anthropic) пока ничего особенного, оставляют на дальнейшие исследования.
Sparse Hash AI
Прыжок нейрона из ямы локального минимума в глобальный. Сверху лучше видно, где самое дно.
Скорость обучения в этом эксперименте падала как
Оказалось, что если выставить постоянную скорость, которая была в точке пика ошибки, то нейрон на повторном обучении находит ещё большее дно (на десяток порядков глубже).
lr = 1 # НУ
lr = lr * 0.95
Оказалось, что если выставить постоянную скорость, которая была в точке пика ошибки, то нейрон на повторном обучении находит ещё большее дно (на десяток порядков глубже).
σ-GPT генерирует в произвольном порядке.
σ-GPTs: A New Approach to Autoregressive Models
https://arxiv.org/abs/2404.09562
Demo: https://arnaudpannatier.ch/sigma-gpt/
tweeprint
σ-GPTs: A New Approach to Autoregressive Models
https://arxiv.org/abs/2404.09562
Demo: https://arnaudpannatier.ch/sigma-gpt/
we developed σ-GPT, capable of generating sequences in any order chosen dynamically at inference time.
tweeprint
Forwarded from Data Secrets
Современные LLM не могут решить простейшую детскую загадку
Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".
Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.
Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.
Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.
Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."
Об этом рассказали немецкие ученые из Юлиха в статье "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models".
Alice in Wonderland – это название той самой загадки. Она звучит так: "У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?". Правильный ответ прост, но большинство протестированных в статье LLM (включая GPT-3.5/4, Claude, Gemini, LLaMA, Mistral) с загадкой не справляются.
Исследователи даже попробали давать моделям подсказки, задавать вопрос в другой вариации, просили их "подумать еще раз" и применяли прочие промпт-фокусы, но ничего не улучшило ситуацию. Даже когда модель случайно давала правильный ответ, она не могла нормально его объяснить.
Основной вывод статьи: нам нужны новые бенчмарки. Существующие ризонинг тесты (MMLU, ARC, Hellaswag и др) не отражают реальных способностей модели к рассуждению и, более того, завышают их.
Ян Лекун прокомментировал исследование так: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию."
This media is not supported in your browser
VIEW IN TELEGRAM
Прогресс за один год.
🔥 Scalable MatMul-free Language Modeling
https://arxiv.org/abs/2406.02528
Implementation for MatMul-free LM.
https://github.com/ridgerchu/matmulfreellm
Даёшь железную LLM в каждом утюге!
tweeprint
https://arxiv.org/abs/2406.02528
Implementation for MatMul-free LM.
https://github.com/ridgerchu/matmulfreellm
Даёшь железную LLM в каждом утюге!
tweeprint
Утверждается, что операции MatMul можно полностью исключить из LLM, сохраняя при этом высокую производительность в масштабах с миллиардами параметров, а за счет использования оптимизированного ядра во время вывода потребление памяти их модели может быть уменьшено более чем в 10 раз по сравнению с неоптимизированными моделями.
Предлагаемый LLM без MatMul заменяет операции MatMul в плотных слоях тройными накоплениями с использованием весов, ограниченных {-1, 0, +1}. Это снижает вычислительные затраты и использование памяти, сохраняя при этом выразительность сети.
Чтобы удалить MatMul из внимания, Gated Recurrent Unit (GRU) оптимизирован для использования исключительно поэлементных произведений, создавая микшер токенов Linear GRU (MLGRU) без MatMul. MLGRU упрощает GRU, удаляя веса, связанные со скрытым состоянием, обеспечивая параллельные вычисления и заменяя оставшиеся веса троичными матрицами.
Специальный ускоритель FPGA создан для использования упрощенных операций LLM без MatMul. Ускоритель обрабатывает модели с миллиардом параметров с производительностью 13 Вт, превышающей удобочитаемую для человека производительность, демонстрируя потенциал эффективности, сравнимой с эффективностью мозга, в будущих легких LLM.