Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаем изучать пользу, которую приносит нам 3D Gaussian Splatting. Этот метод генерации решил проблемы и длительного рендеринга, и обучения этому моделей 💥
Но есть нюансы☺️
Результат всё же зависит от входной картинки. В тех случаях, когдаснято на тапок изображение размыто или к движениям камеры есть претензии (они слишком резкие или трясущиеся 🤬 ), ту же нечёткость, плохое воссоздание деталей, скачки и потряхивания мы получим и на выходе.
Появилось решение. Нейросеть Deblur-GS из размытого “гуляющего” изображения делает “конфетку”🎂
Стабилизирует видео, а объектам придаёт чёткие границы. Качество картинки значительно улучшается, движения становятся плавнее.
Но есть нюансы
Результат всё же зависит от входной картинки. В тех случаях, когда
Появилось решение. Нейросеть Deblur-GS из размытого “гуляющего” изображения делает “конфетку”
Стабилизирует видео, а объектам придаёт чёткие границы. Качество картинки значительно улучшается, движения становятся плавнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
TKAN: Temporal Kolmogorov-Arnold Networks
https://arxiv.org/abs/2405.07344
https://arxiv.org/abs/2405.07344
Inspired by the Kolmogorov-Arnold Networks (KANs) a promising alternatives to MultiLayer Perceptrons (MLPs), we proposed a new neural networks architecture inspired by KAN and the LSTM, the Temporal Kolomogorov-Arnold Networks (TKANs). TKANs combined the strenght of both networks, it is composed of Recurring Kolmogorov-Arnold Networks (RKANs) Layers embedding memory management.
Full causal self-attention layer in O(NlogN) computation steps and O(logN) time rather than O(N^2) computation steps and O(1) time, with a big caveat, but hope for the future.
https://www.reddit.com/r/MachineLearning/comments/1cri6h6/d_full_causal_selfattention_layer_in_onlogn/
- Автор утверждает, что разработал метод расчета полного causal self-attention слоя за O(N) шагов вычислений и время O(logN), что является значительным улучшением по сравнению с традиционными O(N^2) шагами вычислений.
- Метод включает в себя использование техники параллельного сканирования для вычисления базисных функций ряда Тейлора, которые затем используются для вычисления числителя и знаменателя softmax-активации полного causal self-attention слоя.
- В настоящее время этот метод неэффективен и непрактичен, но автор надеется, что он вдохновит на дальнейшие исследования по поиску более эффективных альтернатив.
https://www.reddit.com/r/MachineLearning/comments/1cri6h6/d_full_causal_selfattention_layer_in_onlogn/
- Автор утверждает, что разработал метод расчета полного causal self-attention слоя за O(N) шагов вычислений и время O(logN), что является значительным улучшением по сравнению с традиционными O(N^2) шагами вычислений.
- Метод включает в себя использование техники параллельного сканирования для вычисления базисных функций ряда Тейлора, которые затем используются для вычисления числителя и знаменателя softmax-активации полного causal self-attention слоя.
- В настоящее время этот метод неэффективен и непрактичен, но автор надеется, что он вдохновит на дальнейшие исследования по поиску более эффективных альтернатив.
Convolutional Kolmogorov-Arnold Network (CKAN)
Convolutional-KANs: This project extends the idea of the innovative architecture of Kolmogorov-Arnold Networks (KAN) to the Convolutional Layers, changing the classic linear transformation of the convolution to learnable non linear activations in each pixel.
https://github.com/AntonioTepsich/Convolutional-KANs
Convolutional-KANs: This project extends the idea of the innovative architecture of Kolmogorov-Arnold Networks (KAN) to the Convolutional Layers, changing the classic linear transformation of the convolution to learnable non linear activations in each pixel.
https://github.com/AntonioTepsich/Convolutional-KANs
Forwarded from Новости нейронаук и нейротехнологий
Нейронауки в Science и Nature. Выпуск 286: не всякий сон влияет на контакты между нейронами
Согласно гипотезе синаптического гомеостаза, синапсы – контакты между нервными клетками – увеличиваются в количестве во время бодрствования и устраняются во время сна. Исследователи из Университетского колледжа Лондона выяснили, что таким эффектом обладает только сон «высокого давления», который случается после длительного бодрствования. Причем величина эффекта «синаптических потерь» зависит от подтипа нейронов. Подробности работы опубликованы в журнале Nature.
Читать дальше:
https://neuronovosti.ru/nejronauki-v-science-i-nature-vypusk-286-ne-vsyakij-son-vliyaet-na-kontakty-mezhdu-nejronami/
Согласно гипотезе синаптического гомеостаза, синапсы – контакты между нервными клетками – увеличиваются в количестве во время бодрствования и устраняются во время сна. Исследователи из Университетского колледжа Лондона выяснили, что таким эффектом обладает только сон «высокого давления», который случается после длительного бодрствования. Причем величина эффекта «синаптических потерь» зависит от подтипа нейронов. Подробности работы опубликованы в журнале Nature.
Читать дальше:
https://neuronovosti.ru/nejronauki-v-science-i-nature-vypusk-286-ne-vsyakij-son-vliyaet-na-kontakty-mezhdu-nejronami/
Memory Mosaics
https://arxiv.org/abs/2405.06394
Memory Mosaics — это сеть ассоциативных воспоминаний, работающих совместно для решения интересующей задачи прогнозирования. Подобно трансформаторам, Memory Mosaics обладает композиционными способностями и возможностями контекстного обучения. В отличие от трансформаторов, Memory Mosaics реализует эти возможности сравнительно прозрачным образом. Мы демонстрируем эти возможности на игрушечных примерах, а также показываем, что Memory Mosaics работает так же или даже лучше, чем трансформеры, в задачах моделирования языка среднего масштаба.
Ключевые моменты:
- Производительность: Memory Mosaics соответствует или превосходит трансформеры в задачах языкового моделирования среднего масштаба.
- Прозрачность: в отличие от часто непрозрачной внутренней работы трансформеров, Memory Mosaics реализует свои возможности более интерпретируемыми средствами.
- Predictive Disentanglement Principle: этот принцип объясняет, как обучение разлагает задачи на независимо запоминаемые фрагменты, повышая эффективность и понимание.
Архитектура:
- Никакого позиционного кодирования не требуется.
- Блоки контекстной памяти заменяют традиционные головы внимания, предлагая новый подход к обработке последовательностей.
https://arxiv.org/abs/2405.06394
Memory Mosaics — это сеть ассоциативных воспоминаний, работающих совместно для решения интересующей задачи прогнозирования. Подобно трансформаторам, Memory Mosaics обладает композиционными способностями и возможностями контекстного обучения. В отличие от трансформаторов, Memory Mosaics реализует эти возможности сравнительно прозрачным образом. Мы демонстрируем эти возможности на игрушечных примерах, а также показываем, что Memory Mosaics работает так же или даже лучше, чем трансформеры, в задачах моделирования языка среднего масштаба.
Ключевые моменты:
- Производительность: Memory Mosaics соответствует или превосходит трансформеры в задачах языкового моделирования среднего масштаба.
- Прозрачность: в отличие от часто непрозрачной внутренней работы трансформеров, Memory Mosaics реализует свои возможности более интерпретируемыми средствами.
- Predictive Disentanglement Principle: этот принцип объясняет, как обучение разлагает задачи на независимо запоминаемые фрагменты, повышая эффективность и понимание.
Архитектура:
- Никакого позиционного кодирования не требуется.
- Блоки контекстной памяти заменяют традиционные головы внимания, предлагая новый подход к обработке последовательностей.
🔥1
Forwarded from Блуждающий нерв
This media is not supported in your browser
VIEW IN TELEGRAM
Окно Эймса. Все знают комнату Эймса, а вот окно видели меньше. Хотя эта иллюзия не менее крута: реальный объект, без спецэффектов, просто крутится по часовой стрелке. Глаза смотрят, мозг конструирует гипотезы и не понимает, как такой объект возможен. И окончательно запутывается.
Когда много лет назад я выложил этот ролик в жж, некоторые сказали, что им все же удалось увидеть “истину”, мне же, как я ни старался, этого не удается до сих пор — восприятие все так же порабощает знание. Да, голос за кадром принадлежит Ричарду Грегори (Richard Gregory), выдающемуся когнитивному психологу ХХ века, одному из главных экспертов в области зрительного восприятия.
Окно Эймса отлично разобрал в своем видео блогер Veritasium, построив модели разных размеров (тот же ролик с русской озвучкой). И заодно — на днях в Frontiers вышла подборка статей “Будущее иллюзий восприятия: от феноменологии до нейронауки”, как раз в тему.
Когда много лет назад я выложил этот ролик в жж, некоторые сказали, что им все же удалось увидеть “истину”, мне же, как я ни старался, этого не удается до сих пор — восприятие все так же порабощает знание. Да, голос за кадром принадлежит Ричарду Грегори (Richard Gregory), выдающемуся когнитивному психологу ХХ века, одному из главных экспертов в области зрительного восприятия.
Окно Эймса отлично разобрал в своем видео блогер Veritasium, построив модели разных размеров (тот же ролик с русской озвучкой). И заодно — на днях в Frontiers вышла подборка статей “Будущее иллюзий восприятия: от феноменологии до нейронауки”, как раз в тему.
👍1
а внутри у ней неонка Gradient Descent
Transformers learn in-context by gradient descent
https://arxiv.org/abs/2212.07677
краткое содержание с переводом по твиту:
Really fantastic paper for a new understanding of In-context Learning in Transformers
"Transformers learn in-context"
Контекстное обучение означает способность Трансформаторов адаптировать свои прогнозы на основе контекста, представленного во входной последовательности, без необходимости явной тонкой настройки или обновления параметров модели. Это позволяет Трансформаторам выполнять такие задачи, как пошаговое обучение, когда модель может учиться на небольшом количестве примеров, представленных во входном контексте.
Продолжение в комментах.
Transformers learn in-context by gradient descent
https://arxiv.org/abs/2212.07677
краткое содержание с переводом по твиту:
Really fantastic paper for a new understanding of In-context Learning in Transformers
"Transformers learn in-context"
Контекстное обучение означает способность Трансформаторов адаптировать свои прогнозы на основе контекста, представленного во входной последовательности, без необходимости явной тонкой настройки или обновления параметров модели. Это позволяет Трансформаторам выполнять такие задачи, как пошаговое обучение, когда модель может учиться на небольшом количестве примеров, представленных во входном контексте.
Продолжение в комментах.
Официальное заявление Скарлетт Йоханссон, в котором подробно описывается предполагаемое незаконное использование OpenAI ее голоса...
видео
видео
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
https://arxiv.org/abs/2405.12130
https://github.com/kongds/MoRA
https://arxiv.org/abs/2405.12130
https://github.com/kongds/MoRA
Sparse Hash AI
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning https://arxiv.org/abs/2405.12130 https://github.com/kongds/MoRA
твит
Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.
Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. ✨
MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.
«MoRA: обновление высокого ранга для эффективной точной настройки параметров»
Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.
Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.
Механизм обновления низкого ранга может ограничить способность LLM эффективно изучать и запоминать новые знания.
Решите ее с помощью MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. ✨
MoRA превосходит LoRA на задачах с интенсивным использованием памяти и достигает сопоставимой производительности на других задачах, демонстрируя эффективность высокорангового обновления.
«MoRA: обновление высокого ранга для эффективной точной настройки параметров»
Эксперименты показывают, что MoRA соответствует производительности LoRA в настройке инструкций и математических рассуждениях, а также демонстрирует превосходную производительность в непрерывном предварительном обучении и задачах памяти. В экспериментах перед обучением MoRA превосходит LoRA и ReLoRA, еще раз демонстрируя эффективность обновления высокого ранга.
Анализ спектра сингулярных значений для изученного ∆W показывает, что MoRA и ReMoRA (MoRA со слиянием и повторной инициализацией) демонстрируют значительно большее количество значимых сингулярных значений по сравнению с LoRA и ReLoRA, что подчеркивает их эффективность в повышении ранга ∆W.
GitHub
GitHub - greydanus/mnist1d: A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning…
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions. - greydanus/mnist1d
A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions.
https://github.com/greydanus/mnist1d
Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
https://github.com/greydanus/mnist1d
Большинство моделей машинного обучения имеют примерно одинаковую точность тестов в MNIST — около 99 %. Набор данных в этом репозитории, MNIST-1D, в 20 раз меньше и лучше справляется с разделением моделей с нелинейностью или без нее и моделей с пространственными индуктивными смещениями или без них.
Forwarded from AbstractDL
Your Transformer is Secretly Linear
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один
Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub, хабр
Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь один
nn.Linear(), а модель будет работать, будто бы ничего не поменялось!Такая неадекватная линейность наблюдается во всех трансформерах-декодерах (GPT, Llama, Mistral, и тд.). Мы предполагаем, что это связано с feature triggering режимом, то есть нелинейность "вспыхивает" на очень небольшом количестве важных токенов (что-то похожее было в статье Deja Vu). Поэтому совсем уж много слоёв таким образом заменить нельзя, нелинейность хоть сама по себе и крошечная, но её влияние очень быстро накапливается.
Ещё из интересных наблюдений — по мере претрейна нелинейность растёт, а во время файнтюнинга (или RLHF) она всегда падает. Исходя из этого, мы придумали регуляризацию, которая немножко усиливает нелинейность и бустит метрики на претрейне.
P.S. Вместе с кодом для оценки линейности слоёв трансформеров мы выкладываем и код к прошлой нашей статье про анизотропию и внутреннюю размерность.
Статья, GitHub, хабр
Attention as an RNN
https://arxiv.org/abs/2405.13956
"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"
Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).
X
https://arxiv.org/abs/2405.13956
"attention can be viewed as an RNN with the special ability to compute its many-to-one RNN output efficiently"
Proposes Aaren, a new module that can be trained in parallel (like Transformers) but also be efficiently updated at inference time, thereby requiring only constant memory (like RNNs).
X
🤔1
AbstractDL
Your Transformer is Secretly Linear Мою новую статью приняли на ACL 🎉. Мы обнаружили, что большинство слоёв языковых моделей линейны на 99%! Это значит, что из любого слоя LLM можно выкинуть этэншн, нормализацию и даже feed-forward с активацией, оставив лишь…
Not All Language Model Features Are Linear
https://arxiv.org/abs/2405.14860
MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures
X
https://arxiv.org/abs/2405.14860
MultiDimensionalFeatures: Code for reproducing our paper "Not All Language Model Features Are Linear"
https://github.com/JoshEngels/MultiDimensionalFeatures
X
LLM кодируют последовательности в эмбеддинги так же как я собирал их из гипервекторов (сложением векторов понятий).
Апрель = 4 + Месяц
Вторник = 2 + День
Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230
X
Апрель = 4 + Месяц
Вторник = 2 + День
Successor Heads: Recurring, Interpretable Attention Heads In The Wild
https://arxiv.org/abs/2312.09230
X
Transformers Can Do Arithmetic with the Right Embeddings
https://arxiv.org/abs/2405.17399
Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic
Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).
Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
https://arxiv.org/abs/2405.17399
Code to reproduce "Transformers Can Do Arithmetic with the Right Embeddings", McLeish et al (2024)
https://github.com/mcleish7/arithmetic
Вручную добавили в эмбеддинги токенов цифр информацию о численности, в которой уже закодированы взаимоотношения чисел до десятка (на мой взгляд - что-то типа зоны численности в мозге).
Неудивительно, что это улучшило у LLM счёт (с 93% до 99%). Удивительно, что раньше не додумались :)
Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents
https://arxiv.org/abs/2404.15193
tweeprint
Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.
На видео агент быстро обучается "физике".
https://arxiv.org/abs/2404.15193
Introducing Structurally Flexible Neural Networks (SFNNs)! SFNNs overcome structural rigidity in neural networks, enabling them to adapt across multiple environments with different numbers of inputs & outputs and invariance to them being permutated.
tweeprint
Резервуар с перестраиваемыми связями. Сами связи-синапсы имеют правила синаптической пластичности, чем напоминают (скорее они ими и являются) функции в рёбрах у KAN-нейронов.
На видео агент быстро обучается "физике".
Мультипост разбора исследования гроккинга в трансформере на задачах композиции и сравнения.
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071
Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).
Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.
Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...
Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.
Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
https://arxiv.org/abs/2405.15071
Из основного - гроккнутый трансформер самостоятельно как бы делится на две части (два условных слоя).
Для задачи композиции первая часть формирует что-то типа запроса, вторая по нему ищет в данных его значение, как база данных.
Жена Барака — Мишель. Мишель родилась в 1964-м. Возраст жены Барака ...
Запросом тут является Мишель из первого предложения, а данными - второе, откуда вынимается её дата рождения и переводится в возраст.
Всё это опять напоминает троицу аттеншена QKV: Q - Мишель, K - рождение, V - 1964.
Telegram
Сиолошная
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…
Очень важная и интересная работа. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует…
Лонгрид на статью Anthropic-а на тему mechanistic interpretability.
Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.
Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.
Ещё интересный момент:
Это перекликается с предыдущим постом в примере с женой Обамы.
По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).
Брали из стрима (residual stream) трансформера векторы активности (эмбеддинги) и "разжимали" их разреженным автоэнкодером (sparse autoencoder) в репрезентации, которые можно назвать функциональными когнитивными группами - КОГ-ами Анохина.
Меняя активность КОГа (нейронов определённых концепций), влияли на генерацию трансформера, который в этих экспериментах отвечал так же как мозг.
Ещё интересный момент:
– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния.
Это перекликается с предыдущим постом в примере с женой Обамы.
По текущему запросу в данных (контексте) находим ассоциативные ключи, "подкачиваем" их в память стрима и повторяем итерацию до нахождения ответа, если хватит слоёв. И тут понятно, что чем больше слоёв трансформера, тем длиннее он может производить такие размышления (поиск в контексте или своей памяти).
Telegram
я обучала одну модель
У Anthropic вышла очень большая статья про interpretability – они нашли в своей модели Claude Sonnet множество хорошо и четко интерпретируемых фич, отражающих определенные концепты. Многие из них оказались мультилингвальными и даже мультимодальными
В отличие…
В отличие…