VideoGPT: Video Generation using VQ-VAE and Transformers
Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.
VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.
Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).
Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.
ArXiv
Проект
Colab
#video #generative
Концептуально простая архитектура для масштабирования генеративного моделирования на основе правдоподобия (likelihood modeling) на естественное видео.
VideoGPT использует VQ-VAE, который выучивает латентные представления исходного видео с пониженной дискретизацией (downsampled), используя 3D-свертки и осевой self-attention.
Затем простая архитектура, типа #GPT, используется для авторегрессионного моделирования дискретных латентных представлений с помощью пространственно-временных позиционных кодировок (spatio-temporal position encodings).
Сеть способна генерировать видосы, конкурентоспособные с современными #GAN-моделями для генерации видео.
ArXiv
Проект
Colab
#video #generative
Статья про предсказание энергии молекулы нейросетью.
В принципе - работает. Зачем нужно - в молдинамике часть расчетов опирается на энергию, которую и пытается предсказать нейросеть. Предсказания можно засовывать вместо времязатратных алгоритмов и за счет этого ускорять работу молдинамики.
У нейросети очень простая архитектура - предобработанные признаки кормятся в многослойный персептрон. Единственная выгода по сравнению с обычным бустингом - можно дообучить на интересующий вас класс веществ.
Почему-то авторы до сих пор не пытаются делать GNN - учитывая простоту действа, по-видимому, что-то тривиальное из графовых нейронок не работает лучше. Вполне возможно, ибо признаки хитроватые и придуманные не из головы, а на основе подходов до этого.
Статья
#ScientificML #chemistry #MLP
В принципе - работает. Зачем нужно - в молдинамике часть расчетов опирается на энергию, которую и пытается предсказать нейросеть. Предсказания можно засовывать вместо времязатратных алгоритмов и за счет этого ускорять работу молдинамики.
У нейросети очень простая архитектура - предобработанные признаки кормятся в многослойный персептрон. Единственная выгода по сравнению с обычным бустингом - можно дообучить на интересующий вас класс веществ.
Почему-то авторы до сих пор не пытаются делать GNN - учитывая простоту действа, по-видимому, что-то тривиальное из графовых нейронок не работает лучше. Вполне возможно, ибо признаки хитроватые и придуманные не из головы, а на основе подходов до этого.
Статья
#ScientificML #chemistry #MLP
ACS Publications
TorchANI: A Free and Open Source PyTorch-Based Deep Learning Implementation of the ANI Neural Network Potentials
This paper presents TorchANI, a PyTorch-based program for training/inference of ANI (ANAKIN-ME) deep learning models to obtain potential energy surfaces and other physical properties of molecular systems. ANI is an accurate neural network potential originally…
Evaluating CLIP: Towards Characterization of Broader Capabilities and Downstream Implications
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
В новой статье OpenAI анализирует #CLIP. CLIP снижает потребность в обучающих данных для конкретной задачи, что потенциально открывает многие нишевые задачи для автоматизации. CLIP также позволяет пользователям гибко задавать классы классификации изображений на естественном языке, что, как выяснили авторы, может изменить характер проявления баесов.
Результаты дополняют растущее число работ, призывающих изменить понятие "лучшей" модели - перейти от простого определения более высокой точности, к более широкому понятию "лучше", которое учитывает критически важные особенности инференса, такие как различные контексты использования и людей, которые взаимодействуют с моделью.
Статья
#generative #multimodal #images #nlp
ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models.
Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.
В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.
Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.
Статья
#generative #diffusion #images
Диффузионно-вероятностные модели (DDPM) показали замечательную производительность при отменном в качестве генерации изображений. Однако из-за стохастичности процесса генерации в DDPM сложно генерировать изображения с желаемой семантикой.
В данной работе предлагается итеративное уточнение латентных переменных (ILVR) - метод, позволяющий направлять генеративный процесс для создания высококачественных изображений на основе заданного эталонного изображения. Это улучшение позволяет одному DDPM выбирать изображения из различных наборов, определяемых эталонном.
Управляемость метода позволяет адаптировать DDPM без дополнительного обучения к различным задачам генерации изображений, таким как генерация с различными коэффициентами понижения дискретизации (downsampling), перевод изображений в несколько областей, раскраска изображения и редактирование с помощью каракулей.
Статья
#generative #diffusion #images
Интерактивная книга Deep Learning for Molecules and Materials.
Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.
В Веб-книге куча интерактивных примеров с кодом для различных задач.
#ScientificML #books #chemistry #resources
Глубокое обучение становится стандартным инструментом в химии и материаловедении. Классический пример - соединение активности и структуры молекулы. Недавний пример - значительное ускорение квантовых расчетов до такой степени, что вы можете достичь точности уровня DFT с помощью быстрого дифференцируемого расчета. Что делает глубокое обучение особенно актуальным, так это его способность генерировать новые данные.
В Веб-книге куча интерактивных примеров с кодом для различных задач.
#ScientificML #books #chemistry #resources
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network
Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.
Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.
UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.
Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.
Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.
Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.
Статья
Веб-Сервер
#ScientificML #chemistry #graphs
Точная и быстрая оценка pKa малых молекул жизненно важна в процессе поиска лекарств. Авторы представляют MolGpKa, веб-сервер для предсказания pKa с помощью граф-конволюционной нейросетевой модели.
Модель работает путем автоматического изучения химических паттернов, связанных с pKa, и построения надежных предикторов с использованием изученных характеристик.
UPDATE
В то время как как возможный пример применения статья подходит, сама по себе она сделана максимально халтурно.
Самое главное - предсказываются не сами pKa, а pKa, которые уже ПРЕДСКАЗАНЫ. Ибо экспериментальных данных мало, ага.
Валидируются они на экспериментальных датасетах, где, внезапно, показывают качество похожее на качество уже известных методов предсказания pKa (не правда ли - удивительно(( ).
При этом разбиение на train и test оставляет вопросы. Они пишут, что удалили вещества, которые есть в тесте из датасета. Но удалили ли они вещества, отличающиеся на один незначимый заместитель? Из их текста это не следует, построенные гистограммы расстояний ввеществ из экспериментального датасета до обучения неинформативны - их никак не отнормировали на тот факт, что есть огромное число веществ, которые непохожи на тест.
В итоге хвост распределения - сколько похожих - не видно. А хватит и по одному на каждое вещество из теста.
Эта работа позволяет получить дифференцируемое предсказание, казалось бы. Но на вход-то нейросеть принимает описание, которое составляется детерминированным алгоритмом, который еще и исходную структуру модифицирует пуутем удаления части фрагментов.
Потому приделать эту нейросеть в качестве дискриминатора для случая, когда вы хотите генерить вещества с заданным pKa тоже не получится.
Статья
Веб-Сервер
#ScientificML #chemistry #graphs
ACS Publications
MolGpka: A Web Server for Small Molecule pKa Prediction Using a Graph-Convolutional Neural Network
pKa is an important property in the lead optimization process since the charge state of a molecule in physiologic pH plays a critical role in its biological activity, solubility, membrane permeability, metabolism, and toxicity. Accurate and fast estimation…
Датасет мировой смертности
World Mortality Dataset содержит еженедельные, ежемесячные или ежеквартальные данные о смертности от всех причин из 103 стран и территорий. Он содержит данные о смертности от всех причин на уровне стран в 2015-2021 годах, собранные из различных источников.
Датасет
#ScientificML #social #datasets
World Mortality Dataset содержит еженедельные, ежемесячные или ежеквартальные данные о смертности от всех причин из 103 стран и территорий. Он содержит данные о смертности от всех причин на уровне стран в 2015-2021 годах, собранные из различных источников.
Датасет
#ScientificML #social #datasets
STanford EArthquake Dataset (STEAD): A Global Data Set of Seismic Signals for AI
Сейсмология - это наука, богатая данными. Применение машинного обучения для добычи новых знаний из сейсмических данных является быстро развивающейся подобластью сейсмологии. Доступность большого количества сейсмических данных и вычислительных ресурсов, а также развитие передовых методов могут способствовать созданию более надежных моделей и алгоритмов для обработки и анализа сейсмических сигналов.
Набор данных в его нынешнем состоянии содержит две категории: (1) сигналы локальных землетрясений (записанные на "местных" расстояниях в пределах 350 км от землетрясений) и (2) сигналы сейсмического шума, не содержащие сигналов землетрясений. Вместе эти данные составляют ~1,2 миллиона временных рядов (time series) или более 19 000 часов записей сейсмических сигналов.
Статья
Датасет
#ScientificML #earthscience #datasets
Сейсмология - это наука, богатая данными. Применение машинного обучения для добычи новых знаний из сейсмических данных является быстро развивающейся подобластью сейсмологии. Доступность большого количества сейсмических данных и вычислительных ресурсов, а также развитие передовых методов могут способствовать созданию более надежных моделей и алгоритмов для обработки и анализа сейсмических сигналов.
Набор данных в его нынешнем состоянии содержит две категории: (1) сигналы локальных землетрясений (записанные на "местных" расстояниях в пределах 350 км от землетрясений) и (2) сигналы сейсмического шума, не содержащие сигналов землетрясений. Вместе эти данные составляют ~1,2 миллиона временных рядов (time series) или более 19 000 часов записей сейсмических сигналов.
Статья
Датасет
#ScientificML #earthscience #datasets
Efficient Visual Pretraining with Contrastive Detection
Self-supervised learning обещает использовать огромные объемы данных, но существующие методы - медленные и дорогостоящие.
Звездный коллектив авторов из DeepMind представляет контрастное обнаружение (contrastive detection)- новый таргет, который позволяет получать полезные представления для многих задач, используя в 10 раз меньше вычислений.
Контрастное обнаружение усиливает полезный сигнал от каждого изображения, разрезая его на части и обучаясь на каждой из них одновременно. Этот подход особенно хорошо работает при переносе на сложные задачи, такие как обнаружение, сегментация и оценка глубины.
Статья
#SSL #ContrastiveLearning #detection #images
Self-supervised learning обещает использовать огромные объемы данных, но существующие методы - медленные и дорогостоящие.
Звездный коллектив авторов из DeepMind представляет контрастное обнаружение (contrastive detection)- новый таргет, который позволяет получать полезные представления для многих задач, используя в 10 раз меньше вычислений.
Контрастное обнаружение усиливает полезный сигнал от каждого изображения, разрезая его на части и обучаясь на каждой из них одновременно. Этот подход особенно хорошо работает при переносе на сложные задачи, такие как обнаружение, сегментация и оценка глубины.
Статья
#SSL #ContrastiveLearning #detection #images
Physics meets ML
11 августа в 12:00 ET Miles Cranmer будет читать доклад по теме "Interpretable Deep Learning for Physics"
Доступ свободный
#news #ScientificML
11 августа в 12:00 ET Miles Cranmer будет читать доклад по теме "Interpretable Deep Learning for Physics"
Доступ свободный
#news #ScientificML
www.physicsmeetsml.org
Interpretable Deep Learning for Physics
Miles Cranmer, Princeton 12:00 ET
Deciphering Ancient Texts with AI
Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.
Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.
Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.
Блог-пост
#ScientificML #nlp #images #history #lingustics
Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.
Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.
Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.
Блог-пост
#ScientificML #nlp #images #history #lingustics
This media is not supported in your browser
VIEW IN TELEGRAM
SofGAN: A Portrait Image Generator with Dynamic Styling
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
Генератор изображений SofGAN разделяет латентное пространство портретов на два подпространства: пространство геометрии и пространство текстур. Латентные коды, отобранные из двух подпространств, подаются на две ветви сети по отдельности: одна для генерации 3D-геометрии портретов с канонической позой, а другая - для генерации текстур.
Но это все фигня по сравнению с редактором который они поставляют вместе со своим ганом!
Статья
Проект
GitHub
#images #gan #generative
This media is not supported in your browser
VIEW IN TELEGRAM
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
Нейронная живопись - это процедура создания серии штрихов для заданного изображения и его нефотореалистичного воссоздания с помощью нейронных сетей. В отличие от предыдущих методов, в данной работе авторы формулируют задачу как проблему прогнозирования набора (set prediction problem) и предлагают новую систему - Paint Transformer, для прогнозирования параметров набора штрихов.
Модель может генерировать набор мазков параллельно и получать картинку размером 512 * 512 практически в реальном времени. Более того, поскольку для обучения Paint Transformer не существует набора данных, авторы разработали пайплайн самообучения (self-training pipeline), который позволяет обучать модель без использования готовых наборов данных, при этом достигая хорошей генерализации.
Статья
GitHub
Онлайн-демо
#styletransfer #images #art
Нейронная живопись - это процедура создания серии штрихов для заданного изображения и его нефотореалистичного воссоздания с помощью нейронных сетей. В отличие от предыдущих методов, в данной работе авторы формулируют задачу как проблему прогнозирования набора (set prediction problem) и предлагают новую систему - Paint Transformer, для прогнозирования параметров набора штрихов.
Модель может генерировать набор мазков параллельно и получать картинку размером 512 * 512 практически в реальном времени. Более того, поскольку для обучения Paint Transformer не существует набора данных, авторы разработали пайплайн самообучения (self-training pipeline), который позволяет обучать модель без использования готовых наборов данных, при этом достигая хорошей генерализации.
Статья
GitHub
Онлайн-демо
#styletransfer #images #art
CLIP Guided Diffusion HQ
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
Обновился Colab с guided diffusion. Теперь доступное разрешение 512х512 px и улучшилось качество генерации.
Картинка сгенерирована по тексту: a beautiful watercolor painting of wind
#text2image #generative #CLIP #diffusion
OpenAI Codex - просто чума!
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
Час назад, OpenAI провела лайв-демо своего нового API Codex, которое позволяет пользоваться их моделью для генерации кода. Было показано много прикольных применений типа автонаписания кода и даже игры на JavaScript. Но самое сладкое они оставили на конец.
У многих программ есть своё собственное API (например у Word). Так вот, Codeх способен к ним подключаться и напрямую управлять софтом. Например, в демо показано как с помощью одной голосовой команды можно удалить все лишние пробелы в вордовском документе или выделить жирным каждую 5ую строку!
Посмотреть презентацию можно тут: https://www.youtube.com/watch?v=SGUCcjHTmGY
#code #news #generative #nlp
Forwarded from Neural Shit
Генерация различных шрифтов с помощью VQGAN и CLIP.
На самом деле, с помощью этого инструмента помимо шизоидных картинок можно делать очень крутые и красивые вещи, лишь бы с фантазией всё хорошо было. Особенно, если учесть, что к clip можно сравнительно легко прикручивать другие модели.
На самом деле, с помощью этого инструмента помимо шизоидных картинок можно делать очень крутые и красивые вещи, лишь бы с фантазией всё хорошо было. Особенно, если учесть, что к clip можно сравнительно легко прикручивать другие модели.
Анализ гистопатологических изображений
Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.
#ScientificML #medicine #biology
Репозиторий посвящен использованию машинного обучения для обработки гистопатологических изображений. Все модели сделаны на PyTorch и протестированы на множестве клинически значимых задач.
#ScientificML #medicine #biology
#ScientificML #medicine #biology #transformer #classification #mlp #smalldataset #datasets
Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.
По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).
На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.
Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.
Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно
Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.
Была статья в 2020 о том, что на самом деле attention transformer - это современная хопфилдовская сеть, которая сходится за один шаг. Что дает такая идея - в современных хопфилдовских сетях есть часть, которая, фактически, хранит наиболее "харизматичные" паттерны из выборки.
По сути - то, что мы в явном виде делаем для SVM. В нем опорные вектора - это как раз самые важные для классификации объекты, с которыми мы сравниваем поступивший на вход новый объект. Именно потому, кстати, SVM можно рассматривать как очень хитрый KNN (особенно если SVM набрала в опорные вектора всю обучающую выборку, что у меня в задаче происходит).
На основе этой интуиции авторы, выпустили статью с применением хопфилдовских сетей для классификации immune repertoire человека. К сложности этой задачи относится то, что размерность входного объекта в разы больше, чем число объектов, которые можно собрать в обозримое время. То есть нужна модель с довольно жесткой регуляризацией, иначе все переобучится.
Статья в принципе интересная, однако прям видно, что выучивается что-то типо SVM (качество нейросети не отличается значимо от созданной под эти цели SVM, смотрите таблицу 1 в статье). При этом понятно, что бонус нейросетевого решения - возможность transfer learning и в принципе шкалируемость метода. Ибо SVM работает на больших датасетах очень долго.
Но как бы сделать все очень тупо и просто, но в виде attention? Авторы новой статьи предлагают решить это просто - пусть теперь key и values в наших слоях будут не вычисляться динамически на основе входных данных, а будут обучаемыми весами.
В идеале эти веса как раз и выучат паттерны и соответствующими им характеристики, нужные для решения задачи.
Кроме этого, бонусом идет то, что число паттернов можно ставить
1) не очень большое (у авторов работают значения k = 64)
2) сложность вычисления на слоях кроме первого в начинает зависеть от длины входной последовательности только линейно
Для части задач у авторов получается хорошее качество, сравнимое с state-of-the-art. При этом в идеале можно из выучиваемых весов вытаскивать какие-то инсайты по решаемой задаче.