CNN Explainer
Интерактивная визуализация Convolutional Neural Networks, которая позволяет заглянуть на каждый слой и посмотреть что именно происходит с даннными. Помимо интерактивной части, объяснняются все основные элементы. CNN с красивыми и подробными иллюстрациями.
Играть тут (к сожалению работает только с компа, на телефоне очень глючит)
#basics #images #convolutions #XAI
Интерактивная визуализация Convolutional Neural Networks, которая позволяет заглянуть на каждый слой и посмотреть что именно происходит с даннными. Помимо интерактивной части, объяснняются все основные элементы. CNN с красивыми и подробными иллюстрациями.
Играть тут (к сожалению работает только с компа, на телефоне очень глючит)
#basics #images #convolutions #XAI
Do Vision Transformers See Like Convolutional Neural Networks? (Google AI)
Недавние работы показали, что (Vision) Transformer models (ViT) могут достигать высокой производительности в задачах классификации изображений. В связи с этим возникает главный вопрос: как они эти задачи решают? Действуют ли они подобно сверточным сетям или учат совершенно другие визуальные представления?
Анализируя внутреннюю структуру представления ViTs и CNNs, авторы обнаружили поразительные различия между этими двумя архитектурами, например, ViT имеет более однородное представление во всех слоях. Оказалось, решающую роль играют self-attention, который позволяет рано агрегировать глобальную информацию, и остаточные связи ViT, которые передают признаки от нижних слоев к верхним.
Ещё авторы демонстрируют влияние предварительного обучения и масштаба датасетовна промежуточные признаки и transfer learning, и в заключение обсуждают связи с новыми архитектурами, такими как MLP-Mixer.
ArXiv
#transformer #image #Convolutions #theory
Недавние работы показали, что (Vision) Transformer models (ViT) могут достигать высокой производительности в задачах классификации изображений. В связи с этим возникает главный вопрос: как они эти задачи решают? Действуют ли они подобно сверточным сетям или учат совершенно другие визуальные представления?
Анализируя внутреннюю структуру представления ViTs и CNNs, авторы обнаружили поразительные различия между этими двумя архитектурами, например, ViT имеет более однородное представление во всех слоях. Оказалось, решающую роль играют self-attention, который позволяет рано агрегировать глобальную информацию, и остаточные связи ViT, которые передают признаки от нижних слоев к верхним.
Ещё авторы демонстрируют влияние предварительного обучения и масштаба датасетовна промежуточные признаки и transfer learning, и в заключение обсуждают связи с новыми архитектурами, такими как MLP-Mixer.
ArXiv
#transformer #image #Convolutions #theory