AI Для Всех
12.8K subscribers
1.17K photos
152 videos
10 files
1.37K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Sparse-MLP: A Fully-MLP Architecture with Conditional Computation

Mixture-of-Experts (MoE) с разреженными условными вычислениями - эффективная архитектура для масштабирования моделей attention на большее количество параметров.

Sparse-MLP - это по сути MLP-Mixer с разреженными слоями MoE. Подмножество dense блоков MLP-Mixer заменяется на разреженные (sparse) блоки. В каждом этом блоке применяется два этапа слоев MoE: один с экспертами MLP, смешивающими информацию внутри каналов по размеру патча изображения, другой с экспертами MLP, смешивающими информацию внутри патчей по размеру канала.

Кроме того, для снижения вычислительных затрат авторы используют слои Re-represent в каждом блоке Sparse. Эти слои предназначены для изменения масштаба представления изображений с помощью двух простых, но эффективных линейных преобразований.

На небольших задачах классификации изображений, т.е. Cifar10 и Cifar100 модель Sparse-MLP достигает лучшей производительности, чем базовые модели.

Статья

#mlp #images #conditional