Transformer新秀:多块嵌入+多路径=MPViT
本文对多尺度块嵌入与多路径结构进行探索,构建了MPViT(Multi-path Vision Transformer, MPViT)。结合重叠卷积块嵌入,MPViT可以同时对不同尺度、相同序列长度特征进行嵌入聚合。不同尺度的Token分别送入到不同的Transformer模块中(即并行架构)以构建同特征层级的粗粒度与细粒度特征。
一、Abstract
借助于灵活的多尺度特征表达,在不同任务(包含ImageNet分类、COCO目标检测以及ADE20K语义分割)下,不同大小的MPViT均取得了比已有Transformer更优的性能,可参考下图。
二、Method
上图给出了本文所提MPViT整体架构示意图,它是一种多阶段架构,旨在提供一种用于稠密预测的强力骨干网络。
由于多阶架构具有高分辨率特征,故本文采用了CoaT中的自注意力机制以降低计算量;正如LeViT一文提到:卷积Stem模块具有更好的low-level表达能力,故我们采用了卷积Stem模块。此外,每个卷积后接BN与HardSwish激活函数。而Stage2-5部分则由本文所提多尺度块嵌入与多路径Transformer构建。
Multi-scale Patch Embedding
本文设计了一种多尺度块嵌入层以便于在同特征维度探索细粒度和粗粒度特征。具体来说,给定来自前一阶段的2D输出特征 ,我们采用 将输入映射为新的token特征 ,其尺寸计算如下:
卷积块嵌入使得我们可以通过改变stride与padding调整序列长度,即不同块尺寸可以具有相同尺寸的输出。因此,我们构建了不同核尺寸的并行卷积块嵌入层,如序列长度相同但块尺寸可以为 , , 。
由于堆叠同尺寸卷积可以提升感受野且具有更少的参数量,我们采用两个 卷积构建 感受野,采用三个 卷积构建 感受野。通过上述处理,我们可以得到 特征。
由于MPViT的多路径结构,它具有更多的嵌入层,我们采用 深度分离卷积降低参数量与计算量。最终,不同尺寸的词嵌入特征将分别送入到不同的Transformer模块中。
Global-to-Local Feature Interaction
为进一步对多路径特征进行聚合,我们设计了一种新的特征聚合模块。可表示如下:
三、Experiments
上表给出ImageNet分类任务上不同方案的性能对比,可以看到:
· 在同等参数量与计算复杂度约束下,MPViT取得了比有ViT架构更优的性能;
· MPViT-XS与Small分别比CoaT-Lite Mini与Small性能高2.0%、1.1%;
· MPViT-Small具有更大网络PVT-L、DeiT-B/16、XCiT-M24/16更优的性能;
· MPViT-B以74M参数量取得了84.3%的指标,超过了近期同等参数的Swin-Base以及Focal-Base。
上表给出了COCO检测任务上不同方案的性能对比,从中可以看到:
· 相比同尺寸的其他ViT方案,MPViT均取得了更优的性能;
· 基于RetinaNet,MPViT-S取得了47.6%的指标,超越了Swin-T与Focal-T;
· 基于Mask R-CNN,MPViT-XS与MPViT-S优于同尺寸的CoaT-Lite Mini与Small;值得一提的是,MPViT-S取得了比XCiT-M24/8和Focal-B更高的指标,同时具有更少的FLOPs。
上图给出了ADE20K分割任务上的性能对比,从中可以看到:
· MPViT优于其他同尺寸的ViT方案;
· MPViT-S以48.3%的指标大幅超越了Swin-T、Focal-T以及XCiT-S12/16;
· MPViT-B以50.3%的指标超越了近期SOTA方案Focal-B。
本文来自:公众号【AIWalker】 作者:HappyAIWalkerIllustrastion by Iconscout Store from Iconscout
-The End-
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
网址:Transformer新秀:多块嵌入+多路径=MPViT http://c.mxgxt.com/news/view/1200680
相关内容
上海国际嵌入式展暨大会(embedded world China )与多家国际知名项目达成合作明星营销的多元收入之路,探索副业赚钱新途径
新媒体时代体育新闻传播路径
【金猿人物展】白鲸开源CEO郭炜:未来数据领域的PK是大模型Transformer vs 大数据Transform
揭秘明星之路:多元路径与成功要素深度解析
新人演员的出道之路:多种途径等你探索
普通人入行演员的路径
如何做用户行为路径分析?
选秀综艺出道,虚拟偶像的最新养成路径?
娱乐圈造富新路径.PDF