NeurIPS2021 HRFormer:HRNet又出续作啦!国科大&北大&MSRA提出高分辨率Transformer,开源!

论文链接:https://arxiv.org/abs/2110.09408
项目链接:https://github.com/HRNet/HRFormer

01

02
2.1. Multi-resolution parallel transformer

2.2. Local-window self-attention

2.3. FFN with depth-wise convolution
2.4. Representation head designs
在ImageNet分类中,作者将四分辨率特征映射送到bottleneck中,输出通道分别更改为128,256,512和1024。然后,作者用卷积对它们进行融合,并输出2048个通道的最低分辨率特征图。最后,用一个全局平均池化操作,然后是最终的分类器。 在姿势估计中,作者只在最高分辨率的特征图上应用回归头。 在语义分割中,作者将语义分割头应用于concat之后的特征表示(首先将所有低分辨率表示向上采样到最高分辨率,然后将它们concat在一起)。
2.6. Instantiation


2.7. Analysis

03
3.1 Human Pose Estimation



3.2 Semantic Segmentation


3.3 ImageNet Classification

3.4 Ablation Experiments
Influence of 3×3depth-wise convolution within FFN

Influence of shifted window scheme & 3×3 depth-wise convolution within FFN based on Swin-T

Comparison to ViT, DeiT & Swin on pose estimation

Comparison to HRNet

04

END
加入「Transformer」交流群👇备注:TFM
赞 (0)
