加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
◎本文为极市开发者「可乐」原创投稿,转载请注明来源。◎极市「论文推荐」专栏,帮助开发者们分享自己的最新工作,欢迎大家投稿。联系极市小编(ID:fengcall19),备注:投稿,即可投稿~很多图像生成任务都需要在空域对输入图像进行移动和重新排列。然而,卷积神经网络难以进行高效的空域转换操作。近日,来自北大和鹏城实验室的研究者们提出了一种全新的空域转换模块Global-Flow Local-Attention。这一模块将光流和注意力机制结合起来,通过首先提取源图像与目标图像之间的整体相关性,得到全局的光流图。然后利用光流图,采样局部的特征块以进行局部的注意力操作。他们在人体姿态转换任务上测试了提出模型的优越性。实验结果证明模型可以对输入图像进行准确高效地空域转换:输出结果图像保持了输入图像中逼真的细节纹理;同时,模型的参数量不足现有主流方法的一半。每一组图像中,左侧为生成图像,右侧为输入图像。箭头展示了文章提出的Global-Flow Local-Attention模块对输入数据的空间移动过程此外文章还将提出的模块用于Image Animation任务。通过输入连续的指导信息来生成逼真的运动视频。
Global-Flow Local-Attention模型简介
文章所提出的模型架构如上图所示。具体来说,模型可以被分为两个模块:全局光流提取器和局部特征渲染器。全局光流提取器用来提取源图像和目标图像之间的光流场。而局部特征渲染器则利用提取到的光流场从源图像中采样逼真的纹理信息,从而对目标图像的骨架进行渲染,得到结果图像。为了使模型稳定地收敛,在局部特征渲染器中,文章没有采用传统的双线性插值进行采样。而是使用了内容感知的局部注意力机制。这一操作的具体流程如上图所示。首先,从源特征以及目标特征中提取局部的图像块。利用局部采样核预测网络来预测图像块对之间的注意力系数。这一系数被用做采样参数来采样提取的局部特征块。以得到最终的采样结果。
那么算法的实际效果如何呢?
作者在两个数据集上进行了对比实验。在客观指标FID和LPIPS上算法都有明显的优势。同时他们也在MTurk平台邀请志愿者进行了主观测试的实验。JND(Just Noticeable Difference)表示了各个方法生成的结果与真实图像对比时的欺骗率。可以看到文章提出的算法取得了很好的测试结果。
从不同算法的结果图像中可以看出文章所提出的算法不仅能够生成正确的姿势,同时还能够还原出结果图像逼真的纹理信息,例如:衣服上的图案花纹、鞋带的样式等等。
此外,文章还进行了详尽的消融实验来验证假设的正确性。对比的模型包括:不使用任何Attention模块(Baseline);使用传统的Global Attention模块(Global-Attn);使用光流模块,但是采用双线性插值进行采样(Bi-sample)以及完整的模型(Full Model)。可以看出,采用完整Global-Flow Local-Attention模块的模型(Full Model)取得了最好的性能。
通过分析消融实验的主观结果图像可以进一步地为这一结论寻找可能的解释。Baseline难以恢复细节信息,因为它使用一种先将原始信息抽象,后扩散至局部的方式来生成结果图像。Global-Attn将某一特征与全部的特征计算相似度并采样。这样的采样方式并不符合该任务的需求,因此结果图像无法恢复逼真的细节信息。Bi-sample会因为错误的采样而导致性能下降。Full Model维持了良好的结构和细节信息。
传递门
https://arxiv.org/pdf/2003.00696.pdfhttps://github.com/RenYurui/Global-Flow-Local-Attention