CVPR 2020|打脸SOTA!不能忍,谷歌发起图像匹配挑战赛
每一个学习计算机视觉的人恐怕都曾经或多或少接触过图像匹配,也许还能张口就说出几个算子:SIFT/SURF/ORB+RANSAC。。。
图像匹配在图像检索和三维重建中应用很多,每年都会有大量的论文声称达到了SOTA(state-of-the-art,最先进的),但谷歌最新的一篇论文(Image Matching across Wide Baselines: From Paper to Practice)却指出,这很可能是验证数据不足的假象!
号称SOTA的论文有时连20年前的技术还不如呢!
请看下面的图像匹配结果:
左侧为CVPR 2019 SOTA 局部特征描述子D2-Net算法 + RANSAC(OpenCV中的实现)的结果。右侧为使用SIFT特征描述子(ICCV 1999) + MAGSAC(CVPR 2019)的结果,很明显右侧的结果更好!那可是 20年前 的技术啊!
这个领域很明显出现了问题,大量的论文恐怕都在摸鱼!
谷歌也指出,每年SOTA出产一大箩筐,但在三维重建的工程问题上很多时候比较了一圈发现最终还是要使用SIFT!
当然我们不能以“故意作假”来揣测整个图像匹配的学术研究界,最大的问题,应该是验证数据不足。
所以谷歌在CVPR 2020 发起了这次图像匹配挑战赛,该比赛提供的数据集超过2.5万幅图像,包含精确的姿态和方向标注。
这次比赛的任务更加偏向于三维重建中的图像匹配,从上图例中也可以看出,该数据集包含大量的大型建筑物在各种光线和不同视角拍摄的图像。
比赛允许参与者参照传统局部特征的方法,先提取局部特征关键点再进行特征描述和图像匹配的策略;也欢迎不需要提取局部特征,一步到位计算出两幅图像对应姿态和方向的方法。
当然谷歌也在此数据集上进行了已有算法的大量测试。
在立体匹配的问题上的结果:
DoG-HardNet 取得了最好的结果。DoG即SIFT中的检测子,HardNet为NIPS 2017 的基于深度学习的局部特征描述子技术。
在多视角图像匹配测试中,引入了多个度量标准。从mAP看,DoG-HardNet也是具有相当优势的。
在局部特征点检测+描述这条技术路径上,描述部分已经被深度学习攻克了,而特征点检测目前还没有很好的深度学习方案,深度学习能否攻克这块传统特征固守的领地?还是两幅图像整体计算姿态和方向更好?这也是本次大赛的重要看点。
值得一提的是,算法是算法,实现是实现!即使同样实现的是SIFT算法中的DoG关键点检测,OpenCV 和 VLFeat 也有相当的差距,请看下图:
VLFeat中的DoG比OpenCV好了不止一点点。
So,这就有点乱了!
END
备注:3D
三维视觉与三维重建交流群
图像匹配、3D计算机视觉、3D重建等技术,
若已为CV君其他账号好友请直接私信。
在看,让更多人看到