第 16 届欧洲计算机视觉大会(ECCV)于周日拉开帷幕,成为一个完全在线的会议。在会议开幕式,ECCV 组委会宣布了会议论文提交统计和最佳论文。普林斯顿大学的两位研究人员为开发一种新的光流端到端可训练模型而获得最佳论文奖。近日,ECCV 2020 五项大奖均已出炉,分别是最佳论文奖、最佳论文提名奖、Koenderink 奖、Mark Everingham 奖、Demo 奖。
ECCV 的全称是 European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,与 ICCV 和 CVPR 并称计算机视觉三大会议。
ECCV 2020 收到了创纪录的 5150 份提交材料,是 2018 年上一次会议的两倍。今年共有 1360 篇论文录取率被削减至 26%。有 104 个口头报告和 160 个焦聚点,将在 16 个现场问答环节中呈现。
获奖论文:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
作者: Zachary Teed and Jia Deng
机构:普林斯顿大学
简介:介绍了一种新的光流深网络体系结构——递归全对场变换(RAFT)。RAFT提取每像素特征,为所有像素对构建多尺度4D相关体,并通过一个循环单元迭代更新流场,该单元执行相关体积的查找。木筏达到了最先进的性能。在KITTI上,RAFT的F1全系误差为5.10%,比公布的最佳结果(6.10%)减少了16%。在 Sintel(最终焊道)上,RAFT获得的终点误差为2.855像素,比最佳发布结果(4.098 像素)减少了30%。此外,RAFT算法具有较强的跨数据集泛化能力,在推理时间、训练速度、参数计数等方面具有较高的效率。论文链接:https://www.aminer.cn/pub/5e7dcebb91e0115bf014c4c9/
Zachary Teed,普林斯顿大学邓嘉门下的一名博士生,是普林斯顿视觉与学习实验室的一名成员。Zachary Teed 目前的研究重点是从视频进行 3D 重建;包括运动,场景流和 SLAM 中的结构。在此之前,他曾获得圣路易斯华盛顿大学的计算机科学学士学位,并在那里获得了 Langsdorf 奖学金和 McKevely 研究奖。
邓嘉 2006 年本科毕业于清华大学计算机系,2012 年于普林斯顿大学获计算机科学博士学位, 2014 起任密歇根大学计算机科学系助理教授。2018 年邓嘉在密歇根大学的时候获得了美国斯隆研究奖。他是李凯和李飞飞教授的学生,ImageNet 首篇文章的第一作者。 他现在在普林斯顿大学视觉与学习实验室任助理教授,主要研究方向为计算机视觉和机器学习,即通过感知、认知和学习相结合来实现人类层面的视觉理解。
最佳论文荣誉提名
获奖论文:Towards Streaming Image Understanding
作者:Mengtian Li, Yu-Xiong Wang, and Deva Ramanan
机构:卡内基梅隆大学、阿尔戈 AI
简介:具体化感知是指一个自主的主体感知其所处环境的能力,从而能够(重新)行动。代理的响应在很大程度上取决于其处理管道的延迟。虽然过去的工作已经研究了算法在延迟和准确度之间的权衡,但是还没有一个明确的指标来比较不同的方法沿着Pareto最优的延迟精度曲线。
作者指出了标准离线评估和实时应用程序之间的一个差异:当一个算法完成对特定图像帧的处理时,周围的世界已经发生了变化。为了达到这些目的,作者提出了一种方法,将延迟和准确度统一到一个用于实时在线感知的指标中,我们称之为“流式准确性”。此度量背后的关键见解是在每个时刻联合评估整个perception堆栈的输出,迫使堆栈考虑在进行计算时应忽略的流数据量。更广泛地说,基于这个度量,作者引入了一个元基准,它系统地将任何图像理解任务转换为流图像理解任务。针对城市视频流中的目标检测和实例分割,提出了一种具有高质量和时间密集注释的数据集。
本文提出的解决方案及其实证分析证明了许多令人惊讶的结论:
(1)在帕累托最优延迟精度曲线上存在一个使流媒体准确性最大化的最佳“最佳点”(sweet spot)
(2)异步跟踪和未来预测自然而然地成为流媒体图像的内部表示形式理解
(3)动态调度可以用来克服时间混叠,产生一个矛盾的结果,即延迟有时被闲置和“无所事事”最小化。
论文链接:https://www.aminer.cn/pub/5ec7a32791e0118397f3ee4d/
论文第一作者 Mengtian Li 是一位来自卡内基梅隆大学机器人研究所的博士生,曾获得南京大学学士学位。他的研究兴趣是计算机视觉和机器学习,特别对资源受限的深度学习和推理感兴趣。
获奖论文:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
作者: Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
机构:加州大学伯克利分校、谷歌研究中心、加州大学圣地亚哥分校
简介:本文提出了一种通过使用稀疏输入视图集优化底层连续体积场景函数来获得合成复杂场景新视图的最新结果的方法。作者的算法使用一个完全连接(非卷积)的深网络来表示场景,其输入是一个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置的体积密度和视景相关的发射辐射。本文通过查询沿相机光线的5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。因为体绘制是自然可微的,所以优化表现的唯一输入是一组已知相机姿势的图像。作者描述了如何有效地优化神经辐射场,以渲染具有复杂几何和外观的真实感场景的新视图,并展示了优于先前神经渲染和视图合成的结果。论文链接:https://www.aminer.cn/pub/5e7495c591e0111c7cee14ef/
Koenderink 奖是来表彰十年对计算机视觉领域做出巨大贡献的经典论文。今年 Koenderink 奖授予以下两篇论文:
获奖论文:Improving the Fisher Kernel for Large-Scale Image Classification
简介:Fisher 内核(FK)是一个通用框架,它结合了生成和区分方法的优点。在图像分类的背景下,FK 被证明超越了计数统计,扩展了流行的视觉单词包(BOV)。然而,在实践中,这种丰富的代表性还没有显示出它优于 BOV。在第一部分中,作者展示了在原始框架的基础上,通过一些动机良好的修改,可以提高 FK 的准确性。在 PASCAL VOC 2007 上,将平均精度(AP)从 47.9% 提高到 58.3%。同样,作者在 CalTech 256 上展示了最先进的精确度。一个主要的优点是这些结果只使用 SIFT 描述符和无代价线性分类器获得。有了这种表示法,现在可以在更大范围内探索图像分类。
在第二部分中,作为一个应用,作者比较了两个丰富的标记图像资源来学习分类器:ImageNet 和 flickrgroups。在一项涉及数十万个训练图像的评估中,作者发现在 Flickr 组中学习的分类器表现得出奇地好(尽管它们并不是用于此目的),而且它们可以补充在更仔细注释的数据集上学习的分类器。
论文链接:https://www.aminer.cn/pub/53e99d57b7602d9702610216/
获奖论文:Brief:Binary robust independent elementary featueres
简介:作者建议使用二进制字符串作为一个有效的特征点描述符,称之为 BRIEF。本文表明,即使使用相对较少的比特,它仍然具有很高的分辨力,并且可以通过简单的强度差分测试来计算。此外,可以使用汉明距离来评估描述符相似度,这是非常有效的计算,而不是像通常所做的 L2 范数。因此,BRIEF 的构建和匹配都非常快。作者将其与标准基准测试中的 SURF 和 U-SURF 进行了比较,结果表明它产生了相似或更好的识别性能,而运行时间只需其中一个的一小部分。论文链接:https://www.aminer.cn/pub/53e9b87fb7602d970444e7a2/
Mark Everingham奖
Mark 奖的设立是为了纪念在 2012 去世的 Mark Everingham,他在 The PASCAL Visual Object Classes (VOA)数据集做出主要贡献,也是该比赛项目的发起人。同时,Mark 奖的设立也是为了激励后来者在计算机视觉领域做出更多贡献。今年第一位获得 PAMI Mark Everingham 奖的是 Antonio Torralba 和多数据集的合作者,为了表彰他们持续了十多年定期发布新的数据集和创建这些数据集的新方法。 这些数据集包含 Tiny images,SUN/SUN-3D,MIT-Places,创建数据集新方法的工具包括 LabelMe,它们已经在视觉领域影响深远。
今年第二位获得 PAMI Mark Everingham 奖的是 COLMAP SFM 和 MVS 软件库的提出人 Johannes Schonberger,以表彰他为 3D 重建图像提出的一个开源的端到端 pipeline,并为之提供的支持、开发与编写文档。这些软件库已经变成了运动结构和立体多视图的参考软件。
PAMI Mark Everingham 奖是一个社区驱动的奖,可以按如下方式提供候选人名单。
Demo奖
获奖论文:Inter-Homines: Distance-Based Risk Estimation for Human Safety
简介:作者建议在风险监控区域内,通过摄像头对风险进行监控。本文的系统在人与人之间,通过分析视频流,实时评估监控区域内的传染风险:它能够在三维空间中定位人,计算人际距离,并通过构建监控区域的动态地图来预测风险水平。在公共和私人拥挤的区域内,人与人之间既可以在室内也可以在室外工作。该软件适用于工业 PC 上已安装的摄像头或低成本摄像头,并配备额外的嵌入式 edge AI 系统进行临时测量。在人工智能方面,我们基于最先进的计算机视觉算法,通过单应变换,开发了一个鲁棒的管道,用于在地平面上进行实时人的检测和定位;它是人检测器和姿势估计器的结合。在风险建模方面,我们提出了一个时空动态风险估计的参数模型,该模型经流行病学家验证,可以通过预测现场的风险水平,对社会距离预防措施的接受程度进行安全监测。论文链接:https://www.aminer.cn/pub/5f16d3ab91e011b48ae94499/
Demo奖提名
Demo奖提名一:《FingerTrack:Continous 3D Hand Pose Tracking》
Demo奖提名二:《Object Detection Kit:Identifying Urban Issues in Real-time》
Demo提名奖一的手指跟踪器