WACV 2021 论文大盘点-姿态估计篇
编辑:CV君
本篇继续总结姿态估计相关论文, 3D 的占大多数,有 3D 姿势、形状估计,还有 3D 手部姿势估计。还有人脸姿态估计、跨物种姿态估计等。
共计 13 篇,如有遗漏,欢迎补充。
下载包含这些论文的 WACV 2021 所有论文:
https://mp.weixin.qq.com/s/CT8rBf3NWXIlR1o-wiLjLg
3D 姿态、形状估计
PI-Net: Pose Interacting Network for Multi-Person Monocular 3D Pose Estimation
日常场景中,一个人的身体姿势往往取决于与之互动对象的姿势。作者在本次工作中,就研究了如何利用这种依赖性来增强当前(或许未来)用于 3D 单目姿势估计的深度网络。
提出一个姿势交互网络:PI-Net,将可变数量的交互者的初始姿势估计输入到一个用于完善感兴趣的人的姿势循环架构中。
实验证明了在 MuPoTS 数据集中的有效性。
作者 | Wen Guo, Enric Corona, Francesc Moreno-Noguer, Xavier Alameda-Pineda
单位 | 格勒诺布尔-阿尔卑斯大学;IRI (CSIC-UPC)
论文 | https://arxiv.org/abs/2010.05302
代码 | coming
Automatic Calibration of the Fisheye Camera for Egocentric 3D Human Pose Estimation From a Single Image
提出一种从鱼眼相机拍摄的单幅图像中进行 egocentric 3D 人体姿态估计的方法。引入一个自动校准模块,具有自修正功能,以减轻图像失真的影响,实现鲁棒的 3D 人体姿态估计。所提出网络在修改后的 xR-EgoPose 数据集上得到了最先进的性能,该数据集包含具有不同扭曲程度的图像。
作者 | Yahui Zhang, Shaodi You, Theo Gevers
单位 | 阿姆斯特丹大学
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Zhang_Automatic_Calibration_of_the_Fisheye_Camera_for_Egocentric_3D_Human_WACV_2021_paper.pdf
视频 | https://v.qq.com/x/page/r3224s905fy.html
Temporally Consistent 3D Human Pose Estimation Using Dual 360deg Cameras
本次工作中,开发了一种 3D 人体姿态估计系统,该系统使用一对 360° 的立体传感器从单一位置捕捉完整的场景。
作者 | Matthew Shere, Hansung Kim, Adrian Hilton
单位 | 萨里大学;南安普顿大学
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Shere_Temporally_Consistent_3D_Human_Pose_Estimation_Using_Dual_360deg_Cameras_WACV_2021_paper.pdf
3D Human Pose and Shape Estimation Through Collaborative Learning and Multi-View Model-Fitting
该工作是为解决在人体姿势和形状估计任务中,先前方法仅依赖单视角RGB 图像来训练网络的问题。实用多视图进行建模。
作者 | Zhongguo Li, Magnus Oskarsson, Anders Heyden
单位 | 隆德大学
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Li_3D_Human_Pose_and_Shape_Estimation_Through_Collaborative_Learning_and_WACV_2021_paper.pdf
代码 | https://github.com/leezhongguo/MVSPIN_NEW
域外姿态估计
Pretraining boosts out-of-domain robustness for pose estimation
神经网络是姿势估计的高效工具。但与其他计算机视觉任务一样,对域外数据很难适用,特别是对于现实世界应用中常见的小型训练集。
作者在本次工作中,用三种架构类别(MobileNetV2s、ResNets和EfficientNets)来探究姿势估计的泛化能力,创建一个由 30 匹马组成的数据集,进行 '域内 '和 '域外'(看不见的马)基准测试--这是当前人类姿势估计基准无法直接解决的鲁棒性关键测试。
通过实验,作者表明如果首先在 ImageNet 上进行预训练,那么 ImageNet性能更好的架构在域内和域外数据上都有更好的表现。而更好的 ImageNet模型能更好地跨动物物种进行泛化。
还引入一个用于姿势估计的常见变体的新基准:Horse-C,并证实预训练在这种域内迁移背景下也能提高性能。总的来说,实验结果证明了迁移学习对域外鲁棒性是有利的。
作者 | Alexander Mathis, Thomas Biasi, Steffen Schneider, Mert Yüksekgönül, Byron Rogers, Matthias Bethge, Mackenzie W. Mathis
单位 | 洛桑联邦理工学院;哈佛大学;图宾根大学;
论文 | https://arxiv.org/abs/1909.11229
数据集 | http://www.mousemotorlab.org/deeplabcut
DensePose 变体
Making DensePose fast and light
本次工作针对 DensePose R-CNN 模型的架构进行了重新设计,使最终的网络保留原始精度,但模型更加轻量化和快速。
为此,作者测试并融入了许多近年来的深度学习创新,特别是对 23 个高效的骨干架构、多个两级检测 pipeline 的修改以及自定义模型量化方法进行了消融研究。
与基线模型相比,实现了模型压缩到 1/17 倍 并 降低了 2 倍的延迟。
作者 | Ruslan Rakhimov, Emil Bogomolov, Alexandr Notchenko, Fung Mao, Alexey Artemov, Denis Zorin, Evgeny Burnaev
单位 | Skolkovo Institute of Science and Technology;华为莫斯科研究中心;纽约大学
论文 | https://arxiv.org/abs/2006.15190
代码 | https://github.com/zetyquickly/DensePoseFnL
3D手部姿势估计
MVHM: A Large-Scale Multi-View Hand Mesh Benchmark for Accurate 3D Hand Pose Estimation
从单目图像中估计三维手部姿势因其深度模糊性是一个 ill-posed problem(不适定问题)。然而,多视角图像可以弥补这一不足。为此,作者建立了一个多视角网格手数据集 MVHM,以实现网格监督下的 3D 姿势估计器训练。并提出一种有效融合单视角预测的多视角方法。
实验证明所提出的方法在 MHP 数据集上实现了 AUC20-50 中 0.990 的性能,高于之前最先进的方法在该数据集上的性能 0.939。
作者 | Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Xiaohui Xie
单位 | 加利福尼亚大学(尔湾);腾讯,美国;亚马逊;台湾阳明交通大学
论文 | https://arxiv.org/abs/2012.03206
代码 | https://github.com/Kuzphi/MVHM
Two-Hand Global 3D Pose Estimation Using Monocular RGB
本次工作解决了仅通过单目 RGB 输入图像估计两只手的全局 3D 关节位置的挑战性任务。
作者 | Fanqing Lin, Connor Wilhelm, Tony Martinez
单位 | 美国杨百翰大学
论文 | https://arxiv.org/abs/2006.01320
Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh Estimation in Videos
开发了一种时空一致性损失和反向时空信息技术来提取时空特征。作者称是首次尝试在不使用 3D 标注的情况下估计 3D 手部的姿势和网格。
提出一个端到端可训练框架:temporalaware self supervised networks (TASSN),在不使用标注的 3D 训练数据的情况下学习估计器。学习到的估计器可以从视频中共同推断出 3D 手部的姿势和网格。
经过验证得出所提出模型实现了高精度的 3D 预测性能,与最先进的用3D 真实训练的模型相当。
作者 | Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Xiaohui Xie
单位 | 加利福尼亚大学(尔湾);腾讯,美国;亚马逊;台湾阳明交通大学
论文 | https://arxiv.org/abs/2012.03205
Active Learning for Bayesian 3D Hand Pose Estimation
本研究是首个将 主动学习 应用于 3D 手部姿势估计任务的工作。
作者 | Razvan Caramalau, Binod Bhattarai, Tae-Kyun Kim
单位 | 帝国理工学院
论文 | https://arxiv.org/abs/2010.00694
代码 | https://github.com/razvancaramalau/al_bhpe
在 BigHand2.2M 数据集上分析
在 NYU Hand 数据集上的分析
在 ICVL Hand 数据集上的分析
人脸姿态估计
A Vector-based Representation to Enhance Head Pose Estimation
文中提出将旋转矩阵中的三个向量作为人脸姿态估计(HPE)中的表征方法,并根据这种表征方法的特点开发一种新的神经网络。
解决了 HPE 当前存在的两个潜在问题:
1、HPE 公共数据集使用欧拉角或四元数来标注数据样本,但这两种标注都存在不连续的问题,因此可能会导致神经网络训练中的一些性能问题。
2、大多数研究工作都将欧拉角的平均绝对误差(MAE)作为衡量性能的标准。但作者表示 MAE 可能无法反映实际行为,尤其是对于剖面图的情况。
为此,作者提出一种新的标注方法,使用三个向量来描述人脸姿势,以及一个新的测量平均绝对误差(MAEV)来评估性能。还训练一个新的神经网络来预测三个向量的正交性约束。
实验表明,所提出方法在 AFLW2000 和 BIWI 数据集上都取得了最先进的结果,基于矢量的标注方法可以有效地降低大姿势角度的预测误差。
作者 | Zhiwen Cao, Zongcheng Chu, Dongfang Liu, Yingjie Chen
单位 | 普渡大学
论文 | https://arxiv.org/abs/2010.07184
EAGLE-Eye: Extreme-pose Action Grader using detaiL bird’s-Eye view
为了处理不同运动项目中身体极限变形时的姿势估计,作者扩展了 ExPose 数据集,为涵盖除跳水以外的其他运动项目,如花样跳水、单板滑雪和滑雪。验证表明在此数据集上训练姿势估计器可以提高其在这些运动的极端姿势配置中的性能。
提出一个模块化的网络,基于细粒度和粗粒度的时间依赖性来量化一个动作的执行情况。与人类法官的评分模式一样,视觉和姿势线索都参与评估。
所提出的网络不仅在短期行动评估方面优于以往的作品,而且是首个在花样滑冰等长期体育活动中表现出良好的泛化能力。
作者 | Mahdiar Nekoui, Fidel Omar Tito Cruz, Li Cheng
单位 | 阿尔伯塔大学等
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Nekoui_EAGLE-Eye_Extreme-Pose_Action_Grader_Using_Detail_Birds-Eye_View_WACV_2021_paper.pdf
Real-Time RGBD-Based Extended Body Pose Estimation
RGB-D 人体姿势模型的性能优于目前最先进的 纯 RGB 输入的方法,并且与速度较慢的基于 RGB-D 的优化解决方案相比,在相同的精度水平上工作,该组合系统以 25 FPS 的速度在单 GPU 的服务器上运行。
作者 | Renat Bashirov, Anastasia Ianina, Karim Iskakov, Yevgeniy Kononenko, Valeriya Strizhkova, Victor Lempitsky, Alexander Vakhitov
单位 | Samsung AI Center,莫斯科;Skolkovo科學技術研究所
论文 |
https://openaccess.thecvf.com/content/WACV2021/papers/Bashirov_Real-Time_RGBD-Based_Extended_Body_Pose_Estimation_WACV_2021_paper.pdf
编辑:CV君