最新综述|深度学习的单目人体姿态估计
向大家推荐一篇今天新出的人体姿态估计综述文章 Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods ,对2014年到如今的单目人体姿态估计的深度学习方法进行了详细总结,值得做相关方向的同学参考。
该文作者信息:
作者来自西北工业大学和纽约城市大学。
这篇综述的特点是它本身也列出了其他的近年来出现的人体姿态估计的综述,并尽量总结2014年到现在其他综述中没有出现过的基于深度学习的方法。
人体姿态估计有很多用处,比如电影动画、虚拟现实、自动驾驶、视频监控、运动分析等。(CV君的一位朋友在传统的舞蹈培训行业,之前就曾想基于人体姿态估计的结果做舞姿的评估,感觉也是蛮有意思的应用。)
但该任务也面临着很多困难,比如:
人体本身很灵活,存在自我遮挡和复杂的姿态(也许训练数据根本不会出现);
人体穿着各异也带来了困难;
复杂的环境比如前景遮挡、视角改变、个体之间的遮挡等使得该问题充满了挑战。
作者列出了该方向历年的综述,如下:
大部分时间比较久远了,而一篇2018年的主要关注RGB-D相机下的姿态估计。所以本文主要关注单目深度学习人体姿态估计,正好作为近年工作的总结,成为以上工作的重要补充。
按照2D/3D,单人/多人和技术特点,作者对现有技术进行了分类,如下图:
尤其值得一提的是,在技术分类一栏:
1)2D姿态估计中基于回归的方法,直接回归得到人体关键点,而基于检测的方法则把人体关键点作为检测的目标;
2)2D多人姿态估计分为自顶而下和自底而上的方法,取决于先检测到人再检测人体关键点还是先找人体关键点;
3)3D单人姿态估计则分为是否使用了Model。
常用的人体Model如下:
文献显示,(a)(c)是近年来使用比较多的。
接下来,作者总结了该领域近年的算法。
2D单人姿态估计算法总结,包含在MPII数据集上的结果:
作者列出来精度最高的是CVPR 2019 的 论文 Does learning specific features for related parts help human pose estimation?
2D多人姿态估计的结果,包含在COCO数据集上的结果:
作者列出来精度最高的是CVPR 2019 的 论文 Deep high-resolution representation learning for human pose estimation(即HRNet)。
3D单人姿态估计算法总结,包含在Human3.6M数据集上的结果:
作者列出来的错误率最低的是ECCV 2018 的 论文Integral human pose regression。
3D多人姿态估计算法总结(比较少):
2D数据集总结:
可见最大的图像数据集为AIC-HKD,有21万幅图像。
2D姿态估计数据集示例:
2D姿态估计常用的结果评价标准:
3D姿态估计常用数据集:
可见,Human3.6M是目前个体最多,数量最大的数据集。
3D姿态估计图像示例:
该综述对于了解单目姿态估计研究现状有帮助,欢迎查看原文了解详情。
论文:
https://arxiv.org/pdf/2006.01423.pdf