作者 | VVingerfly编辑 |陈大鑫3D近年来,人体姿势和形状估计是一个重要的研究热点,但大多数工作只关注人体部位,忽视手部动作,香港中文联合会FacebookAI研究所提出了一种新的方法,从单张图片中同时估计人体姿势和手部运动,显示效果像一个科学怪物。如下图所示,本文提出的方法姿势估计效果较好。科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品1介绍了作者提出的3D全身运动捕捉系统FrankMocap,可同时从单目视频中估计3D人体和手部运动在一起GeForce RTX 2080GPU能达到 9.5 FPS。作者提到 “FrankMocap” 是现代普罗米修斯(The Modern Prometheus)中科怪人(Frankenstein)怪物的致敬。人们每天都会在网上拍摄大量的日常活动视频,如果有一个基于普通摄像头的运动捕捉系统,它可以捕捉视频中人体的运动,它将应用于人机交互、人工智能、机器人和其他方向。同时,捕捉人体和手的运动对这些应用程序也同样重要,但手只占身体的一小部分,很难直接捕捉两者的运动。目前,大多数相关工作只考虑图片中人体的3D姿势,忽略图片中人手的动作。有些工作注重从单张图片中估计人体的全身运动,但这些工作是基于优化方法,将参数人体模型拟合到图像信息中,速度慢,不适合实时应用。RGB图片或视频估计人体和人手的姿势。作者使用SMPL-X人体模型,首先从输入图片的两个回归模块来估计人体和人手的3D姿态,然后通过集成模块将预测结果组合在一起,获得最终3D全身人体。文章代码将开源。项目主页:https://penincillin.github.io/frank_mocap项目论文:https://arxiv.org/pdf/2008.08324.pdf2方法作者使用 SMPL-X人体模型,给定一张彩色图片,通过两个网络模块预测手的姿势和人的姿势,然后通过整合模块将手和身体结合在一起,得到最终的3D全身模型,整个过程如下图所示。SMPL-X 模型SMPL-X 人体模型是参数3D人体模型,是 SMPL模型的扩展可以通过低维人体形状和姿势参数的组合来表达不同形状和姿势的3D人体,它与 SMPL 模型最大的区别在于 SMPL-X通过引入额外的参数,模型可以同时表达手指运动和面部表情。SMPL-X 人体模型可以用以下数学公式来表达:这是人体的整体旋转,与人体姿势相关的变形参数,与人体和手的形状相关的参数。作者将姿势参数分为人体相关参数和左右手相关参数,因此。所有的姿势参数都表示在轴角,这是一个相对于其父节点的相对旋转。最终的 SMPL-X 人体模型包括 10,745个顶点。人体关节点3D位置可以通过在顶点作用关节点返回矩阵来获得:这里。手工模型来自 SMPL-X 的手被定义为手的姿势参数、手的形状参数和手的整体旋转。最后,手的网格包括 788 的顶点,即其中一个子集。同样,手关节点的位置可以通过关节点返回矩阵计算,包括手腕关节点、15个手指关节点和5个指尖点。手的网格和骨架级别之间的关系如下图所示:3D根据端到端的神经网络,手部预测模块直接返回手部姿态参数。定义如下:从输入图像中截取的手部区域图像块是弱透视投影的相机参数,可以将手部模型投影到输入图像中。网络架构手模块的架构如下图所示,由编码器和解码器组成,编码器使用ResNet-50,将手图像块作为输入输出代码的图像特征,解码器由全连接层组成,从图像特征返回手模型参数。网络训练中使用的损失函数主要由四个部分组成:包括3D关节点轴角损失时的人体参数:

3D标记数据时添加的关节点损失:
是2D对于预测相机参数,关节点损失非常重要:
是用来惩罚不自然手形参数的正则项。D手部姿态数据集3D手部姿态数据集通常在有限的实验室环境中收集。这些数据集训练模型经常遇到拟合问题,户外数据性能较差。作者注意到有3个D人体姿势估计方法表明,使用不同的数据集可以大大提高模型的泛化能力,因此作者使用尽可能多的公共数据集来训练手部姿势估计网络,包括
FreiHAND、HO-3D、MTC(Monocular Total Capture)、STB(Stereo Hand Pose Tracking
Benchmark)、RHD(Rendered Hand Dataset)、MPII+NZSL
数据集。由于部分数据集的手骨架与文本不同,作者以中指长度为参考D将手部关节点缩放到与文章手部模型相似的尺寸,并根据文章的层次结构重新排列关节点。D人体估计模块3D网络参考人体姿势和形状估计
SPIN 网络结构,SPIN SMPL 人体模型参数 SOTA 的方法,作者从 输出SMPL 参数修改为 SMPL-X
模型参数,微调网络。D人体姿势估计模块的定义如下
其中
是从输入图像中截取的人体部分,
它们是人体的全球旋转、人体姿势参数和人体形状参数。这里还使用弱透视投影相机参数
。损失函数和数据集3D人体估计网络使用 Human3.6M 数据集和 EFT 数据集,其中 EFT 数据集包含 COCO 和 MPI
人体图片及其对应 SMPL 模型参数。因为 SMPL 形状参数和 SMPL-X 不兼容,作者只使用这些数据集的人体姿势参数进行训练。损失函数和
SPIN 原始论文使用相同,但不使用 SMPLify 损失部分。全身整合模块模块集成模块D人体和手模块输出的结果结合在一起获得 SMPL-X
作者提供了两种方法来整合模型的参数表达:复制粘贴:直接将人体与手结合,速度快;优化拟合:使用2D关键是优化人体参数以获得更准确的结果,但速度较慢。由于人体和手部模块的输出和复制粘贴组合
SMPL-X
人体模型的参数是兼容的,所以它们可以简单地结合在一起。只需将左右手从世界坐标系转换为人体模型腕关节的局部坐标系。优化拟合模式,优化拟合模式,优化人体模型参数,拟合人体2D为了获得与图片更对齐、更准确的人体网格,关键点如下:
这里
3D关键点的投影和目标图像中检测到的2D关键点之间的投影误差,
这是一个先验项,使人体的姿势和形状参数处于合理的范围。作者参考 EFT[]
文章中的方法是通过微调网络最小化目标函数,只需迭代几次即可获得良好的效果。下图显示了复制粘贴组合和优化拟合组合的结果对比。可以看出,人体的姿势在优化后更准确,但速度会下降。
3
结果
下表显示了文章方法和其他方法的运行时间比较。文章的复制粘贴组合在 GeForce RTX 2080 GPU
上能够达到9.5FPS,还有0种优化方法.95FPS,均高于 SMPLify-X 和 MTC 方法。
下图显示了手部姿势估计和当前 state-of-the-art对比 的方法,文章方法的结果更准确,与图片更一致。
下图显示了文章的方法和 Monocular Total Capture,SMPLify-X
对比结果,文章方法估计人体和人手姿势更准确,速度会快很多。
更多的演示不如跳舞~
科学怪物!3D人体全身运动捕捉系统,港中文联合Facebook出品
熟练地玩抽纸~
倒杯水喝~

参考文件frankmocap:progression
和integration的快速单片3D手和身体运动捕捉Yu Rong,Takaki Shirati,Hanbyul Joo。ArXiv,2020年。富有表现力的身体捕捉:从单个图像中捕捉3D手、脸和身体Georgios Pavlakos、Vasileios Choutas、Nima Ghorbani、Timo Bolkart、Ahmed A.A.
Osman、Dimitrios Tzionas和Michael J.Black。CVPR,2019年。示例Fine-
调整3D人体姿势以适应In- the-野生3D人体姿势估计Hanbyul Joo、Natalia Neverova、Andrea Vedaldi。ArXiv,2020年。

相关推荐

奠定元宇宙广告业“基石”!Meta(FB.US)与3DAR电商解决方案开发商VNTANA达成合作

大新闻|Facebook VR社交平台更名,Light Field Lab全息屏亮相