中心涂志刚、杨必胜团队在人工智能领域顶级期刊TPAMI发表3D 手势估计与重建成果
- 发布日期:2023-03-24 15:24:32
- 阅读次数:[1941]次
- 作者:
近日,中心涂志刚研究员、杨必胜教授联合研究团队在国际人工智能领域顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)发表题为“Consistent 3D Hand Reconstruction in Video via Self-Supervised Learning”的学术论文,介绍其利用图像和视频中包含的纹理、运动学在内的广泛约束,设计无监督3D手势识别和重建学习框架领域的成果。论文的第一作者为涂志刚研究员、硕士研究生黄志胜,通讯作者为中心优秀硕士毕业生,现德国慕尼黑工业大学博士研究生陈雨劲。
3D 手势估计与重建是增强现实、手语翻译和人机交互等许多计算机视觉应用的基础。 然而,由于手势姿态的多样性和与环境交互的复杂性,3D 手势估计与重建是一个具有挑战性的课题,尤其是当任务仅使用单目视频图像数据作为输入时。以往研究往往通过回归模版坐标或参数化人手模型来获得重建结果,严重依赖 3D 手部标注,例如手部扫描、参数化人手模型标注以及人工标注的 3D 关节点。联合研究团队提出的框架分别对图像与视频中包含的无监督信息进行了深入探究,不依赖标注数据的同时,精度比肩有监督方法,同时显著提升了视频重建中的纹理一致性,动作连续性。实验结果如下:
该论文提出了领域内第一个自监督3D 手部重建模型,实现了从单个图像准确输出 3D 关节、形状和纹理,无需使用任何带标注的训练数据。进一步提出针对视频数据的学习框架,利用嵌入在视频序列中的自监督信号使精度和平滑度分别提升3.5%和3.1%。联合研究团队构造了一种新颖的 2D与3D 一致性损失函数,利用额外的可训练 2D 关键点回归模块,通过交互优化的方式来促进 3D 重建;其次,提出了一个基于探索的运动感知关节旋转表示的四元数损失函数,帮助学习平滑的手部运动,实验证明其在准确性和平滑度方面均优于之前的方法;再者,提出了纹理和形状一致性正则化项,有效增强了视频中一致的形状和纹理的重建。联合研究团队通过引入手部纹理估计模块,通过自监督学习生动的手部纹理;在当前主流数据集上对自监督 3D 人手重建进行了基准测试,所提出的自监督方法实现了与以往全监督方法相当的性能;可有效利用额外的任意未标记视频图像作为训练数据,进一步增强模型性能。