• • 下一篇
张金萧,李成龙,高新燕,张铭
摘要: 在单目视频中准确预测具有歧义性的三维人体姿态是当前研究的难点,现有方法虽能通过深度学习模型预测三维关节坐标,但多数方法未能充分考虑该逆问题的多解性,部分多假设预测方法虽能处理多解性问题,但存在跨层次特征融合不足的缺陷。针对上述问题,提出一种基于时空特征金字塔网络与多假设交互机制的三维人体姿态估计模型。首先,基于Transformer编码器利用多头自注意力机制捕获人体姿态的多重可能性分布,生成多个初始假设特征。其次,设计时空特征金字塔网络(TSP-FPN),采用门控自适应融合策略实现骨架序列多层次特征的动态加权整合,有效平衡局部细节与全局时序信息的融合。再次,在相关算法的基础上实现了结合关节相对位置编码与交叉注意力机制的多假设优化模块,促进各假设之间的交叉沟通与特征聚合,增强模型对人体拓扑结构的长程推理能力,从而得到高精度的三维关节坐标预测。在Human3.6M数据集上的实验结果表明,所提模型的平均关节误差(MPJPE)达到了42.3mm,相较于目前先进方法多假设转换器(MHFormer),预测误差降低了1.6%,体现了模型在应对单目三维姿态估计的多解性挑战上取得了实质性进展。
中图分类号: