• • 下一篇
张文涛1,2,孙奥兰1,瞿晓阳1,张旭龙1,王健宗1
摘要: 视觉-语言-动作模型是实现具身智能的核心路径,其核心在于将多模态感知理解无缝转化为物理世界的具体行动。然而,动作表征与生成策略作为连接“感知”与“执行”的枢纽环节,面临着高维连续空间、动作多样性与机器人实时控制需求间的复杂挑战。该综述系统性地梳理和总结了VLA模型中动作表征和生成策略的演进脉络、核心技术与未来方向,内容详细剖析了离散和连续两种动作表征方式,以及自回归、非自回归和混合生成策略,并深入探讨了它们在动作精度、生成多样性与推理效率之间的内在权衡。此外,综述还涵盖了面向实时控制的新兴高效策略,如混合生成架构等。最后,通过比较分析对现有技术图景进行了总结,并展望了未来在与世界模型结合、跨机器人形态通用表征等方向上的前沿挑战与研究机遇,旨在为构建更通用、更高效的具身智能体提供参考。