《计算机应用》唯一官方网站 ›› 2024, Vol. 44 ›› Issue (2): 439-444.DOI: 10.11772/j.issn.1001-9081.2023020132
所属专题: 人工智能
宋紫阳1, 李军怀1,2, 王怀军1,2(), 苏鑫1, 于蕾1,2
Ziyang SONG1, Junhuai LI1,2, Huaijun WANG1,2(), Xin SU1, Lei YU1,2
摘要:
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。
中图分类号: