基于深度强化学习的移动机器人三维路径规划方法

doi:10.11772/j.issn.1001-9081.2023060749

《计算机应用》唯一官方网站

• • 下一篇

基于深度强化学习的移动机器人三维路径规划方法

马天¹,席润韬²,吕佳豪³,曾奕杰³,杨嘉怡³,张杰慧³

1. 西安科技大学
2. 中煤科工集团常州研究院有限公司；天地（常州）自动化股份有限公司
3. 西安科技大学计算机科学与技术学院

收稿日期:2023-06-12 修回日期:2023-08-21 发布日期:2023-09-11 出版日期:2023-09-11
通讯作者: 吕佳豪
基金资助:
国家重点研发计划课题;国家自然科学基金;陕西省自然科学基础研究计划项目

3D path planning method for mobile robots based on deep reinforcement learning

Received:2023-06-12 Revised:2023-08-21 Online:2023-09-11 Published:2023-09-11

摘要/Abstract

摘要： 针对三维未知环境中存在的高复杂度和不确定性的问题，提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。首先，在有限观测空间下采用深度图信息作为智能体的输入，模拟移动受限且未知的复杂三维空间环境；其次，设计了两阶段离散动作空间下的动作选择策略，包括方向动作和唯一动作，以减少搜索步数和时间；最后，在近端策略优化算法基础上，添加门控循环单元结合历史状态信息，以提升未知环境中搜索策略的稳定性，进而提高规划路径准确度和平滑度。实验结果表明，相较于A2C（Advantage Actor-Critic）平均搜索时间缩短了49.07%，平均规划路径长度缩短了1.03%，同时能够完成线性时序逻辑约束下的多目标路径规划任务。

关键词: 深度强化学习, 移动机器人, 三维路径规划, 近端策略优化, 深度图

Abstract: Aiming at the problems of high complexity and uncertainty in 3D unknown environment, a mobile robot 3D path planning method based on deep reinforcement learning was proposed, under a limited observation space optimization strategy. First, the depth map information was used as the agent's input in the limited observation space, which could simulate complex 3D space environments with limited and unknown movement conditions. Second, a two-stage action selection policy in discrete action space was designed, including directional actions and translation actions, which could reduce the searching steps and time. Finally, based on the Proximal Policy Optimization algorithm, the Gated Recurrent Unit is added to combine the historical state information, to enhance the policy stability in unknown environments. So that the accuracy and smoothness of the planned path could be improved. The experimental results show that, compared with Advantage Actor-Critic (A2C), the average search time is reduced by 49.07% and the average planned path length is reduced by 1.03%. Meanwhile, it can complete the multi-objective path planning task under linear sequential logic constraints.

Key words: deep reinforcement learning, mobile robot, three-dimensional path planning, Proximal Policy Optimization(PPO), depth map

中图分类号:

TP391.4

马天席润韬吕佳豪曾奕杰杨嘉怡张杰慧. 基于深度强化学习的移动机器人三维路径规划方法[J]. 计算机应用, DOI: 10.11772/j.issn.1001-9081.2023060749.

[1]	秦鑫彤, 宋政育, 侯天为, 王飞越, 孙昕, 黎伟. 基于自适应p持续的移动自组网信道接入和资源分配算法[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 863-868.
[2]	李源潮, 陶重犇, 王琛. 基于最大熵深度强化学习的双足机器人步态控制方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 445-451.
[3]	邓辅秦, 官桧锋, 谭朝恩, 付兰慧, 王宏民, 林天麟, 张建民. 基于请求与应答通信机制和局部注意力机制的多机器人强化学习路径规划方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 432-438.
[4]	龙杰, 谢良, 徐海蛟. 集成的深度强化学习投资组合模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 300-310.
[5]	朱东莹, 钟勇, 杨观赐, 李杨. 动态环境下视觉定位与建图的运动分割研究进展[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2537-2545.
[6]	王昱, 任田君, 范子琳. 基于引导Minimax-DDQN的无人机空战机动决策[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2636-2643.
[7]	王子腾, 于亚新, 夏子芳, 乔佳琪. 融合好奇心和策略蒸馏的稀疏奖励探索机制[J]. 《计算机应用》唯一官方网站, 2023, 43(7): 2082-2090.
[8]	方和平, 刘曙光, 冉泳屹, 钟坤华. 基于深度强化学习的多数据中心一体化调度优化[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1884-1892.
[9]	李校林, 江雨桑. 无人机辅助移动边缘计算中的任务卸载算法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1893-1899.
[10]	黄晓辉, 杨凯铭, 凌嘉壕. 基于共享注意力的多智能体强化学习订单派送[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1620-1624.
[11]	曹腾飞, 刘延亮, 王晓英. 基于改进深度强化学习的边缘计算服务卸载算法[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1543-1550.
[12]	丁正凯, 傅启明, 陈建平, 陆悠, 吴宏杰, 方能炜, 邢镔. 结合注意力机制与深度强化学习的超短期光伏功率预测[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1647-1654.
[13]	徐周波, 陈浦青, 刘华东, 杨欣. 基于自注意力网络的深度图匹配模型[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1005-1012.
[14]	张江峰, 闫涛, 陈斌, 钱宇华, 宋艳涛. 全局时空特征耦合的多景深三维形貌重建[J]. 《计算机应用》唯一官方网站, 2023, 43(3): 894-902.
[15]	王奇, 雷航, 王旭鹏. 姿态干扰下的深度人脸验证[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 595-600.

基于深度强化学习的移动机器人三维路径规划方法

3D path planning method for mobile robots based on deep reinforcement learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics