《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (11): 3641-3646.DOI: 10.11772/j.issn.1001-9081.2022101511
所属专题: 前沿与综合应用
• 前沿与综合应用 • 上一篇
赵琳1, 吕科1, 郭靖2, 宏晨3, 向贤财1, 薛健1, 王泳4()
Lin ZHAO1, Ke LYU1, Jing GUO2, Chen HONG3, Xiancai XIANG1, Jian XUE1, Yong WANG4()
摘要:
在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于此,提出一种基于深度强化学习的UAV集群协同作战决策方法。首先,通过建立基于公共物品博弈的UAV集群作战模型,模拟智能化UAV集群在合作中个体与集体间的利益冲突问题;其次,利用多智能体深度确定性策略梯度(MADDPG)算法求解辅助UAV集群最合理的作战决策,从而以最小的损耗代价实现集群胜利。在不同数量UAV情况下进行训练并展开实验,实验结果表明,与IDQN(Independent Deep Q-Network)和ID3QN(Imitative Dueling Double Deep Q-Network)这两种算法的训练效果相比,所提算法的收敛性最好,且在4架辅助型UAV情况下胜率可达100%,在其他UAV数情况下也明显优于对比算法。
中图分类号: