多智能体系统分散式通信决策研究

doi:10.3724/SP.J.1087.2012.02875

计算机应用 ›› 2012, Vol. 32 ›› Issue (10): 2875-2878.DOI: 10.3724/SP.J.1087.2012.02875

多智能体系统分散式通信决策研究

郑延斌¹,郭凌云²,刘晶晶²

1. 河南师范大学计算机与信息技术学院，河南新乡453007
2. 河南师范大学计算机与信息技术学院,河南新乡 453007

收稿日期:2012-04-27 修回日期:2012-05-28 发布日期:2012-10-23 出版日期:2012-10-01
通讯作者: 郭凌云
作者简介:郑延斌（1964-）,男,河南内乡人,教授,博士,主要研究方向：虚拟现实、多智能体系统、对策论；郭凌云（1987-）,女,河南林州人,硕士研究生,主要研究方向：虚拟现实；刘晶晶（1986-）,女,河南兰考人,硕士研究生,主要研究方向：虚拟现实。
基金资助:
河南省重点科技攻关项目（102102210176）

Research on decentralized communication decision in multi-Agent system

ZHENG Yan-bin,GUO Ling-yun,LIU Jing-jing

College of Computer and Information Technology, Henan Normal University, Xinxiang Henan 453007, China

Received:2012-04-27 Revised:2012-05-28 Online:2012-10-23 Published:2012-10-01
Contact: GUO Ling-yun

摘要/Abstract

摘要： 通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通信信息的选择能够高效的利用通信带宽,有助于提高系统的性能。

关键词: 多智能体系统, 协作, 分散式通信, 马尔可夫决策过程, 部分可观察马尔可夫决策过程

Abstract: Communication is the most effective and direct method of coordinating and cooperating among multi-Agents, but the cost of communication restricts the use of this method. In order to reduce traffic subject in the coordination of Multi-Agent System (MAS), this paper put forward a heuristic algorithm, which would make Agents choose the observation that is beneficial to team performance to communicate. The experimental results show that choosing beneficial observation to communicate could ensure the efficiency of limited communication bandwidth and improve system performance.

Key words: Multi-Agent System (MAS), cooperation, decentralized communication, Markov Decision Process (MDP), Partially Observable Markov Decision Process (POMDP)

郑延斌郭凌云刘晶晶. 多智能体系统分散式通信决策研究[J]. 计算机应用, 2012, 32(10): 2875-2878.

ZHENG Yan-bin GUO Ling-yun LIU Jing-jing. Research on decentralized communication decision in multi-Agent system[J]. Journal of Computer Applications, 2012, 32(10): 2875-2878.

参考文献

［1］张秋华,薛惠锋,吴介军,等.多智能体系统MAS机器应用［J］.计算机仿真,2007,24(6):133-137. ［2］ BUSONIU L, BABUSKA R, De SCHUTTER B. A comprehensive survey of Multi-Agent reinforcement learning ［J］. IEEE Transactions on Systems, Man, and Cybernetics — Part C: Applications and Reviews. 2008,38(2):156-172. ［3］孙湧,仵博,冯延蓬.基于策略迭代和值迭代的POMDP算法［J］.计算机研究与发展,2008,45(10)：1763-1768. ［4］ NAIR R, ROTH M, YOKOO M, et al.Communication for improving policy computation in distributed POMDPs［C］// AAMAS04: Proceedings of the Third International Joint Conference on Autonomous Agents and Multiagent Systems.Washington, DC： IEEE Computer Society,2004,3：1098-1105. ［5］ BERNSTEIN D S, GIVAN R, IMMERMAN N,et al.. The complexity of decentralized control of Markov decision processes［J］. Mathematics of Operations Research, 2002,27(4):819-840. ［6］ PESHKIN L, KIM K E, MEULEAU N, et al. Learning to cooperate via policy search［C］// Proceedings of the Sixteenth Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann, 2000: 489-496. ［7］吴峰.基于决策理论的多智能体系统规划问题研究［D］.合肥:中国科学技术大学,2011. ［8］ PYNADATH D V, TAMBE M. The communicative multiagent team decision problem: Analyzing teamwork theories and models ［J］. Journal of Artificial Intelligence Research, 2002,16:389-423. ［9］ GOLDMAN C V, ZILBERSTEIN S. Decentralized control of cooperative systems: Categorization and complexity analysis［J］. Joumal of Artificial Intelligence Research, 2004,22(1):143-174. ［10］高阳,陈世福,陆鑫.强化学习研究综述［J］.自动化学报,2004,30(1):86-100. ［11］范长杰.基于马尔可夫决策理论的规划问题的研究［D］.合肥：中国科学技术大学,2008. ［12］ ROTH M, SIMMONS R, VELOSO M. Reasoning about joint beliefs for execution-time communication decisions［C］// Proceedings of the 4th International Joint Conference on Autonomous Agents and Multi Agent Systems. Dordrecht, Netherland: Springer,2005:786-793. ［13］ ROTH M, SIMMONS R, VELOSO M. Decentralized communication strategies for coordinated multi-Agent policies［C］// Multi-Robot Systems: From Swarms to Intelligent Automata. Dordrecht, Netherland: Springer, 2005,3:93-106. ［14］刘海涛,洪炳镕,乔立民,等.多智能体机器人系统分散式通信决策研究［J］. 机器人,2007,29(6):540-545. ［15］仵博,吴敏.一种基于信念状态压缩的实时POMDP算法［J］ .控制与决策,2007,22(12):1417-1420.

[1]	赵晓焱, 韩威, 张俊娜, 袁培燕. 基于异步深度强化学习的车联网协作卸载策略[J]. 《计算机应用》唯一官方网站, 2024, 44(5): 1501-1510.
[2]	唐睿, 庞川林, 张睿智, 刘川, 岳士博. D2D通信增强的蜂窝网络中基于DDPG的资源分配[J]. 《计算机应用》唯一官方网站, 2024, 44(5): 1562-1569.
[3]	唐朝君, 夏梅妍, 张华, 谢挺. 动态事件触发下多智能体系统固定时间一致性[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 960-965.
[4]	孙安泰, 刘烨, 徐冬梅. 多智能体系统的动态面渐近补偿算法[J]. 《计算机应用》唯一官方网站, 2024, 44(10): 3151-3157.
[5]	喻诚皓, 仇润鹤. RIS辅助索引调制协作系统的误码率性能分析[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3559-3567.
[6]	高安安, 胡爱花, 江正仙. 事件触发脉冲控制多智能体系统的安全一致[J]. 《计算机应用》唯一官方网站, 2023, 43(1): 140-146.
[7]	罗飞, 白梦伟. 基于强化学习的交通情景问题决策优化[J]. 《计算机应用》唯一官方网站, 2022, 42(8): 2361-2368.
[8]	郑鑫, 李素月, 王安红, 李美玲, MUHAIDAT Sami, 宁爱平. 协作多输入多输出环境反向散射通信系统遍历速率分析[J]. 《计算机应用》唯一官方网站, 2022, 42(3): 974-979.
[9]	李学明, 吴国豪, 周尚波, 林晓然, 谢洪斌. 基于分数阶网络和强化学习的图像实例分割模型[J]. 《计算机应用》唯一官方网站, 2022, 42(2): 574-583.
[10]	王亚丽, 陈家超, 张俊娜. 移动边缘计算中收益最大化的缓存协作策略[J]. 《计算机应用》唯一官方网站, 2022, 42(11): 3479-3485.
[11]	臧嵘, 王莉, 史腾飞. 基于注意力消息共享的多智能体强化学习[J]. 《计算机应用》唯一官方网站, 2022, 42(11): 3346-3353.
[12]	周烁, 仇润鹤, 唐旻俊. 基于禁忌搜索和Q-learning的CR-NOMA系统的功率分配算法[J]. 计算机应用, 2021, 41(7): 2026-2032.
[13]	李彤, 仇润鹤. 多中继协作空间调制的中继选择及性能分析[J]. 计算机应用, 2021, 41(7): 2019-2025.
[14]	尚芳剑, 李信, 翟迪, 陆阳, 张东磊, 钱玉文. 智能电网中两阶段网络切片资源分配技术[J]. 计算机应用, 2021, 41(7): 2033-2038.
[15]	王艺洁, 凡佳飞, 王陈宇. 云边环境下基于博弈论的两阶段任务迁移策略[J]. 计算机应用, 2021, 41(5): 1392-1398.

多智能体系统分散式通信决策研究

Research on decentralized communication decision in multi-Agent system

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics