计算机应用 ›› 2011, Vol. 31 ›› Issue (03): 654-656.DOI: 10.3724/SP.J.1087.2011.00654

• 人工智能 • 上一篇    下一篇

基于π演算的足球机器人协作Q学习方法

柯文德1,朴松昊2,彭志平3,蔡则苏2,苑全德2   

  1. 1. 广东石油化工学院 计算机科学与技术系,广东 茂名525000;2.哈尔滨工业大学 计算机科学与技术学院,哈尔滨150001
    2. 哈尔滨工业大学 计算机科学与技术学院
    3. 广东石油化工学院 计算机科学与技术系
  • 收稿日期:2010-09-08 修回日期:2010-11-05 发布日期:2011-03-03 出版日期:2011-03-01
  • 通讯作者: 柯文德
  • 作者简介:柯文德(1976-),男,广东茂名人,副教授,博士研究生,主要研究方向:计算机系统结构、机器人、人工智能;朴松昊(1972-),男,黑龙江哈尔滨人,副教授,博士,主要研究方向:计算机软件理论、机器人、人工智能;彭志平(1969-),男,福建泉州人,教授,博士,主要研究方向:电子商务、智能主体、机器人;蔡则苏(1966-),男,江苏睢宁人,副教授,博士,主要研究方向:计算机软件理论、机器人、人工智能;苑全德(1981-),男,山东郓城人,讲师,博士研究生,主要研究方向:并行计算、机器人、智能主体。
  • 基金资助:
    国家863计划项目;国家863计划项目;广东高校优秀青年创新人才培育项目;国家自然科学基金资助项目(60905047;61075076;61075077);国家重点实验室项目(SKLRS200902C);广东省自然科学基金资助项目(8152500002000003)

Cooperative Q learning method based on π calculus in robot soccer

KE Wen-de1,PIAO Song-hao2,PENG Zhi-ping3,CAI Ze-su2,YUAN Quan-de2   

  1. 1. Department of Computer Science and Technology, Guangdong University of Petrochemical Technology, Maoming Guangdong 525000, China; 2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin Heilongjiang 150001, China
    2. School of Computer Science and Technology, Harbin Institute of Technology, Harbin Heilongjiang 150001, China
    3. Department of Computer Science and Technology, Guangdong University of Petrochemical Technology, Maoming Guangdong 525000, China
  • Received:2010-09-08 Revised:2010-11-05 Online:2011-03-03 Published:2011-03-01
  • Contact: KE Wen-de

摘要: 针对多机器人协作学习时出现的学习速度慢、学习效率低等问题,提出了一种基于π演算心智模型的足球机器人协作Q学习方法,描述了机器人的运动模型,定义了球场现状、目标、意图、行为、协作、请求、扩展知识、能力判断和联合意图等机器人心智状态,构造了联合奖励函数。最后通过实验验证了方法的有效性。

关键词: 多机器人, 协作, Q学习, 心智状态

Abstract: Concerning the low speed and low efficiency of learning in robot soccer when cooperating between multi-robots, a cooperative Q learning method based on the mental model of π calculus was proposed, in which the mental states were defined as the field state, goal, intention, action, cooperation, request, expanding knowledge,capability judging and connected intention, etc, and the combinational reward function was constructed. The validity of method was verified through experiments.

Key words: multi-robot, collaboration, Q learning, mental state

中图分类号: