仪器仪表学报

2020, v.41(05) 66-75

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

基于个体-协同触发强化学习的多机器人行为决策方法
Multi-robot behavior decision making method based on individual-collaborative trigger reinforcement learning

徐雪松;曾智;邵红燕;杨胜杰;李想;

摘要(Abstract):

为了提高多机器人行为最优决策控制中强化学习的效率和收敛速度,研究了多机器人的分布式马尔科夫建模与控制策略。根据机器人有限感知能力设计了个体-协同感知触发函数,机器人个体从环境观测结果计算个体-协同触发响应概率,定义一次触发过程后开始计算联合策略,减少机器人间通讯量和计算资源。引入双学习率改进Q学习算法,并将该算法应用于机器人行为决策。仿真实验结果表明,当机器人群组数量在20左右时,本文算法的协同效率较高,单位时步比为1.085 0。同时距离调节参数η对机器人协同搜索效率有影响,当η=0.008时,所需的移动时步比和平均移动距离都能达到最小值。通过双学习率的引入,该算法较基于环境模型的强化学习算法具有更高的学习效率和适用性,平均性能提升35%,对于提高多机器人自主协同能力具有较高的理论意义及应用价值。

关键词(KeyWords): 多机器人;强化学习;个体-协同触发;行为决策

Abstract:

Keywords:

基金项目(Foundation): 国家自然科学基金重大项目(71991463,71790615);国家自然科学基金重大研究计划集成项目(91846301);; 湖南省教育厅科学研究重点项目(18A303);; 湖南社科基金项目(18YBA272);; 湖南省社科评审委员会项目(XSP18YBZ123);; 湖南省重点实验室开放研究基金项目(18-07)资助

作者(Author): 徐雪松;曾智;邵红燕;杨胜杰;李想;

Email:

DOI: 10.19650/j.cnki.cjsi.J2006140

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享