模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2023, Vol. 36 Issue (1): 81-91    DOI: 10.16451/j.cnki.issn1003-6059.202301007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
两方零和马尔科夫博弈下的策略梯度算法
李永强1, 周键1, 冯宇1, 冯远静1
1.浙江工业大学 信息工程学院 杭州 310023
Policy Gradient Algorithm in Two-Player Zero-Sum Markov Games
LI Yongqiang1, ZHOU Jian1, FENG Yu1, FENG Yuanjing1
1. College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023

全文: PDF (884 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 在两方零和马尔科夫博弈中,由于玩家策略会受到另一个玩家策略的影响,传统的策略梯度定理只适用于交替训练两个玩家的策略.为了实现同时训练两个玩家的策略,文中给出两方零和马尔科夫博弈下的策略梯度定理.然后,基于该策略梯度定理,提出基于额外梯度的REINFORCE算法,可使玩家的联合策略收敛到近似纳什均衡.文中从多个维度分析算法的优越性.首先,在同时移动博弈游戏上的对比实验表明,文中算法的收敛性和收敛速度较优.其次,分析文中算法得到的联合策略的特点,并验证这些联合策略达到近似纳什均衡.最后,在不同难度等级的同时移动博弈游戏上的对比实验表明,文中算法在更大的难度等级下仍能保持不错的收敛速度.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
李永强
周键
冯宇
冯远静
关键词 马尔科夫博弈零和博弈策略梯度定理近似纳什均衡    
Abstract:In two-player zero-sum Markov games, the traditional policy gradient theorem is only applied to alternate training of two players due to the influence of one player's policy on the other player's policy. To train two players at the same time, the policy gradient theorem in two-player zero-sum Markov games is proposed. Then, based on the policy gradient theorem, an extra-gradient based REINFORCE algorithm is proposed to achieve approximate Nash convergence of the joint policy of two players. The superiority of the proposed algorithm is analyzed in multiple dimensions. Firstly, the comparative experiments on simultaneous-move game show that the convergence and convergence speed of the proposed algorithm are better. Secondly, the characteristics of the joint policy obtained by the proposed algorithm are analyzed and these joint policies are verified to achieve approximate Nash equilibrium. Finally, the comparative experiments on simultaneous-move game with different difficulty levels show that the proposed algorithm holds a good convergence speed at higher difficulty levels.
Key wordsMarkov Game    Zero-Sum Game    Policy Gradient Theorem    Approximate Nash Equilibrium   
收稿日期: 2022-08-05     
ZTFLH: TP18  
基金资助:国家自然科学基金面上项目(No.62073294)、浙江省自然科学基金重点项目(No.LZ21F030003)资助
通讯作者: 李永强,博士,副教授,主要研究方向为人工智能、强化学习、博弈论.E-mail:yqli@zjut.edu.cn.   
作者简介: 周键,硕士研究生,主要研究方向为强化学习、马尔科夫博弈.E-mail:jzhou.xc@qq.com.冯 宇,博士,教授,主要研究方向为人工智能、强化学习、博弈论.E-mail:yfeng@zjut.edu.cn.冯远静,博士,教授,主要研究方向为人工智能、图像处理、智能优化.E-mail:fyjing@zjut.edu.cn.
引用本文:   
李永强, 周键, 冯宇, 冯远静. 两方零和马尔科夫博弈下的策略梯度算法[J]. 模式识别与人工智能, 2023, 36(1): 81-91. LI Yongqiang, ZHOU Jian, FENG Yu, FENG Yuanjing. Policy Gradient Algorithm in Two-Player Zero-Sum Markov Games. Pattern Recognition and Artificial Intelligence, 2023, 36(1): 81-91.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202301007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2023/V36/I1/81
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn