两方零和马尔科夫博弈下的策略梯度算法

两方零和马尔科夫博弈下的策略梯度算法

李永强¹, 周键¹, 冯宇¹, 冯远静¹

Policy Gradient Algorithm in Two-Player Zero-Sum Markov Games

LI Yongqiang¹, ZHOU Jian¹, FENG Yu¹, FENG Yuanjing¹

EG-R和带基线的EG-R的纳什收敛指标曲线