两方零和马尔科夫博弈下的策略梯度算法

两方零和马尔科夫博弈下的策略梯度算法

李永强¹, 周键¹, 冯宇¹, 冯远静¹

Policy Gradient Algorithm in Two-Player Zero-Sum Markov Games

LI Yongqiang¹, ZHOU Jian¹, FENG Yu¹, FENG Yuanjing¹

max x min y x · y 的参数更新轨迹