两方零和马尔科夫博弈下的策略梯度算法
李永强
1
, 周键
1
, 冯宇
1
, 冯远静
1
Policy Gradient Algorithm in Two-Player Zero-Sum Markov Games
LI Yongqiang
1
, ZHOU Jian
1
, FENG Yu
1
, FENG Yuanjing
1
EG-R和带基线的EG-R的纳什收敛指标曲线