海森辅助的概率策略梯度方法
胡磊
1
, 李永强
1
, 冯宇
1
, 冯远静
1
Hessian Aided Probabilistic Policy Gradient Method
HU Lei
1
, LI Yongqiang
1
, FENG Yu
1
, FENG Yuanjing
1
批量大小不同时HAPPG的平均回报曲线