海森辅助的概率策略梯度方法
胡磊1, 李永强1, 冯宇1, 冯远静1

Hessian Aided Probabilistic Policy Gradient Method
HU Lei1, LI Yongqiang1, FENG Yu1, FENG Yuanjing1
各方法在2种离散动作空间控制任务上的平均回报曲线