基于优质样本筛选的离线强化学习算法
侯永宏
1
, 丁旺
1
, 任懿
2
, 董洪伟
2
, 杨松领
1
Offline Reinforcement Learning Algorithm Based on Selection of High-Quality Samples
HOU Yonghong
1
, DING Wang
1
, REN Yi
2
, DONG Hongwei
2
, YANG Songling
1
各算法在MuJoCo-Gym任务中的标准平均回报曲线