基于优质样本筛选的离线强化学习算法

侯永宏¹, 丁旺¹, 任懿², 董洪伟², 杨松领¹

Offline Reinforcement Learning Algorithm Based on Selection of High-Quality Samples

HOU Yonghong¹, DING Wang¹, REN Yi², DONG Hongwei², YANG Songling¹

各算法在MuJoCo-Gym任务中的标准平均回报曲线