基于优质样本筛选的离线强化学习算法

侯永宏¹, 丁旺¹, 任懿², 董洪伟², 杨松领¹

Offline Reinforcement Learning Algorithm Based on Selection of High-Quality Samples

HOU Yonghong¹, DING Wang¹, REN Yi², DONG Hongwei², YANG Songling¹

有/无策略熵惩罚项时SHS的标准平均回报曲线