模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (3): 282-292    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
一种二阶TDError快速Q(λ)算法
傅启明1,刘全1,2,孙洪坤1,高龙1,李瑾1,王辉1
1.苏州大学计算机科学与技术学院苏州215006
2.吉林大学符号计算与知识工程教育部重点实验室长春130012
A Fast Q(λ) Algorithm Based on Second-Order TD Error
FU Qi-Ming1,LIU Quan1,2,SUN Hong-Kun1,GAO Long1,LI Jing1,WANG Hui1
1. School of Computer Science and Technology,Soochow University,Suzhou 215006
2. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012

全文: PDF (626 KB)   HTML (0 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TDError的角度出发,给出n阶TDError的概念,并将n阶TDError用于经典的Q(λ)学习算法,提出一种二阶TDError快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TDError修正Q值函数,并通过资格迹将TDError传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于11-γ、1ε.将SOE-FQ(λ)算法用于RandomWalk和MountainCar问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
傅启明
刘全
孙洪坤
高龙
李瑾
王辉
关键词 强化学习马尔科夫决策过程二阶TDError资格迹Q(λ)算法    
Abstract:Q(λ) algorithm is a classic model-free-based off policy reinforcement learning with multiple steps which combines the value iteration and stochastic approximation. Aiming at the low efficiency and slow convergence for traditional Q(λ) algorithm,the n-order TD Error is defined from the aspect of the TD Error which is used to the traditional Q(λ) algorithm,and a fast Q(λ) algorithm based on the second-order TD Error (SOE-FQ(λ)) is presented. The algorithm adjusts the Q value with the second-order TD Error and broadcasts the TD Error to the whole state-action space,which speeds up the convergence of the algorithm. In addition,the convergence rate is analyzed,and the number of iteration mainly depends on 11-γ、1ε under the condition of one-step update. Finally,the SOE-FQ(λ) algorithm is used to the random walk and mountain car,and the experimental results show that the algorithm has the faster convergence rate and better convergence performance.
Key wordsReinforcement Learning    Markov Decision Process    Second Order TD Error    Eligibility Trace    Q(λ) Algorithm   
收稿日期: 2012-05-09     
ZTFLH: TP181  
基金资助:国家自然科学基金项目(No.61070223,61103045,61272005,61170020)、江苏省自然科学基金项目(No.BK2012616)、江苏省高校自然科学研究项目(No.09KJA520002,09KJB520012)资助
作者简介: 傅启明,男,1985年生,博士研究生,主要研究方向为强化学习、贝叶斯推理、模式识别.刘全(通讯作者),男,1969年生,教授,博士生导师,主要研究方向为智能信息处理、自动推理、机器学习.E-mail:quanliu@suda.edu.cn.孙洪坤,男,1988年生,硕士,主要研究方向为强化学习.高龙,男,1988年生,硕士,主要研究方向为强化学习、模式识别.李瑾,女,1986年生,硕士,主要研究方向为强化学习、机器人足球.王辉,男,1968年生,讲师,主要研究方向为人机交互、强化学习、软件工程.
引用本文:   
傅启明,刘全,孙洪坤,高龙,李瑾,王辉. 一种二阶TDError快速Q(λ)算法[J]. 模式识别与人工智能, 2013, 26(3): 282-292. FU Qi-Ming,LIU Quan,SUN Hong-Kun,GAO Long,LI Jing,WANG Hui. A Fast Q(λ) Algorithm Based on Second-Order TD Error. , 2013, 26(3): 282-292.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I3/282
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn