模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (9): 838-844    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于状态回溯代价分析的启发式Q学习
方敏,李浩
西安电子科技大学计算机学院西安710071
Heuristically Accelerated State Backtracking Q-Learning Based on Cost Analysis
FANG Min,LI Hao
School of Computer Science and Technology,Xidian University,Xi′an 710071

全文: PDF (495 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 由于强化学习算法动作策略学习比较费时,提出一种基于状态回溯的启发式强化学习方法.分析强化学习过程中重复状态,通过比较状态回溯过程中重复动作的选择策略,引入代价函数描述重复动作的重要性.结合动作奖赏及动作代价提出一种新的启发函数定义.该启发函数在强调动作重要性以加快学习速度的同时,基于代价函数计算动作选择的代价以减少不必要的探索,从而平稳地提高学习效率.对基于代价函数的动作选择策略进行证明.建立两种仿真场景,将算法用于机器人路径规划的仿真实验.实验结果表明基于状态回溯的启发式强化学习方法能平衡考虑获得的奖赏及付出的代价,有效提高Q学习的收敛速度.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
方敏
李浩
关键词 代价分析启发函数状态回溯Q学习    
Abstract:Since action strategy learning is time-consuming for the reinforcement learning algorithm,a heuristic reinforcement learning algorithm is presented based on state backtracking. By analyzing the repetitive states and comparing the action policies of the reinforcement learning,a cost function is defined to indicate the importance of repetitive actions. A probability-based heuristic function is presented by combining an action reward with an action cost. The proposed algorithm reinforces the importance of an action to speed up learning by the heuristic function and measures the feasibility of an action to reduce unnecessary exploration by the cost function at the same time,thus the learning efficiency is steadily improve. This cost-based action strategy is proved to be reasonable. Two simulation scenarios are built and the experimental results of robot games prove that the proposed algorithm can learn by the tradeoff between rewards and costs,and effectively improve the convergence of Q-learning.
Key wordsCost Analysis    Heuristic Function    State Backtracking    Q-Learning   
收稿日期: 2012-08-13     
ZTFLH: TP181  
基金资助:国家自然科学基金项目(No.61070143,61101248)、中央高校基本科研业务费项目(No.K5051203003)资助
作者简介: 方敏(通信作者),女,1965年出生,教授,主要研究方向为智能信息处理、网络技术.E-mail:mfang@mail.xidian.edu.cn.李浩,男,1988年出生,硕士,主要研究方向为人工智能、机器学习.
引用本文:   
方敏,李浩. 基于状态回溯代价分析的启发式Q学习[J]. 模式识别与人工智能, 2013, 26(9): 838-844. FANG Min,LI Hao. Heuristically Accelerated State Backtracking Q-Learning Based on Cost Analysis. , 2013, 26(9): 838-844.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I9/838
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn