模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2008, Vol. 21 Issue (1): 98-103    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
一种基于PSO的分层策略搜索算法*
彭志平,李绍平
茂名学院 计算机科学与技术系 茂名 525000
An Algorithm for Hierarchical Policy Search Based on PSO
PENG ZhiPing, LI ShaoPing
Department of Computer Science and Technology, Maoming College, Maoming 525000

全文: PDF (403 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对分层策略梯度强化学习算法(HPGRL)易陷入局部最优点等问题,提出一种分层策略搜索算法(PSOHPS).首先由设计者按照经典分层强化学习MAXQ方法的思想构建子任务分层结构,通过与环境的直接交互,PSOHPS利用具有较强全局搜索能力的粒子群对各复合子任务中的参数化策略进行进化,以获得优化的动作策略.最后以协商僵局消解的实验验证PSOHPS是有效的,其性能明显优于HPGRL.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
彭志平
李绍平
关键词 分层强化学习粒子群优化算法(PSO)分层策略协商僵局    
Abstract:In order to overcome drawbacks in hierarchical policy gradient reinforcement learning algorithm (HPGRL), such as problem of local optimum, a new algorithm for searching hierarchical policies is proposed, named Hierarchical Policy Search Based on PSO (PSOHPS). The designers create the task decomposition graph according to the hierarchical theory of MAXQ, one of the classical hierarchical reinforcement learning techniques. Then the hierarchical parameterized policies of all compound subtasks are evolved in process of direct interaction with the environment by utilizing a particle swarm to acquire the optimized action policies. Experimental results demonstrate the algorithm is valid and its performance outperforms that of HPGRL remarkably.
Key wordsHierarchical Reinforcement Learning    Particle Swarm Optimization (PSO)    Hierarchical Policies    Negotiation Deadlock   
收稿日期: 2006-12-07     
ZTFLH: TP181  
基金资助:广东省自然科学基金项目资助(No.06029281, 05011905)
作者简介: 彭志平,男,1969年生,博士,副教授,主要研究方向为机器学习、智能商务、多agent技术.E-mail:mmxypzhp@yahoo.com.cn.李绍平,女,1974年生,硕士,主要研究方向为人工智能应用技术.
引用本文:   
彭志平,李绍平. 一种基于PSO的分层策略搜索算法*[J]. 模式识别与人工智能, 2008, 21(1): 98-103. PENG ZhiPing, LI ShaoPing. An Algorithm for Hierarchical Policy Search Based on PSO. , 2008, 21(1): 98-103.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2008/V21/I1/98
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn