模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2006, Vol. 19 Issue (4): 439-444    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
动态模糊Q学习算法及嵌入式平台的实时实现*
卢永奎,许旻,李永新,杜华生,吴月华,杨杰
中国科学技术大学 精密机械与精密仪器系 合肥 230027
Dynamic Fuzzy QLearning and Its RealTime Application in Embedded System
LU YongKui , XU Min, LI YongXin, DU HuaSheng, WU YueHua, YANG Jie
Department of Precision Machinery and Precision Instrumentation, University of Science and Technology of China, Hefei 230027

全文: PDF (622 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 介绍一种新的在线自适应的动态模糊Q强化学习算法.系统根据从环境中得到的反馈评估已进行的决策,给予奖励和惩罚,更新系统的Q值,在线自动调整模糊控制的结构与参数.根据系统当前的环境状态以及模糊控制强化学习的Q值来决定当前规则的动作输出,并由模糊推理产生连续输出的动作.扩展贪心搜索策略,确保控制规则的各个输出动作在学习初期都被搜索过,避免陷入局部最优解.将有效跟踪算法和后设学习规则相结合,有效提高系统学习速率.在嵌入式平台中实时控制的实现以及和相关研究结论的对比验证该算法的优越性.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
卢永奎
许旻
李永新
杜华生
吴月华
杨杰
关键词 模糊控制在线自组织Q强化学习嵌入式系统实时控制    
Abstract:A new dynamic fuzzy Qlearning (DFQL) method is presented in this paper which is capable of tuning fuzzy inference systems (FIS) online. In DFQL system, the generation of continuous actions depends upon a discrete number of actions of every fuzzy rule and the vector of firing strengths of fuzzy rule. In order to explore the set of possible actions and acquire experiences through the reinforcement signals, the actions are selected using an explorationexploitation strategy based on the expended greedy algorithm. A function Q that gives the action quality with eligibility trace and meta learning rule is used here to speed up learning. εcompleteness of fuzzy rules criterion and temporaldifference (TD) error criterion are considered for rule generation. The DFQL approach has been applied to a realtime control caterpillar robot for the wall following task. Experimental results and comparative studies with the fuzzy Qlearning and continuousaction Qlearning in the wallfollowing task of mobile robots demonstrate that the proposed DFQL method is superior.
Key wordsFuzzy Control    OnLine SelfOrganizing    QLearning    Embedded System    RealTime Control   
收稿日期: 2005-01-27     
ZTFLH: TP181  
基金资助:国家863计划资助项目(No.2001AA422410)
作者简介: 卢永奎,男,1975年生,博士研究生,主要研究方向为机器人学.E-mail: luyongkui@hotmail.com.许旻,男,1972年生,博士研究生,主要研究方向为机器人学.李永新,男,1962年生,副教授,主要研究方向为光电计量技术.杜华生,男,1942年生,教授,主要研究方向为现代设计方法.吴月华,女,1945年生,副教授,主要研究方向为功能材料.杨杰,男,1946年生,教授,主要研究方向为机器人学.
引用本文:   
卢永奎,许旻,李永新,杜华生,吴月华,杨杰. 动态模糊Q学习算法及嵌入式平台的实时实现*[J]. 模式识别与人工智能, 2006, 19(4): 439-444. LU YongKui , XU Min, LI YongXin, DU HuaSheng, WU YueHua, YANG Jie. Dynamic Fuzzy QLearning and Its RealTime Application in Embedded System. , 2006, 19(4): 439-444.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2006/V19/I4/439
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn