模式识别与人工智能
2025年8月8日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2024, Vol. 37 Issue (10): 851-872    DOI: 10.16451/j.cnki.issn1003-6059.202410001
综述与评论 最新目录| 下期目录| 过刊浏览| 高级检索 |
多智能体强化学习理论及其应用综述
陈卓然1, 刘泽阳1, 万里鹏1, 陈星宇1, 朱雅萌2, 王成泽2, 程翔3, 张亚4, 张森林5, 王晓辉6, 兰旭光1
1.西安交通大学 人工智能与机器人研究所 西安 710049;
2.中国运载火箭技术研究院 北京 100076;
3.北京大学 电子学院 北京 100871;
4.东南大学 自动化学院 南京 210096;
5.浙江大学 电气工程学院 杭州 310027;
6.中国电力科学研究院 人工智能研究所 北京 100192
A Review of Multi-agent Reinforcement Learning Theory and Applications
CHEN Zhuoran1, LIU Zeyang1, WAN Lipeng1, CHEN Xingyu1, ZHU Yameng2, WANG Chengze2, CHENG Xiang3, ZHANG Ya4, ZHANG Senlin5, WANG Xiaohui6, LAN Xuguang1
1. Institute of Artificial Intelligence and Robotics, Xi'an Jiaotong University, Xi'an 710049;
2. China Academy of Launch Vehicle Technology, Beijing 100076;
3. School of Electronics, Peking University, Beijing 100871;
4. School of Automation, Southeast University, Nanjing 210096;
5. College of Electrical Engineering, Zhejiang University, Hangzhou 310027;
6. Artificial Intelligence Research Institute, China Electric Power Research Institute, Beijing 100192

全文: PDF (1775 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 强化学习是一种用于解决序列决策问题的常用机器学习方法,核心思想是让智能体与环境交互获得反馈,从而逐步学会最佳策略.随着实际应用对计算能力和数据规模的要求不断提高,单体智能转向群体智能逐渐成为人工智能未来发展的必然趋势,这为强化学习带来诸多新的机遇和挑战.文中首先从深度多智能体强化学习概念着手,针对目前的理论困境,如可拓展性较差、效用分配较难、探索-利用困境、环境非稳态、信息部分可观测等问题,进行提炼和分析.然后,详细阐述目前学者对于这些问题提出的多种解决方法及其优缺点.最后,介绍当前多智能体强化学习的典型训练学习环境和智慧城市建设、游戏、机器人控制、自动驾驶等复杂决策领域的实际应用,并总结协作多智能体强化学习面临的挑战和未来发展方向.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈卓然
刘泽阳
万里鹏
陈星宇
朱雅萌
王成泽
程翔
张亚
张森林
王晓辉
兰旭光
关键词 深度强化学习多智能体效用分配人类反馈马尔科夫决策过程    
Abstract:Reinforcement learning(RL) is a widely utilized machine learning paradigm for addressing sequential decision-making problems. Its core principle involves enabling agents to learn optimal policies iteratively through feedback derived from interactions between an agent and the environment. As the demands for computational power and data scale of practical applications continue to escalate, the transition from single-agent intelligence to collective intelligence becomes an inevitable trend in the future development of artificial intelligence. Therefore, challenges and opportunities are abundant for RL. In this paper, grounded on the concept of deep multi-agent reinforcement learning(MARL), the current theoretical dilemmas are refined and analyzed, including limited scalability, credit assignment, exploration-exploitation dilemma, non-stationarity and partial observability of information. Various solutions and their advantages and disadvantages proposed by researchers are elaborated. Typical training and learning environment of MARL and its practical applications in complex decision-making fields, such as smart city construction, gaming, robotics control and autonomous driving, are introduced. The challenges and future development direction of collaborative multi-agent reinforcement learning are summarized.
Key wordsDeep Reinforcement Learning    Multi-agent    Credit Assignment    Human Feedback    Markov Decision Process   
收稿日期: 2024-09-30     
ZTFLH: TP 181  
基金资助:国家重点研发计划项目(No.2021ZD0112700)、国家自然科学基金重点项目(No.62125305,62088102,U23A20339,62203348)资助
通讯作者: 兰旭光,博士,教授,主要研究方向为计算机视觉、机器学习.E-mail:xglan@mail.xjtu.edu.cn   
作者简介: 陈卓然,博士研究生,主要研究方向为深度强化学习.E-mail:zhuoran.chen@stu.xjtu.edu.cn.刘泽阳,博士,助教,主要研究方向为深度强化学习.E-mail:zeyang.liu@stu.xjtu.edu.cn.万里鹏,博士,助教,主要研究方向为深度强化学习、共融机器人.E-mail:xjtuwanlip@126.com.陈星宇,博士,助教,主要研究方向为主要研究方向为计算机视觉、机器学习.E-mail:xingyuchen1990@gmail.com.朱雅萌,硕士,工程师,主要研究方向为智能体博弈、自动控制.E-mail:yameng_zhu@126.com.王成泽,硕士研究生,主要研究方向为智能体博弈、自动控制.E-mail:19906362381@163.com.程 翔,博士,教授,主要研究方向为基于数据驱动的智慧网络和网联智能.E-mail:xiangcheng@pku.edu.cn.张 亚,博士,教授,主要研究方向为群体博弈对抗、强化学习.E-mail:yazhang@seu.edu.cn.张森林,硕士,教授,主要研究方向为控制理论及应用.E-mail:slzhang@zju.edu.cn. 王晓辉,博士,高级工程师,主要研究方向为电力人工智能、电力系统及其自动化.E-mail:wangxiaohui@epri.sgcc.com.cn.
引用本文:   
陈卓然, 刘泽阳, 万里鹏, 陈星宇, 朱雅萌, 王成泽, 程翔, 张亚, 张森林, 王晓辉, 兰旭光. 多智能体强化学习理论及其应用综述[J]. 模式识别与人工智能, 2024, 37(10): 851-872. CHEN Zhuoran, LIU Zeyang, WAN Lipeng, CHEN Xingyu, ZHU Yameng, WANG Chengze, CHENG Xiang, ZHANG Ya, ZHANG Senlin, WANG Xiaohui, LAN Xuguang. A Review of Multi-agent Reinforcement Learning Theory and Applications. Pattern Recognition and Artificial Intelligence, 2024, 37(10): 851-872.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202410001      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2024/V37/I10/851
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn