
方宝富,博士,副教授,主要研究方向为智能机器人系统.E-mail:fangbf@hfut.edu.cn.
作者简介:

王 琼,硕士研究生,主要研究方向为多智能体深度强化学习.E-mail:2324289404@qq.com.

王 浩,博士,教授,主要研究方向为分布式智能系统、机器人. E-mail:jsjxwangh@hfut.edu.cn.

王在俊,硕士,研究员,主要研究方向为多机器人任务分配、人工智能.E-mail:tiantian20030315@126.com.
在大规模异构多智能体强化学习中,参数共享常用于减少训练参数并加速训练过程,但传统完全参数共享方法容易导致智能体行为过度一致,而独立参数训练方法却受到计算复杂度和内存限制.因此,文中提出基于角色的自适应参数共享方法(Role-Based Adaptive Parameter Sharing Method, RAPS).首先,根据智能体的任务特性进行角色分组.然后,在同一网络结构下,结合非结构化网络剪枝技术,为不同角色的智能体生成稀疏化的子网络结构,并引入动态调整机制,根据任务需求自适应优化共享参数与独立参数的比例.此外,通过角色间的协作损失函数,进一步增强异构智能体间的协调能力,在有效降低计算复杂度的同时,保持异构智能体的行为差异性.实验表明,在不同多智能体任务上,RAPS都能提升多智能体系统的性能和可扩展性.
FANG Baofu, Ph.D., associate professor. His research interests include intelligent robot systems.
About Author:
WANG Qiong, Master student. Her research interests include multi-agent deep reinforcement learning.
WANG Hao, Ph.D., professor. His research interests include distributed intelligent systems and robots.
WANG Zaijun, Master, researcher. Her research interests include multi-robot task allo-cation and artificial intelligence.
In large-scale heterogeneous multi-agent reinforcement learning, parameter sharing is often utilized to reduce the number of training parameters and accelerate the training process. However, the traditional full parameter sharing approach is prone to causing excessive behavioral uniformity among agents, while independent parameter training methods are constrained by computational complexity and memory limitations. Therefore, a role-based adaptive parameter sharing(RAPS) method is proposed in this paper. First, agents are grouped into roles based on their task characteristics. Then, within a unified network structure, sparse sub-network structures are generated for different agent roles by integrating unstructured network pruning techniques. A dynamic adjustment mechanism is introduced to adaptively optimize the ratio of shared and independent parameters according to task requirements. Additionally, a collaborative loss function between roles is incorporated to further enhance coordination among heterogeneous agents. Thus, computational complexity is effectively reduced by RAPS while behavioral diversity among heterogeneous agents is preserved. Experimental results demonstrate that RAPS improves the performance and scalability of multi-agent systems significantly in different multi-agent tasks.
近年来, 随着群体智能[1]与人工智能技术[2]的快速发展, 多智能体系统(Multi-agent System, MAS)[3]在各类复杂任务上的应用不断拓展, 并取得显著成效[4].典型应用场景包括智能交通[5]、智慧仓储物流[6]、无人机群体协作[7]、灾难响应[8]、能源调度[9]、分布式机器人系统[10]等.这些应用通常需要数量众多且类型各异的智能体协同工作, 使得系统规模和复杂度显著增长.同时, 随着智能体数量及其角色多样性的增加, MAS中可训练参数的数量也随之迅速增加, 训练时间显著延长, 并且对计算资源的需求急剧上升.这一现象大幅制约MAS在大规模异构任务中的实际应用.传统的强化学习方法[11, 12, 13, 14]在处理如此庞大且具有多类型智能体的系统时, 往往面临难以克服的性能瓶颈, 无法满足实际应用中对高效性和可扩展性的需求.
为了应对上述问题, 参数共享成为解决大规模多智能体系统可扩展性的常见方式.完全参数共享方法中所有智能体共享相同的策略网络参数, 可显著降低可训练参数的数量.然而, 该方法在异构场景中可能出现问题[15, 16, 17], 尽管每个智能体共享相同的基础能力, 但是方法会限制每个单位根据任务需求学习特定策略的能力.
进一步地, Christianos等[18]提出SePS(Selective Parameter Sharing), 通过对智能体的特性进行聚类分析, 将智能体划分为多个组, 同组内智能体共享参数, 不同组之间采用独立的策略网络.这种方法在保持参数共享效率的同时, 增强智能体的行为多样性和任务灵活性.然而, 随着智能体聚类分组数量的增加, 需要学习的参数量也会随之增加, 不适应于大规模的任务场景.Kim等[19]提出SNP-PS(Structured Network Pruning Method for Parameter Sharing), 通过对深度神经网络进行结构化剪枝[20], 在不增加额外参数的情况下, 提升联合策略的决策能力和模型的计算效率.然而, 该方法高度依赖剪枝策略设计, 并且剪枝结构的设计无法满足大规模智能体系统的需求.Li等[21]提出Kaleidoscope, 为每个智能体生成独立的子网络, 然而, 随着智能体数量的增加, 不同子网之间的重复率显著上升, 导致智能体间的策略多样性逐渐降低.He等[22]提出D2R(Dynamic Depth Routing), 通过在多个任务间共享参数以提高数据效率, 然而, D2R的策略设计和计算开销在大规模环境中仍存在一定挑战, 需要进一步的优化以适应更复杂的任务.
尽管现有方法在缓解完全参数共享局限性方面提供多种创新思路, 但仍未能完全解决大规模、异构多智能体系统中训练效率与可扩展性之间的矛盾.为此, 本文提出基于角色的自适应参数共享方法(Role-Based Adaptive Parameter Sharing, RAPS), 假设具有相似角色的智能体通常会表现出相似行为, 因此可通过共享经验提升学习效率.基于这一假设, RAPS根据智能体的行为特性对智能体进行角色分组, 并使用非结构化剪枝技术为不同角色组分配可学习的掩码.这些掩码在同一共享网络的基础上生成稀疏化的网络结构, 从而实现角色间差异化的策略共享.对于同一角色组的智能体, 共享相同的稀疏化网络结构.值得注意的是, 无论智能体数量如何增加, 共享网络的参数总量始终保持不变, 因此, 随着智能体数量的增加, 训练参数量不会膨胀, 从而提升系统的可扩展性.
本文在QMIX[23]上集成并实现RAPS, 在Open-AI开发的多智能体学习环境[24](后被研究社区广泛称为多智能体粒子环境(Multi-agent Particle Environment, MPE))和星际争霸II环境[17]中进行系统性实验, 结果表明, RAPS在训练效率和系统性能方面均有所提升.
马尔可夫博弈[25], 也称为随机博弈, 视为马尔可夫决策过程(Markov Decision Process, MDP)[26]在多智能体场景中的自然扩展.该模型在部分可观测性条件下定义为元组
< N, S, Oi, Ai, P, Ri, γ > .
其中:智能体i=1, 2, …, N; 联合观测空间
O=O1× O2× …× ON;
联合动作空间
A=A1× A2× …× AN;
给定状态S和所有智能体的联合动作, 状态转移函数P映射到下一个状态的概率分布, 即
P=S× A→ Δ (S);
奖励函数
Ri∶ S× A× S→ R,
用于计算每个智能体在时间步t的奖励
每个智能体的目标是确定策略
π ={π 1, π 2, …, π N},
以最大化每个智能体的折扣回报
Gi=
形式上为
∀ i∶ π i∈ arg
其中
π -i=
γ 表示折扣因子, T表示一个回合的总时间步数.
网络剪枝[27]是一种广泛应用于深度学习模型压缩和加速的技术, 通过移除神经网络中的冗余权重或连接, 降低模型的计算复杂度和存储需求.非结构化剪枝[28]是其中的重要分支, 直接针对权重层面进行逐元素剪枝, 不受特定网络结构的限制.如图1所示, 非结构化剪枝的目标是从一个完整的神经网络中移除不必要的连接或权重, 形成一个稀疏化的网络, 从而减少计算复杂度和存储需求.图1(a)为初始的全连接网络, 保留所有的权重和连接.经过非结构化剪枝后生成稀疏化网络(如(b)所示), 部分权重被移除(用灰线表示), 而重要的连接被保留以维持模型性能.
在模型稀疏化的研究背景下, STR(Soft Threshold Reparameterization)[29]是一种灵活的非结构化剪枝方法, 旨在引入可学习的剪枝阈值, 在不显式设置全局稀疏比例时, 实现高效的非结构化网络剪枝.与传统的硬剪枝或依赖全局稀疏预算的方法不同, STR直接优化网络参数的稀疏投影, 动态学习权重的重要性并调整剪枝阈值, 从而在保证稀疏化的同时保留模型性能.STR对网络权重W应用如下转换:
Sg(W, s)=sign(W)· ReLU(|W|-g(s)),
其中, s表示可学习的剪枝阈值参数, g(s)表示定义剪枝程度的函数.通过对参数s和网络权重W的联合优化, STR能实现剪枝过程的动态调整, 而不需要预设固定的稀疏比例.基于QMIX, 目标函数:
$\min _{W} L\left(S_{g}(W, s) ; D\right)=\min _{W} E_{D}\left[\left(y^{\text {tot }}-Q_{\text {tot }}\left(s^{t}, o^{t}, a^{t} ; \theta, s\right)\right)^{2}\right], $
其中, Sg(W, s)表示经过剪枝处理的稀疏化权重, L表示训练损失函数, D表示数据集, Qtot(st, ot, at; θ , s)表示在当前状态st、观测ot和动作at下计算得到的总Q值, θ 表示网络参数,
ytot=r+γ
θ -表示目标网络参数, γ 表示折扣因子.
在训练过程中通过最小化目标函数L, 动态调整网络参数θ 和剪枝阈值s, 提升方法性能.
角色可理解为在特定任务或情境下, 智能体应遵循的一套规范化行为模式或职责分配.在多智能体强化学习(Multi-agent Reinforcement Learning, MARL)中, 由于任务中智能体间的分工不同, 部分智能体需要执行不同的动作以实现不同的目标, 而其它智能体可能需要完成相同的任务.因此, 通过抽象的角色概念分类智能体, 对于提高智能体的学习效率至关重要.Wang等[30]提出ROMA(Role-Oriented Multi-agent Reinforcement Learning), 隐式地将角色概念引入MARL, 将个体策略条件化于角色, 仅依赖当前观测生成角色嵌入.Wang等[31]提出RODE(Roles to Decompose), 将联合动作空间分解为受限的角色动作空间, 给智能体赋予不同的角色, 让智能体在更小的解空间中搜索, 降低问题求解的复杂性.Li等[32]提出CDS, 最大化智能体身份与它们轨迹之间的互信息, 鼓励探索智能体之间的角色多样性, 提升智能体的学习效率.
在多智能体强化学习任务中, 智能体之间的行为差异是影响训练效率和系统性能的关键因素之一.为了更好地进行参数共享并提升系统的策略表达能力和扩展性, 本文提出基于角色的自适应参数共享方法(RAPS).首先, 通过学习和识别智能体的角色特征, 将智能体划分为多个角色组.然后, 利用非结构化网络剪枝技术, 对网络进行稀疏化处理, 使同一角色组内的智能体共享相同的网络结构, 而不同角色组之间仅共享部分网络结构.RAPS总体框架如图2所示.
角色概念为设计和理解复杂的多智能体系统提供一个有用的工具, 它允许具有相似角色的智能体共享相似行为.为了提高参数共享的有效性, 允许学习多种不同角色, 本文将在训练过程中应共享参数的智能体进行群组化.
为了学习智能体的角色特性, 设计变分自编码器(Variational Autoencoder, VAE), 包含编码器fe和解码器fp, 分别由θ 和v参数化.与经典自编码器的定义不同, 编码器fe在仅依赖智能体ID(如i)的条件下生成潜在变量zi.观测
$z^{i} \sim q_{\theta}(z \mid i)=N\left(\boldsymbol{\mu}_{\theta}, \boldsymbol{\Sigma}_{\theta} ; i\right)$
其中μ θ 和Σ θ 分别表示潜在变量的均值和方差.在训练过程中, 编码器逐步学习如何根据智能体ID生成一个能有效捕捉智能体角色特性的潜在变量.
另一方面, 解码器被分为观测解码器
通过优化解码器预测值与实际值之间的误差, 逐渐引导编码器生成更合理的潜在变量.
为了实现上述优化过程, 本文引入基于证据下界(Evidence Lower Bound, ELBO)的目标函数, 同时优化编码器和解码器性能.目标函数如下:
ln p(tr)≥
其中:
重构项本质上描述解码器如何根据潜在变量z生成智能体的观测和奖励.然而, 直接优化整个重构项可能会导致模型难以分离观测和奖励的生成任务.因此, 通过展开重构项ln pv(tr|z), 可显式分解解码器的任务:
ln pv(tr|z)=ln pv(rt, ot+1|at, ot, z)p(at, ot|z).
在解码器中, at和ot不依赖潜在变量z, 因此进一步化简为
ln pv(tr|z)=ln pv(rt|ot+1, at, ot, z)+ln pv(ot+1|at, ot, z)+c,
其中, c表示常数项, 与潜在变量z无关.通过上述优化过程, 编码器学习生成能有效表示智能体角色特性的潜在变量z, 而解码器则利用这些潜在变量预测智能体在下一时刻的观测ot+1和奖励rt.这样的建模方式使编码器和解码器在训练中协同进化, 逐渐提升模型对智能体角色的理解和预测能力.
值得强调的是, 需在强化学习之前完成智能体角色分组的训练.在完成VAE的预训练后, 下一步是对所有智能体的潜在变量进行聚类.具体地, 预训练生成的潜在变量为每个智能体提供一种针对其角色特性的高效编码.通过K-means聚类, 将智能体分为多个角色组.每个角色组内的智能体具有类似的行为特征和任务目标, 因此可共享参数结构和学习策略.为了确保聚类结果的质量, 引入Davies-Bouldin指数, 评估不同聚类数K的效果.该指数衡量聚类的分离度和紧密度, 能帮助选择最优的聚类个数, 从而优化智能体的角色分组和训练效果.
在为智能体进行角色分组之后, 需要为每个角色组生成独特的二进制掩码, 以此促进不同角色之间的策略差异化, 并最终提升MARL的性能.为此, 本文应用STR, 为每个角色组设置不同的阈值, 实现网络参数的稀疏化.
对于角色组j, j的网络权重参数θ j由全局共享的可学习参数集θ 0通过掩码Mj进行稀疏化处理, 即
θ j=θ 0☉Mj,
其中θ 0表示随机初始化的所有角色智能体共享的可学习网络权重参数集.需要注意的是, Mj表示与角色组j相关的二进制掩码, 是通过可学习的阈值sj动态调整的.假设
$\begin{array}{l} \boldsymbol{\theta}_{0}=\left[\theta_{0}^{1}, \theta_{0}^{2}, \cdots, \theta_{0}^{C}\right], \boldsymbol{\theta}_{j}=\left[\theta_{j}^{1}, \theta_{j}^{2}, \cdots, \theta_{j}^{C}\right], \\ \boldsymbol{M}_{j}=\left[m_{j}^{1}, m_{j}^{2}, \cdots, m_{j}^{C}\right], \end{array}$
C表示网络的总参数量.根据STR, Mj中每个元素的掩码值为:
其中:1[· ]表示一个指示函数, 当条件|
可通过优化学习得到阈值
如图2所示, 使用STR, 在共享网络的基础上为不同的角色组生成K个稀疏化的网络结构, 实现角色间的策略差异化.
RAPS的训练步骤主要包括预训练阶段和训练阶段.
在预训练阶段, RAPS首先使用VAE对智能体的潜在变量z进行学习.VAE通过编码器将智能体的ID信息映射到潜在空间, 生成每个智能体的潜在变量z, 然后通过解码器重建观测和奖励信息.该过程使模型能捕捉智能体的行为特征.基于智能体的潜在变量z, RAPS进一步使用K-means聚类将智能体划分为K个角色组.每个角色组内的智能体具有相似的行为特征和任务目标, 为后续的稀疏化处理提供合理依据.
在训练阶段, RAPS的核心目标是将角色分组与网络参数稀疏化结合, 提高多智能体系统的任务学习效率和可扩展性.在训练过程中, RAPS首先根据每个角色组的剪枝阈值sj计算二进制掩码Mj.该掩码用于对全局共享的网络参数θ 0进行稀疏化, 从而生成每个角色组的稀疏化网络参数
θ j=θ 0☉Mj.
通过这一稀疏化机制, 角色组的网络参数根据其特定的行为特征和任务目标进行调整.接下来, 基于每个角色组的稀疏化参数θ j, RAPS计算任务损失.任务损失反映智能体在与其它智能体交互时的表现, 并促使方法向最优策略收敛.计算损失之后, RAPS通过梯度下降方法更新全局共享的网络参数θ 0和每个角色组的剪枝阈值sj.
RAPS具体步骤如算法1所示.
算法1 RAPS
初始化 智能体数量N, 权重参数θ 0, 编码器fe,
解码器fp, 潜在变量z, 剪枝阈值s,
掩码参数M
预训练阶段:
使用VAE学习智能体的潜在变量z
使用K-means聚类将所有智能体划分为K个角色组
训练阶段:
for t=1 to T do
for j=1 to K do
使用剪枝阈值sj计算掩码Mj
计算角色组j的稀疏参数θ j=θ 0☉Mj
end for
计算任务损失
更新参数θ 和剪枝阈值{sj|j=1, 2, …, K}
end for
为了验证RAPS的有效性, 本文在 MPE[24]中的自定义任务场景以及星际争霸II环境[17]中的MMM2任务上, 基于QMIX[23]进行实验.具体而言, 结合RAPS与QMIX, 并在局部Q网络中应用参数共享机制, 评估方法在不同任务环境中的表现.
MPE是一个多智能体粒子世界, 具有连续的观察空间和离散的动作空间, 允许自定义和编辑任务.星际争霸II是一个即时战略游戏, 包含一位或多位玩家之间的对抗, 或与内置的游戏AI对战.游戏要求玩家控制一组智能体与敌人作战以取得胜利.每个智能体在每个时间步从离散的动作空间中选择一个动作, 这些动作包括:无动作、移动(特定方向)、攻击、停止.在这些动作的控制下, 智能体可在连续的地图中进行移动和攻击.
1)盲粒子扩散(Blind-Particle Spread, BPS).如图3(a)所示, BPS基于多智能体粒子环境创建, 环境中包含多种颜色的地标和智能体.智能体无法看到自己或其它智能体的颜色, 但它们需要向正确颜色的地标移动.环境的奖励设置相对密集, 即智能体在接近或成功到达目标地标时, 会获得及时的奖励反馈, 从而鼓励策略的逐步优化.任务有两个可调参数:智能体数量和颜色数量.
2)彩色多机器人仓库(Coloured Multi-robot Ware-house, C-RWARE).如图3(b)所示, 该任务场景是RWARE环境的变体[33].环境中存在多个不同颜色的智能体, 这些智能体可以旋转、向前移动、拿起或放下货架.智能体的观察空间是部分可观测的, 每个智能体只能观察以自身为中心的3× 3网格内的实体.智能体通过将与之对应颜色的货架送到目标地G点以获得奖励.每次成功交付都会获得+1奖励, 同时系统会随机生成新的货架请求.这种奖励机制设计使任务具有稀疏奖励信号的特点, 从而增加学习的挑战性.
3)MMM2(Medivac Marauders Marines).如图3(c)所示, MMM2是星际争霸II中最具有挑战性的任务之一.该任务场景包含3类单位:陆战队员、掠夺者、医疗兵, 它们具有不同属性, 可用于验证角色聚类的有效性.陆战队主要负责攻击敌方单位并提供火力支持; 掠夺者具有较高的生命值和伤害输出, 负责近距离作战并攻击敌方重型单位; 医疗兵负责支援, 治疗受伤的队友, 确保战斗持续进行.
本文选择如下5种方法进行对比.1)FuPS(Fully Parameter Sharing)[23].基于QMIX, 要求所有智能体共享相同的网络参数, 从而简化训练过程, 提高计算效率.2)NoPS(No Parameter Sharing)[23].基于QM-IX, 允许每个智能体拥有独立的网络参数.3)Se-PS[18]、SNP-PS[19]、Kaleidoscope[21].都是部分参数共享方法, 允许在某些层次上共享参数, 在其它层次上保持独立, 以平衡训练效率和个性化决策的需求.其中:SePS将智能体分组, 组内参数共享, 组间参数完全独立; SNP-PS使用结构化剪枝方法, 并使用随机剪枝率控制智能体共享参数的比率; Kaleidoscope基于不同的可学习掩码控制智能体共享参数的模式.
在实验中, 使用Adam(Adaptive Moment Estima-tion)优化器, 设置学习率为3× 10-4, 优化器中Є=1× 10-5, 熵系数为1× 10-2.在编码器-解码器网络的训练过程中, KL损失的缩放系数为1× 10-4, 批量大小为128.
在一台配置包含18核CPU、160 GB内存和1张GPU的计算机上进行实验.为了确保公平性, 每次实验在5个不同的种子上重复进行, 每次运行持续1~2天, 最终结果取平均值.
本文选取平均奖励(Mean Reward)作为评价指标, 旨在全面对比各方法训练智能体的行为表现及任务执行效率.这一指标反映智能体群体作为一个整体的平均性能, 平均奖励值越高通常表明智能体团队越能有效完成任务并获得越多奖励.
在多智能体任务中, 可扩展性是衡量算法性能的重要指标之一.面对智能体数量增加或任务复杂度提升, 算法能否保持高效的训练能力和良好的任务表现, 是评估其可扩展性的关键.为了验证RAPS的可扩展性, 本文设计不同规模、复杂度和特征差异化的任务场景, 包括BPS任务、C-RWARE任务、MMM2任务、包含120个智能体的大规模任务, 同时也进行运行时间的对比.
3.2.1 小规模多智能体任务
BPS任务环境包括3种不同颜色的智能体和地标, 每种颜色的智能体数量为5个, 因此环境中有15个智能体.智能体的目标是朝着与自身颜色对应的地标移动, 最终完成任务.在该场景中, 所有方法均在相同的环境设置下进行训练, 并且每种方法都进行5× 104回合的训练.
各方法在BPS任务场景中训练时获得平均奖励曲线如图4所示.
由图4可看出, RAPS在训练初期收敛速度较快, 并在训练中期达到较高的平均奖励值.RAPS通过角色分组和稀疏化网络设计, 有效增强智能体之间的策略多样性, 提升任务执行效率.SePS通过组内参数共享, 增强组内智能体的协作性, 因此在BPS任务上表现较稳定.Kaleidoscope性能仅次于RAPS, 因为其为每个智能体独立学习掩码, 增强策略多样性和学习效果.由于智能体完全独立学习, NoPS在奖励信号密集的任务上能较快获得环境反馈, 因此训练收敛速度较快.相比之下, FuPS强制所有智能体共享相同策略参数, 导致智能体无法根据自身的角色需求学习特定的行为策略, 策略趋于一致.这种缺乏多样性的策略限制智能体的任务表现, 使其始终无法达到较高的平均奖励.
C-RWARE任务环境包括8个智能体, 每4个智能体共享一个颜色, 对应一个任务.在该场景中, 所有对比方法均在相同的环境设置下进行训练, 每种方法都进行5× 104回合的训练.
各方法在C-RWARE任务场景中训练时获得的平均奖励曲线如图5所示.由图可看出, 任务奖励信号的稀疏性使完全独立学习的NoPS难以从环境中及时获得有效反馈, 从而导致学习速度较慢, 表现不如BPS任务中突出.RAPS在稀疏奖励场景中表现出较强的适应能力, 通过角色分组机制共享相似角色的经验, 加速有效反馈的获取, 提高学习效率.同时, 稀疏化网络结构减少无效策略的搜索范围, 使智能体学习更高效.尽管SePS通过组内参数共享增强协作性, 但组间参数独立的设计在稀疏奖励场景中限制智能体间的信息共享, 导致收敛速度较慢, 最终奖励值低于RAPS.SNP-PS的剪枝率设置对任务表现影响较大, 在稀疏奖励场景中未能稳定地优化策略, 平均奖励曲线在训练后期表现出较大波动.
| 图5 各方法在C-RWARE任务上的平均奖励曲线对比Fig.5 Comparison of mean reward curves for different methods on C-RWARE task |
MMM2任务环境包括7个陆战队员、2个掠夺者和1个医疗兵, 共计10个智能体, 并且每种类型的智能体在战斗中扮演不同的角色.在该场景中, 所有方法均在相同的环境设置下训练6× 106步.
各方法在MMM2任务场景中训练时获得的平均奖励曲线如图6所示.由图可看出, RAPS在MMM2任务上表现出优秀的角色分组能力, 通过对不同类型智能体的特征提取和策略分化, 使每种类型的智能体都能有效学习符合其任务需求的策略.FuPS无法根据角色差异进行策略调整, 所有智能体共享相同策略网络, 导致任务执行效果不佳.MMM2任务的复杂性使得NoPS这种完全独立学习方式的智能体面临协作性不足的问题, 性能明显差于其它方法.Kaleidoscope个体化子网络设计避免完全参数共享导致的过度一致性问题, 使不同单位能更灵活地执行协作任务.
3.2.2 大规模多智能体任务
由于MMM2任务复杂度较高, 未在该任务上进行大规模训练, 本文仅将各方法在包含大量智能体的MPE任务上进行训练, 评估RAPS在大规模任务中的有效性.
在包含120个智能体的BPS任务和C-RWARE任务中进行实验, 环境中包含4种不同颜色的智能体.由于NoPS未采用参数共享方法, 需要为每个智能体分配独立的参数, 计算量极大, 因此在包含大量智能体的任务中无法实施.所有对比方法均在相同的环境设置下进行训练, 每种方法都进行5× 104回合的训练.
各方法在大规模任务环境中的平均奖励曲线如图7所示.由图可看出, SePS在训练过程中收敛速度较慢, 性能较低.这主要是由于SePS在任务上采用较简单的参数共享机制, 尽管它将智能体分组并进行组内参数共享, 但由于组间智能体参数独立, 导致其在大规模任务上计算负担较重, 收敛速度较慢, 尤其是在复杂任务上难以有效提高性能.FuPS通过完全共享参数的方式, 使所有智能体使用相同策略, 虽然计算较高效, 但忽略智能体行为的差异性, 影响方法性能.RAPS在性能和收敛速度方面明显优于其它对比方法, 并且采用的非结构化剪枝技术可降低其对计算资源的需求, 确保在大规模任务上的可扩展性.SNP-PS和Kaleidoscope在大规模任务上的表现存在相似问题.SNP-PS需要为每个智能体设置独立的剪枝策略, 但随着智能体数量的增加, 这些剪枝策略之间的重复性也随之增加, 导致方法难以有效捕捉智能体之间的行为差异, 从而限制训练效果.同样, Kaleidoscope为每个智能体分配掩码, 但由于掩码之间的差异性过小, 也未能充分体现智能体间的策略差异性.这种缺乏差异性的设计使这两种方法在大规模任务上都难以获得良好性能.
| 图7 各方法在大规模任务上的平均奖励曲线对比Fig.7 Comparison of mean reward curves of different methods on large-scale tasks |
3.2.3 运行时间
为了更清晰地展示RAPS在多智能体强化学习中的计算优势, 在3种任务环境中, 对比各方法在训练过程中每个时间步所需的中位运行时间, 具体如图8所示.
由图8可看出, 相比FuPS, NoPS需要为每个智能体训练独立的模型, 导致每个智能体的训练成本显著增加.SePS需要为每种类型的智能体训练单独的模型, 随着智能体类别的增加, 运行时间也超过FuPS.SNP-PS和Kaleidoscope需要为每个智能体计算独立的剪枝策略或掩码, 虽然在一定程度上提高策略的灵活性, 但随着智能体数量的增加, 计算复杂度迅速提升, 难以在大规模任务场景中保持高效性能.尽管RAPS在角色组的掩码学习中增加一定的计算复杂度, 但时间规模与FuPS相似, 并且在扩展性和学习性能上显著优于其它方法.因此, RAPS在大规模多智能体任务场景中具有更好的适用性, 能显著减少训练过程所需时间.
为了验证角色划分方法的合理性, 首先选择MMM2任务作为测试场景.MMM2任务场景包含3种不同类型的智能体:陆战队员、掠夺者、医疗兵, 每种类型的智能体在任务中承担不同的角色和职责.MMM2场景的清晰角色属性为本文提供一个理想的基准, 可验证聚类算法在实际应用中的有效性.为了直观评估角色划分的效果, 首先通过VAE学习智能体的潜在特征表示, 并结合K-means聚类对潜在空间的特征分布进行聚类.
角色分组的可视化结果如图9所示, 图中不同颜色的点分别表示3类智能体对应的聚类结果.通过这种方式, 可清晰看到聚类算法能否准确反映MMM2任务上智能体的真实角色, 从而验证角色划分方法的合理性.
由图9可看到, 不同角色的智能体在空间中分布清晰, 各类智能体形成显著的聚类效果, 这种分布特性验证VAE对智能体行为特征的良好捕捉能力, 并通过潜在特征区分具有不同任务目标的角色.
在预训练过程中, 当嵌入空间已知时, RAPS使用Davies-Bouldin指数评估不同聚类数的质量, 确定最优的聚类数量K.为了进一步验证RAPS角色分组的合理性, 分别在无明确角色划分的BPS任务和C-RWARE任务上进行额外实验.
在BPS任务上, 通过Davies-Bouldin指数确定最优聚类数K=3.为了评估不同聚类数(即不同的K值)对智能体学习效果的影响, 设置K=1, 2, …, 5, 进行对比实验, 具体平均回报曲线如图10所示.由图可看出, 当K=3时, 角色分组效果最佳, 任务执行表现最优, 而当聚类数过少(K=1, 2)时, 角色分组过于宽泛, 导致任务执行效率降低, 并且当K=1时, 降低至完全参数共享方法, 忽略智能体间的异质性.当K=4, 5时, 虽然聚类的分离度提高, 但角色之间的重叠性增加, 反而没有显著提升任务表现.因此, 基于Davies-Bouldin指数的评估结果, K=3被证实是最优选择, 能够平衡任务分组的准确性和执行效率.
在C-RWARE任务上, 通过Davies-Bouldin指数确定最优的聚类数K=2.为了评估不同聚类数(即不同的K值)对智能体学习效果的影响, 设置K=1, 2, 3, 4, 进行对比实验, 具体平均回报曲线如图11所示.由图可看出, 当K=2时, 智能体的学习效率最佳.当K=1时, 学习效率最低.当K> 2时, 虽然理论上可能期望分组更细致, 但实际结果表明, 角色之间的过多重叠使智能体在任务执行中的协调和信息共享变得更困难, 反而影响学习效果.因此, 基于Da-vies-Bouldin指数的评估结果, K=2被证实是最优选择, 能平衡任务分组的准确性和执行效率.
综合上述实验结果可得出, RAPS能根据任务的不同特点, 找到最合适的角色分组方案, 提升多智能体系统在复杂任务中的表现.
本文提出基于角色的自适应参数共享方法(RAPS), 旨在提高大规模异构多智能体任务的训练效率和可扩展性.通过将智能体根据角色进行分组, 并使用非结构化剪枝技术生成稀疏化的网络结构, RAPS能在共享参数的同时保持智能体行为的多样性.实验表明, RAPS在多个任务环境中提高系统性能和收敛速度, 尤其在大规模任务上表现出较好的计算效率和可扩展性.然而, 本文提出的智能体角色学习是在强化学习前完成的, 依赖预先收集的数据执行角色分组和参数共享策略.虽然该模型在静态环境中表现良好, 但在动态环境下, 智能体角色和任务可能会改变, 导致初始策略无法适用.今后可考虑在动态环境中动态调整角色分组与参数共享策略, 实现性能提升.
本文责任编委 兰旭光
Recommended by Associate Editor LAN Xuguang
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
|
| [20] |
|
| [21] |
|
| [22] |
|
| [23] |
|
| [24] |
|
| [25] |
|
| [26] |
|
| [27] |
|
| [28] |
|
| [29] |
|
| [30] |
|
| [31] |
|
| [32] |
|
| [33] |
|

