基于角色的自适应参数共享方法

引用本文

方宝富, 王琼, 王浩, 王在俊. 基于角色的自适应参数共享方法. 模式识别与人工智能, 2025,38(3): 193-204
FANG Baofu, WANG Qiong, WANG Hao, WANG Zaijun. Role-Based Adaptive Parameter Sharing Method. PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE, 2025,38(3): 193-204. 复制到剪切板

Doi: 10.16451/j.cnki.issn1003-6059.202503001
Permissions

《模式识别与人工智能》编辑部

基于角色的自适应参数共享方法

方宝富^1,², 王琼¹, 王浩¹, 王在俊³

1.合肥工业大学计算机与信息学院合肥 230601

2.新疆农业大学计算机与信息工程学院乌鲁木齐 830052

3.中国民用航空飞行学院民航飞行技术与飞行安全重点实验室广汉 618307

通讯作者:

方宝富,博士,副教授,主要研究方向为智能机器人系统.E-mail:fangbf@hfut.edu.cn.

作者简介:

王琼,硕士研究生,主要研究方向为多智能体深度强化学习.E-mail:2324289404@qq.com.

王浩,博士,教授,主要研究方向为分布式智能系统、机器人. E-mail:jsjxwangh@hfut.edu.cn.

王在俊,硕士,研究员,主要研究方向为多机器人任务分配、人工智能.E-mail:tiantian20030315@126.com.

收稿日期: 2025-01-16 接受日期: 2025-03-11

资助项目: 安徽省自然科学基金项目(No.2308085MF203)、安徽高校协同创新项目(No.GXXT-2022-055)、民航飞行技术与飞行安全重点实验室开放基金项目(No.FZ2022KF09)、民航飞行技术与飞行安全重点实验室重点项目(No.FZ2022ZZ02)资助

摘要

在大规模异构多智能体强化学习中,参数共享常用于减少训练参数并加速训练过程,但传统完全参数共享方法容易导致智能体行为过度一致,而独立参数训练方法却受到计算复杂度和内存限制.因此,文中提出基于角色的自适应参数共享方法(Role-Based Adaptive Parameter Sharing Method, RAPS).首先,根据智能体的任务特性进行角色分组.然后,在同一网络结构下,结合非结构化网络剪枝技术,为不同角色的智能体生成稀疏化的子网络结构,并引入动态调整机制,根据任务需求自适应优化共享参数与独立参数的比例.此外,通过角色间的协作损失函数,进一步增强异构智能体间的协调能力,在有效降低计算复杂度的同时,保持异构智能体的行为差异性.实验表明,在不同多智能体任务上,RAPS都能提升多智能体系统的性能和可扩展性.

关键词: 大规模异构多智能体强化学习; 参数共享; 非结构化网络剪枝; 角色分组

中图分类号:TP391

Role-Based Adaptive Parameter Sharing Method

FANG Baofu^1,², WANG Qiong¹, WANG Hao¹, WANG Zaijun³

1.School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601

2.College of Computer and Information Engineering, Xinjiang Agricultural University, Urumqi 830052

3.Key Laboratory of Flight Techniques and Flight Safety, Civil Aviation Flight University of China, Guanghan 618307

Corresponding author:
FANG Baofu, Ph.D., associate professor. His research interests include intelligent robot systems.

About Author:
WANG Qiong, Master student. Her research interests include multi-agent deep reinforcement learning.
WANG Hao, Ph.D., professor. His research interests include distributed intelligent systems and robots.
WANG Zaijun, Master, researcher. Her research interests include multi-robot task allo-cation and artificial intelligence.

Fund:Supported by Natural Science Foundation of Anhui Province(No.2308085MF203), University Synergy Innovation Program of Anhui Province(No.GXXT-2022-055), Open Fund of Key Laboratory of Flight Techniques and Flight Safety, CAAC(No.FZ2022KF09), R&D Program of Key Laboratory of Flight Techniques and Flight Safety, CAAC(No.FZ2022ZZ02)

Abstract

In large-scale heterogeneous multi-agent reinforcement learning, parameter sharing is often utilized to reduce the number of training parameters and accelerate the training process. However, the traditional full parameter sharing approach is prone to causing excessive behavioral uniformity among agents, while independent parameter training methods are constrained by computational complexity and memory limitations. Therefore, a role-based adaptive parameter sharing(RAPS) method is proposed in this paper. First, agents are grouped into roles based on their task characteristics. Then, within a unified network structure, sparse sub-network structures are generated for different agent roles by integrating unstructured network pruning techniques. A dynamic adjustment mechanism is introduced to adaptively optimize the ratio of shared and independent parameters according to task requirements. Additionally, a collaborative loss function between roles is incorporated to further enhance coordination among heterogeneous agents. Thus, computational complexity is effectively reduced by RAPS while behavioral diversity among heterogeneous agents is preserved. Experimental results demonstrate that RAPS improves the performance and scalability of multi-agent systems significantly in different multi-agent tasks.

Key words: Large-Scale Heterogeneous Multi-agent Reinforcement Learning; Parameter Sharing; Unstructured Network Pruning; Role Grouping

文章图片

近年来, 随着群体智能^[1]与人工智能技术^[2]的快速发展, 多智能体系统(Multi-agent System, MAS)^[3]在各类复杂任务上的应用不断拓展, 并取得显著成效^[4].典型应用场景包括智能交通^[5]、智慧仓储物流^[6]、无人机群体协作^[7]、灾难响应^[8]、能源调度^[9]、分布式机器人系统^[10]等.这些应用通常需要数量众多且类型各异的智能体协同工作, 使得系统规模和复杂度显著增长.同时, 随着智能体数量及其角色多样性的增加, MAS中可训练参数的数量也随之迅速增加, 训练时间显著延长, 并且对计算资源的需求急剧上升.这一现象大幅制约MAS在大规模异构任务中的实际应用.传统的强化学习方法^{[11, 12, 13, 14]}在处理如此庞大且具有多类型智能体的系统时, 往往面临难以克服的性能瓶颈, 无法满足实际应用中对高效性和可扩展性的需求.

为了应对上述问题, 参数共享成为解决大规模多智能体系统可扩展性的常见方式.完全参数共享方法中所有智能体共享相同的策略网络参数, 可显著降低可训练参数的数量.然而, 该方法在异构场景中可能出现问题^{[15, 16, 17]}, 尽管每个智能体共享相同的基础能力, 但是方法会限制每个单位根据任务需求学习特定策略的能力.

进一步地, Christianos等^[18]提出SePS(Selective Parameter Sharing), 通过对智能体的特性进行聚类分析, 将智能体划分为多个组, 同组内智能体共享参数, 不同组之间采用独立的策略网络.这种方法在保持参数共享效率的同时, 增强智能体的行为多样性和任务灵活性.然而, 随着智能体聚类分组数量的增加, 需要学习的参数量也会随之增加, 不适应于大规模的任务场景.Kim等^[19]提出SNP-PS(Structured Network Pruning Method for Parameter Sharing), 通过对深度神经网络进行结构化剪枝^[20], 在不增加额外参数的情况下, 提升联合策略的决策能力和模型的计算效率.然而, 该方法高度依赖剪枝策略设计, 并且剪枝结构的设计无法满足大规模智能体系统的需求.Li等^[21]提出Kaleidoscope, 为每个智能体生成独立的子网络, 然而, 随着智能体数量的增加, 不同子网之间的重复率显著上升, 导致智能体间的策略多样性逐渐降低.He等^[22]提出D2R(Dynamic Depth Routing), 通过在多个任务间共享参数以提高数据效率, 然而, D2R的策略设计和计算开销在大规模环境中仍存在一定挑战, 需要进一步的优化以适应更复杂的任务.

尽管现有方法在缓解完全参数共享局限性方面提供多种创新思路, 但仍未能完全解决大规模、异构多智能体系统中训练效率与可扩展性之间的矛盾.为此, 本文提出基于角色的自适应参数共享方法(Role-Based Adaptive Parameter Sharing, RAPS), 假设具有相似角色的智能体通常会表现出相似行为, 因此可通过共享经验提升学习效率.基于这一假设, RAPS根据智能体的行为特性对智能体进行角色分组, 并使用非结构化剪枝技术为不同角色组分配可学习的掩码.这些掩码在同一共享网络的基础上生成稀疏化的网络结构, 从而实现角色间差异化的策略共享.对于同一角色组的智能体, 共享相同的稀疏化网络结构.值得注意的是, 无论智能体数量如何增加, 共享网络的参数总量始终保持不变, 因此, 随着智能体数量的增加, 训练参数量不会膨胀, 从而提升系统的可扩展性.

本文在QMIX^[23]上集成并实现RAPS, 在Open-AI开发的多智能体学习环境^[24](后被研究社区广泛称为多智能体粒子环境(Multi-agent Particle Environment, MPE))和星际争霸II环境^[17]中进行系统性实验, 结果表明, RAPS在训练效率和系统性能方面均有所提升.

1 相关工作

1.1 马尔可夫博弈

马尔可夫博弈^[25], 也称为随机博弈, 视为马尔可夫决策过程(Markov Decision Process, MDP)^[26]在多智能体场景中的自然扩展.该模型在部分可观测性条件下定义为元组

< N, S, Oⁱ, Aⁱ, P, Rⁱ, γ > .

其中:智能体i=1, 2, …, N; 联合观测空间

O=O¹× O²× …× O^N;

联合动作空间

A=A¹× A²× …× A^N;

给定状态S和所有智能体的联合动作, 状态转移函数P映射到下一个状态的概率分布, 即

P=S× A→ Δ (S);

奖励函数

Rⁱ∶ S× A× S→ R,

用于计算每个智能体在时间步t的奖励 $r_{t}^{i}$ .

每个智能体的目标是确定策略

π ={π ₁, π ₂, …, π _N},

以最大化每个智能体的折扣回报

Gⁱ= $\sum_{t = 0}^{T}$ γ ^t $r_{t}^{i}$ ,

形式上为

∀ i∶ π _i∈ arg $\max_{π'_{i}}$ E[Gⁱ|π '_i, π _-_i],

其中

π _-_i= $\frac{π}{{π_{i}}}$ ,

γ 表示折扣因子, T表示一个回合的总时间步数.

1.2 非结构化剪枝

网络剪枝^[27]是一种广泛应用于深度学习模型压缩和加速的技术, 通过移除神经网络中的冗余权重或连接, 降低模型的计算复杂度和存储需求.非结构化剪枝^[28]是其中的重要分支, 直接针对权重层面进行逐元素剪枝, 不受特定网络结构的限制.如图1所示, 非结构化剪枝的目标是从一个完整的神经网络中移除不必要的连接或权重, 形成一个稀疏化的网络, 从而减少计算复杂度和存储需求.图1(a)为初始的全连接网络, 保留所有的权重和连接.经过非结构化剪枝后生成稀疏化网络(如(b)所示), 部分权重被移除(用灰线表示), 而重要的连接被保留以维持模型性能.

	Figure Option View Download New Window
	图1 非结构化网络剪枝Fig.1 Unstructured network pruning

1.3 软阈值重新参数化

在模型稀疏化的研究背景下, STR(Soft Threshold Reparameterization)^[29]是一种灵活的非结构化剪枝方法, 旨在引入可学习的剪枝阈值, 在不显式设置全局稀疏比例时, 实现高效的非结构化网络剪枝.与传统的硬剪枝或依赖全局稀疏预算的方法不同, STR直接优化网络参数的稀疏投影, 动态学习权重的重要性并调整剪枝阈值, 从而在保证稀疏化的同时保留模型性能.STR对网络权重W应用如下转换:

S_g(W, s)=sign(W)· ReLU(|W|-g(s)),

其中, s表示可学习的剪枝阈值参数, g(s)表示定义剪枝程度的函数.通过对参数s和网络权重W的联合优化, STR能实现剪枝过程的动态调整, 而不需要预设固定的稀疏比例.基于QMIX, 目标函数:

$\min _{W} L\left(S_{g}(W, s) ; D\right)=\min _{W} E_{D}\left[\left(y^{\text {tot }}-Q_{\text {tot }}\left(s^{t}, o^{t}, a^{t} ; \theta, s\right)\right)^{2}\right], $

其中, S_g(W, s)表示经过剪枝处理的稀疏化权重, L表示训练损失函数, D表示数据集, Q_tot(s^t, o^t, a^t; θ , s)表示在当前状态s^t、观测o^t和动作a^t下计算得到的总Q值, θ 表示网络参数,

y^tot=r+γ $\max_{a}$ Q_tot(s^t⁺¹, o^t⁺¹, a; θ ^-),

θ ^-表示目标网络参数, γ 表示折扣因子.

在训练过程中通过最小化目标函数L, 动态调整网络参数θ 和剪枝阈值s, 提升方法性能.

1.4 基于角色的多智能体强化学习方法

角色可理解为在特定任务或情境下, 智能体应遵循的一套规范化行为模式或职责分配.在多智能体强化学习(Multi-agent Reinforcement Learning, MARL)中, 由于任务中智能体间的分工不同, 部分智能体需要执行不同的动作以实现不同的目标, 而其它智能体可能需要完成相同的任务.因此, 通过抽象的角色概念分类智能体, 对于提高智能体的学习效率至关重要.Wang等^[30]提出ROMA(Role-Oriented Multi-agent Reinforcement Learning), 隐式地将角色概念引入MARL, 将个体策略条件化于角色, 仅依赖当前观测生成角色嵌入.Wang等^[31]提出RODE(Roles to Decompose), 将联合动作空间分解为受限的角色动作空间, 给智能体赋予不同的角色, 让智能体在更小的解空间中搜索, 降低问题求解的复杂性.Li等^[32]提出CDS, 最大化智能体身份与它们轨迹之间的互信息, 鼓励探索智能体之间的角色多样性, 提升智能体的学习效率.

2 基于角色的自适应参数共享方法

在多智能体强化学习任务中, 智能体之间的行为差异是影响训练效率和系统性能的关键因素之一.为了更好地进行参数共享并提升系统的策略表达能力和扩展性, 本文提出基于角色的自适应参数共享方法(RAPS).首先, 通过学习和识别智能体的角色特征, 将智能体划分为多个角色组.然后, 利用非结构化网络剪枝技术, 对网络进行稀疏化处理, 使同一角色组内的智能体共享相同的网络结构, 而不同角色组之间仅共享部分网络结构.RAPS总体框架如图2所示.

	Figure Option View Download New Window
	图2 RAPS总体框图Fig.2 Overall framework of RAPS

2.1 角色分组学习

角色概念为设计和理解复杂的多智能体系统提供一个有用的工具, 它允许具有相似角色的智能体共享相似行为.为了提高参数共享的有效性, 允许学习多种不同角色, 本文将在训练过程中应共享参数的智能体进行群组化.

为了学习智能体的角色特性, 设计变分自编码器(Variational Autoencoder, VAE), 包含编码器f_e和解码器f_p, 分别由θ 和v参数化.与经典自编码器的定义不同, 编码器f_e在仅依赖智能体ID(如i)的条件下生成潜在变量zⁱ.观测 $o_{t}^{i}$ 、动作 $a_{t}^{i}$ 绕过编码器, 由解码器f_p接收.由于这种结构设置的局限性, 潜在变量只能编码与智能体身份有关的信息.具体地, 潜在变量的生成过程如下:

$z^{i} \sim q_{\theta}(z \mid i)=N\left(\boldsymbol{\mu}_{\theta}, \boldsymbol{\Sigma}_{\theta} ; i\right)$

其中μ _θ和Σ _θ分别表示潜在变量的均值和方差.在训练过程中, 编码器逐步学习如何根据智能体ID生成一个能有效捕捉智能体角色特性的潜在变量.

另一方面, 解码器被分为观测解码器 $f_{p}^{o}$ 和奖励解码器 $f_{p}^{r}$ , 它们接收智能体i在t时刻的观测 $o_{t}^{i}$ 、动作 $a_{t}^{i}$ 和采样编码zⁱ, 并尝试预测下一时刻的观测 $o_{t + 1}^{i}$ 和奖励 $r_{t}^{i}$ :

$o_{t + 1}^{i}$ , $r_{t}^{i}$ =f_p(zⁱ, $o_{t}^{i}$ , $a_{t}^{i}$ ; v).

通过优化解码器预测值与实际值之间的误差, 逐渐引导编码器生成更合理的潜在变量.

为了实现上述优化过程, 本文引入基于证据下界(Evidence Lower Bound, ELBO)的目标函数, 同时优化编码器和解码器性能.目标函数如下:

ln p(tr)≥ $E_{z ~ q_{θ} (z | i)}$ [ln p_v(tr|z)]-D_KL(q_θ(z|i)‖ p(z)).

其中: $E_{z ~ q_{θ} (z | i)}$ [ln p_v(tr|z)]表示重构项, tr表示状态转移序列, 通过最大化解码器的预测值与实际值之间的对数似然, 确保解码器能准确生成下一时刻的观测和奖励; D_KL(q_θ(z|i)‖ p(z))表示正则化项, 用于约束潜在变量z的分布接近先验p(z), 从而限制编码器生成的潜在变量的复杂度, 同时增强模型的泛化能力.

重构项本质上描述解码器如何根据潜在变量z生成智能体的观测和奖励.然而, 直接优化整个重构项可能会导致模型难以分离观测和奖励的生成任务.因此, 通过展开重构项ln p_v(tr|z), 可显式分解解码器的任务:

ln p_v(tr|z)=ln p_v(r_t, o_t₊₁|a_t, o_t, z)p(a_t, o_t|z).

在解码器中, a_t和o_t不依赖潜在变量z, 因此进一步化简为

ln p_v(tr|z)=ln p_v(r_t|o_t₊₁, a_t, o_t, z)+ln pv₍ot₊₁_|at_,ot_,z)+c,

其中, c表示常数项, 与潜在变量z无关.通过上述优化过程, 编码器学习生成能有效表示智能体角色特性的潜在变量z, 而解码器则利用这些潜在变量预测智能体在下一时刻的观测o_t₊₁和奖励r_t.这样的建模方式使编码器和解码器在训练中协同进化, 逐渐提升模型对智能体角色的理解和预测能力.

值得强调的是, 需在强化学习之前完成智能体角色分组的训练.在完成VAE的预训练后, 下一步是对所有智能体的潜在变量进行聚类.具体地, 预训练生成的潜在变量为每个智能体提供一种针对其角色特性的高效编码.通过K-means聚类, 将智能体分为多个角色组.每个角色组内的智能体具有类似的行为特征和任务目标, 因此可共享参数结构和学习策略.为了确保聚类结果的质量, 引入Davies-Bouldin指数, 评估不同聚类数K的效果.该指数衡量聚类的分离度和紧密度, 能帮助选择最优的聚类个数, 从而优化智能体的角色分组和训练效果.

2.2 基于角色的掩码映射

在为智能体进行角色分组之后, 需要为每个角色组生成独特的二进制掩码, 以此促进不同角色之间的策略差异化, 并最终提升MARL的性能.为此, 本文应用STR, 为每个角色组设置不同的阈值, 实现网络参数的稀疏化.

对于角色组j, j的网络权重参数θ _j由全局共享的可学习参数集θ ₀通过掩码M_j进行稀疏化处理, 即

θ _j=θ ₀☉M_j,

其中θ ₀表示随机初始化的所有角色智能体共享的可学习网络权重参数集.需要注意的是, M_j表示与角色组j相关的二进制掩码, 是通过可学习的阈值s_j动态调整的.假设

$\begin{array}{l} \boldsymbol{\theta}_{0}=\left[\theta_{0}^{1}, \theta_{0}^{2}, \cdots, \theta_{0}^{C}\right], \boldsymbol{\theta}_{j}=\left[\theta_{j}^{1}, \theta_{j}^{2}, \cdots, \theta_{j}^{C}\right], \\ \boldsymbol{M}_{j}=\left[m_{j}^{1}, m_{j}^{2}, \cdots, m_{j}^{C}\right], \end{array}$

C表示网络的总参数量.根据STR, M_j中每个元素的掩码值为:

$m_{j}^{k}$ =1[| $θ_{0}^{k}$ |> σ ( $s_{j}^{k}$ )].

其中:1[· ]表示一个指示函数, 当条件| $θ_{0}^{k}$ |> σ ( $s_{j}^{k}$ )时, 指示函数值为1, 否则函数值为0; σ (· )表示sigmoid函数, 将输入值 $s_{j}^{k}$ 映射到0~1之间; $s_{j}^{k}$ 表示一个可学习的剪枝阈值参数, 用于控制第k个共享参数 $θ_{0}^{k}$ 的稀疏化程度.

可通过优化学习得到阈值 $s_{j}^{k}$ , 它决定哪些参数被保留, 哪些被剪枝.与大多数网络剪枝方法不同, STR通过将剪枝与任务特定损失最小化目标L结合, 动态调整剪枝阈值 $s_{j}^{k}$ , 使剪枝过程与MARL性能提升目标一致.传统的剪枝方法通常通过固定的稀疏率或手动确定的剪枝过程进行稀疏化, 与任务优化目标分离, 从而限制性能提升.STR通过可学习的剪枝阈值自适应调整每个参数的稀疏化程度, 使剪枝决策能根据具体任务需求动态调整.

如图2所示, 使用STR, 在共享网络的基础上为不同的角色组生成K个稀疏化的网络结构, 实现角色间的策略差异化.

2.3 训练步骤

RAPS的训练步骤主要包括预训练阶段和训练阶段.

在预训练阶段, RAPS首先使用VAE对智能体的潜在变量z进行学习.VAE通过编码器将智能体的ID信息映射到潜在空间, 生成每个智能体的潜在变量z, 然后通过解码器重建观测和奖励信息.该过程使模型能捕捉智能体的行为特征.基于智能体的潜在变量z, RAPS进一步使用K-means聚类将智能体划分为K个角色组.每个角色组内的智能体具有相似的行为特征和任务目标, 为后续的稀疏化处理提供合理依据.

在训练阶段, RAPS的核心目标是将角色分组与网络参数稀疏化结合, 提高多智能体系统的任务学习效率和可扩展性.在训练过程中, RAPS首先根据每个角色组的剪枝阈值s_j计算二进制掩码M_j.该掩码用于对全局共享的网络参数θ ₀进行稀疏化, 从而生成每个角色组的稀疏化网络参数

θ _j=θ ₀☉M_j.

通过这一稀疏化机制, 角色组的网络参数根据其特定的行为特征和任务目标进行调整.接下来, 基于每个角色组的稀疏化参数θ _j, RAPS计算任务损失.任务损失反映智能体在与其它智能体交互时的表现, 并促使方法向最优策略收敛.计算损失之后, RAPS通过梯度下降方法更新全局共享的网络参数θ ₀和每个角色组的剪枝阈值s_j.

RAPS具体步骤如算法1所示.

算法1 RAPS

初始化智能体数量N, 权重参数θ ₀, 编码器f_e,

解码器f_p, 潜在变量z, 剪枝阈值s,

掩码参数M

预训练阶段:

使用VAE学习智能体的潜在变量z

使用K-means聚类将所有智能体划分为K个角色组

训练阶段:

for t=1 to T do

for j=1 to K do

使用剪枝阈值s_j计算掩码M_j

计算角色组j的稀疏参数θ _j=θ ₀☉M_j

end for

计算任务损失

更新参数θ 和剪枝阈值{s_j|j=1, 2, …, K}

end for

3 实验及结果分析

为了验证RAPS的有效性, 本文在 MPE^[24]中的自定义任务场景以及星际争霸II环境^[17]中的MMM2任务上, 基于QMIX^[23]进行实验.具体而言, 结合RAPS与QMIX, 并在局部Q网络中应用参数共享机制, 评估方法在不同任务环境中的表现.

3.1 实验环境

MPE是一个多智能体粒子世界, 具有连续的观察空间和离散的动作空间, 允许自定义和编辑任务.星际争霸II是一个即时战略游戏, 包含一位或多位玩家之间的对抗, 或与内置的游戏AI对战.游戏要求玩家控制一组智能体与敌人作战以取得胜利.每个智能体在每个时间步从离散的动作空间中选择一个动作, 这些动作包括:无动作、移动(特定方向)、攻击、停止.在这些动作的控制下, 智能体可在连续的地图中进行移动和攻击.

1)盲粒子扩散(Blind-Particle Spread, BPS).如图3(a)所示, BPS基于多智能体粒子环境创建, 环境中包含多种颜色的地标和智能体.智能体无法看到自己或其它智能体的颜色, 但它们需要向正确颜色的地标移动.环境的奖励设置相对密集, 即智能体在接近或成功到达目标地标时, 会获得及时的奖励反馈, 从而鼓励策略的逐步优化.任务有两个可调参数:智能体数量和颜色数量.

	Figure Option View Download New Window
	图3 实验环境Fig.3 Experimental environment

2)彩色多机器人仓库(Coloured Multi-robot Ware-house, C-RWARE).如图3(b)所示, 该任务场景是RWARE环境的变体^[33].环境中存在多个不同颜色的智能体, 这些智能体可以旋转、向前移动、拿起或放下货架.智能体的观察空间是部分可观测的, 每个智能体只能观察以自身为中心的3× 3网格内的实体.智能体通过将与之对应颜色的货架送到目标地G点以获得奖励.每次成功交付都会获得+1奖励, 同时系统会随机生成新的货架请求.这种奖励机制设计使任务具有稀疏奖励信号的特点, 从而增加学习的挑战性.

3)MMM2(Medivac Marauders Marines).如图3(c)所示, MMM2是星际争霸II中最具有挑战性的任务之一.该任务场景包含3类单位:陆战队员、掠夺者、医疗兵, 它们具有不同属性, 可用于验证角色聚类的有效性.陆战队主要负责攻击敌方单位并提供火力支持; 掠夺者具有较高的生命值和伤害输出, 负责近距离作战并攻击敌方重型单位; 医疗兵负责支援, 治疗受伤的队友, 确保战斗持续进行.

本文选择如下5种方法进行对比.1)FuPS(Fully Parameter Sharing)^[23].基于QMIX, 要求所有智能体共享相同的网络参数, 从而简化训练过程, 提高计算效率.2)NoPS(No Parameter Sharing)^[23].基于QM-IX, 允许每个智能体拥有独立的网络参数.3)Se-PS^[18]、SNP-PS^[19]、Kaleidoscope^[21].都是部分参数共享方法, 允许在某些层次上共享参数, 在其它层次上保持独立, 以平衡训练效率和个性化决策的需求.其中:SePS将智能体分组, 组内参数共享, 组间参数完全独立; SNP-PS使用结构化剪枝方法, 并使用随机剪枝率控制智能体共享参数的比率; Kaleidoscope基于不同的可学习掩码控制智能体共享参数的模式.

在实验中, 使用Adam(Adaptive Moment Estima-tion)优化器, 设置学习率为3× 10^-4, 优化器中Є=1× 10^-5, 熵系数为1× 10^-2.在编码器-解码器网络的训练过程中, KL损失的缩放系数为1× 10^-4, 批量大小为128.

在一台配置包含18核CPU、160 GB内存和1张GPU的计算机上进行实验.为了确保公平性, 每次实验在5个不同的种子上重复进行, 每次运行持续1~2天, 最终结果取平均值.

本文选取平均奖励(Mean Reward)作为评价指标, 旨在全面对比各方法训练智能体的行为表现及任务执行效率.这一指标反映智能体群体作为一个整体的平均性能, 平均奖励值越高通常表明智能体团队越能有效完成任务并获得越多奖励.

3.2 对比实验

在多智能体任务中, 可扩展性是衡量算法性能的重要指标之一.面对智能体数量增加或任务复杂度提升, 算法能否保持高效的训练能力和良好的任务表现, 是评估其可扩展性的关键.为了验证RAPS的可扩展性, 本文设计不同规模、复杂度和特征差异化的任务场景, 包括BPS任务、C-RWARE任务、MMM2任务、包含120个智能体的大规模任务, 同时也进行运行时间的对比.

3.2.1 小规模多智能体任务

BPS任务环境包括3种不同颜色的智能体和地标, 每种颜色的智能体数量为5个, 因此环境中有15个智能体.智能体的目标是朝着与自身颜色对应的地标移动, 最终完成任务.在该场景中, 所有方法均在相同的环境设置下进行训练, 并且每种方法都进行5× 10⁴回合的训练.

各方法在BPS任务场景中训练时获得平均奖励曲线如图4所示.

	Figure Option View Download New Window
	图4 各方法在BPS任务上的平均奖励曲线对比Fig.4 Comparison of mean reward curves for different methods on BPS task

由图4可看出, RAPS在训练初期收敛速度较快, 并在训练中期达到较高的平均奖励值.RAPS通过角色分组和稀疏化网络设计, 有效增强智能体之间的策略多样性, 提升任务执行效率.SePS通过组内参数共享, 增强组内智能体的协作性, 因此在BPS任务上表现较稳定.Kaleidoscope性能仅次于RAPS, 因为其为每个智能体独立学习掩码, 增强策略多样性和学习效果.由于智能体完全独立学习, NoPS在奖励信号密集的任务上能较快获得环境反馈, 因此训练收敛速度较快.相比之下, FuPS强制所有智能体共享相同策略参数, 导致智能体无法根据自身的角色需求学习特定的行为策略, 策略趋于一致.这种缺乏多样性的策略限制智能体的任务表现, 使其始终无法达到较高的平均奖励.

C-RWARE任务环境包括8个智能体, 每4个智能体共享一个颜色, 对应一个任务.在该场景中, 所有对比方法均在相同的环境设置下进行训练, 每种方法都进行5× 10⁴回合的训练.

各方法在C-RWARE任务场景中训练时获得的平均奖励曲线如图5所示.由图可看出, 任务奖励信号的稀疏性使完全独立学习的NoPS难以从环境中及时获得有效反馈, 从而导致学习速度较慢, 表现不如BPS任务中突出.RAPS在稀疏奖励场景中表现出较强的适应能力, 通过角色分组机制共享相似角色的经验, 加速有效反馈的获取, 提高学习效率.同时, 稀疏化网络结构减少无效策略的搜索范围, 使智能体学习更高效.尽管SePS通过组内参数共享增强协作性, 但组间参数独立的设计在稀疏奖励场景中限制智能体间的信息共享, 导致收敛速度较慢, 最终奖励值低于RAPS.SNP-PS的剪枝率设置对任务表现影响较大, 在稀疏奖励场景中未能稳定地优化策略, 平均奖励曲线在训练后期表现出较大波动.

	Figure Option View Download New Window
	图5 各方法在C-RWARE任务上的平均奖励曲线对比Fig.5 Comparison of mean reward curves for different methods on C-RWARE task

MMM2任务环境包括7个陆战队员、2个掠夺者和1个医疗兵, 共计10个智能体, 并且每种类型的智能体在战斗中扮演不同的角色.在该场景中, 所有方法均在相同的环境设置下训练6× 10⁶步.

各方法在MMM2任务场景中训练时获得的平均奖励曲线如图6所示.由图可看出, RAPS在MMM2任务上表现出优秀的角色分组能力, 通过对不同类型智能体的特征提取和策略分化, 使每种类型的智能体都能有效学习符合其任务需求的策略.FuPS无法根据角色差异进行策略调整, 所有智能体共享相同策略网络, 导致任务执行效果不佳.MMM2任务的复杂性使得NoPS这种完全独立学习方式的智能体面临协作性不足的问题, 性能明显差于其它方法.Kaleidoscope个体化子网络设计避免完全参数共享导致的过度一致性问题, 使不同单位能更灵活地执行协作任务.

	Figure Option View Download New Window
	图6 各方法在MMM2任务上的平均奖励曲线对比Fig.6 Comparison of mean reward curves for different methods on MMM2 task

3.2.2 大规模多智能体任务

由于MMM2任务复杂度较高, 未在该任务上进行大规模训练, 本文仅将各方法在包含大量智能体的MPE任务上进行训练, 评估RAPS在大规模任务中的有效性.

在包含120个智能体的BPS任务和C-RWARE任务中进行实验, 环境中包含4种不同颜色的智能体.由于NoPS未采用参数共享方法, 需要为每个智能体分配独立的参数, 计算量极大, 因此在包含大量智能体的任务中无法实施.所有对比方法均在相同的环境设置下进行训练, 每种方法都进行5× 10⁴回合的训练.

各方法在大规模任务环境中的平均奖励曲线如图7所示.由图可看出, SePS在训练过程中收敛速度较慢, 性能较低.这主要是由于SePS在任务上采用较简单的参数共享机制, 尽管它将智能体分组并进行组内参数共享, 但由于组间智能体参数独立, 导致其在大规模任务上计算负担较重, 收敛速度较慢, 尤其是在复杂任务上难以有效提高性能.FuPS通过完全共享参数的方式, 使所有智能体使用相同策略, 虽然计算较高效, 但忽略智能体行为的差异性, 影响方法性能.RAPS在性能和收敛速度方面明显优于其它对比方法, 并且采用的非结构化剪枝技术可降低其对计算资源的需求, 确保在大规模任务上的可扩展性.SNP-PS和Kaleidoscope在大规模任务上的表现存在相似问题.SNP-PS需要为每个智能体设置独立的剪枝策略, 但随着智能体数量的增加, 这些剪枝策略之间的重复性也随之增加, 导致方法难以有效捕捉智能体之间的行为差异, 从而限制训练效果.同样, Kaleidoscope为每个智能体分配掩码, 但由于掩码之间的差异性过小, 也未能充分体现智能体间的策略差异性.这种缺乏差异性的设计使这两种方法在大规模任务上都难以获得良好性能.

	Figure Option View Download New Window
	图7 各方法在大规模任务上的平均奖励曲线对比Fig.7 Comparison of mean reward curves of different methods on large-scale tasks

3.2.3 运行时间

为了更清晰地展示RAPS在多智能体强化学习中的计算优势, 在3种任务环境中, 对比各方法在训练过程中每个时间步所需的中位运行时间, 具体如图8所示.

	Figure Option View Download New Window
	图8 各方法在3个任务上的中位运行时间对比Fig.8 Comparison of median running time for different methods on 3 tasks

由图8可看出, 相比FuPS, NoPS需要为每个智能体训练独立的模型, 导致每个智能体的训练成本显著增加.SePS需要为每种类型的智能体训练单独的模型, 随着智能体类别的增加, 运行时间也超过FuPS.SNP-PS和Kaleidoscope需要为每个智能体计算独立的剪枝策略或掩码, 虽然在一定程度上提高策略的灵活性, 但随着智能体数量的增加, 计算复杂度迅速提升, 难以在大规模任务场景中保持高效性能.尽管RAPS在角色组的掩码学习中增加一定的计算复杂度, 但时间规模与FuPS相似, 并且在扩展性和学习性能上显著优于其它方法.因此, RAPS在大规模多智能体任务场景中具有更好的适用性, 能显著减少训练过程所需时间.

3.3 角色分组的合理性

为了验证角色划分方法的合理性, 首先选择MMM2任务作为测试场景.MMM2任务场景包含3种不同类型的智能体:陆战队员、掠夺者、医疗兵, 每种类型的智能体在任务中承担不同的角色和职责.MMM2场景的清晰角色属性为本文提供一个理想的基准, 可验证聚类算法在实际应用中的有效性.为了直观评估角色划分的效果, 首先通过VAE学习智能体的潜在特征表示, 并结合K-means聚类对潜在空间的特征分布进行聚类.

角色分组的可视化结果如图9所示, 图中不同颜色的点分别表示3类智能体对应的聚类结果.通过这种方式, 可清晰看到聚类算法能否准确反映MMM2任务上智能体的真实角色, 从而验证角色划分方法的合理性.

	Figure Option View Download New Window
	图9 在MMM2任务上智能体潜在向量的均值可视化结果Fig.9 Visualization results of mean latent vectors of agents on MMM2 task

由图9可看到, 不同角色的智能体在空间中分布清晰, 各类智能体形成显著的聚类效果, 这种分布特性验证VAE对智能体行为特征的良好捕捉能力, 并通过潜在特征区分具有不同任务目标的角色.

在预训练过程中, 当嵌入空间已知时, RAPS使用Davies-Bouldin指数评估不同聚类数的质量, 确定最优的聚类数量K.为了进一步验证RAPS角色分组的合理性, 分别在无明确角色划分的BPS任务和C-RWARE任务上进行额外实验.

在BPS任务上, 通过Davies-Bouldin指数确定最优聚类数K=3.为了评估不同聚类数(即不同的K值)对智能体学习效果的影响, 设置K=1, 2, …, 5, 进行对比实验, 具体平均回报曲线如图10所示.由图可看出, 当K=3时, 角色分组效果最佳, 任务执行表现最优, 而当聚类数过少(K=1, 2)时, 角色分组过于宽泛, 导致任务执行效率降低, 并且当K=1时, 降低至完全参数共享方法, 忽略智能体间的异质性.当K=4, 5时, 虽然聚类的分离度提高, 但角色之间的重叠性增加, 反而没有显著提升任务表现.因此, 基于Davies-Bouldin指数的评估结果, K=3被证实是最优选择, 能够平衡任务分组的准确性和执行效率.

	Figure Option View Download New Window
	图10 在BPS任务上K不同时平均回报曲线对比Fig.10 Comparison of mean reward curves with different K on BPS task

在C-RWARE任务上, 通过Davies-Bouldin指数确定最优的聚类数K=2.为了评估不同聚类数(即不同的K值)对智能体学习效果的影响, 设置K=1, 2, 3, 4, 进行对比实验, 具体平均回报曲线如图11所示.由图可看出, 当K=2时, 智能体的学习效率最佳.当K=1时, 学习效率最低.当K> 2时, 虽然理论上可能期望分组更细致, 但实际结果表明, 角色之间的过多重叠使智能体在任务执行中的协调和信息共享变得更困难, 反而影响学习效果.因此, 基于Da-vies-Bouldin指数的评估结果, K=2被证实是最优选择, 能平衡任务分组的准确性和执行效率.

	Figure Option View Download New Window
	图11 在C-RWARE任务上K不同时平均回报曲线对比Fig.11 Comparison of mean reward curves with different K on C-RWARE task

综合上述实验结果可得出, RAPS能根据任务的不同特点, 找到最合适的角色分组方案, 提升多智能体系统在复杂任务中的表现.

4 结束语

本文提出基于角色的自适应参数共享方法(RAPS), 旨在提高大规模异构多智能体任务的训练效率和可扩展性.通过将智能体根据角色进行分组, 并使用非结构化剪枝技术生成稀疏化的网络结构, RAPS能在共享参数的同时保持智能体行为的多样性.实验表明, RAPS在多个任务环境中提高系统性能和收敛速度, 尤其在大规模任务上表现出较好的计算效率和可扩展性.然而, 本文提出的智能体角色学习是在强化学习前完成的, 依赖预先收集的数据执行角色分组和参数共享策略.虽然该模型在静态环境中表现良好, 但在动态环境下, 智能体角色和任务可能会改变, 导致初始策略无法适用.今后可考虑在动态环境中动态调整角色分组与参数共享策略, 实现性能提升.

本文责任编委兰旭光

Recommended by Associate Editor LAN Xuguang

参考文献

文献选项

[1]	陈卓然, 刘泽阳, 万里鹏, 等. 多智能体强化学习理论及其应用综述. 模式识别与人工智能, 2024, 37(10): 851-872. (CHEN Z R, LIU Z Y, WAN L P, et al. A Review of Multi-agent Reinforcement Learning Theory and Applications. Pattern Recognition and Artificial Intelligence, 2024, 37(10): 851-872. ) [本文引用:1]
[2]	YANG W L, WEI Y C, WEI H Y, et al. Survey on Explainable AI: From Approaches, Limitations and Applications Aspects. Human-Centric Intelligent Systems, 2023, 3(3): 161-188. [本文引用:1]
[3]	CANESE L, CARDARILLI G C, DI NUNZIO L, et al. Multi-agent Reinforcement Learning: A Review of Challenges and Applications. Applied Sciences, 2021, 11(11). DOI: DOI:10.3390/app11114948. [本文引用:1]
[4]	WONG A, BÄCK T, KONONOVA A V, et al. Deep Multiagent Rein-forcement Learning: Challenges and Directions. Artificial Intelligence Review, 2023, 56(6): 5023-5056. [本文引用:1]
[5]	BOUKTIF S, CHENIKI A, OUNI A, et al. Deep Reinforcement Lear-ning for Traffic Signal Control with Consistent State and Reward Design Approach. Knowledge-Based Systems, 2023, 267. DOI: DOI:10.1016/j.knosys.2023.110440. [本文引用:1]
[6]	SHI Y B, HU B, HUANG R. Task Allocation and Path Planning of Many Robots with Motion Uncertainty in a Warehouse Environment // Proc of the IEEE International Conference on Real-Time Computing and Robotics. Washington, USA: IEEE, 2021: 776-781. [本文引用:1]
[7]	郭子恒, 蔡晨晓. 基于改进深度强化学习的无人机自主导航方法. 信息与控制, 2023, 52(6): 736-746, 772. (GUO Z H, CAI C X. Autonomous Navigation Algorithm of UAV Based on Improved Deep-Reinforcement-Learning. Information and Control, 2023, 52(6): 736-746, 772. ) [本文引用:1]
[8]	ZENG Y H, TAN X C, SHA M Q, et al. The Study of DDPG Based Spatiotemporal Dynamic Deployment Optimization of Air-Ground AD HOC Network for Disaster Emergency Response. International Journal of Applied Earth Observation and Geoinformation, 2024, 128. DOI: DOI:10.1016/j.jag.2024.103708. [本文引用:1]
[9]	JAYANETTI A, HALGAMUGE S, BUYYA R. Multi-agent Deep Reinforcement Learning Framework for Renewable Energy-Aware Workflow Scheduling on Distributed Cloud Data Centers. IEEE Transactions on Parallel and Distributed Systems, 2024, 35(4): 604-615. [本文引用:1]
[10]	徐佳, 胡春鹤. 分布式多经验池的无人机自主避碰方法. 信息与控制, 2023, 52(4): 432-443. (XU J, HU C H. Autonomous Collision Avoidance Method of UAV Based on Distributed Multi-experience Pool. Information and Control, 2023, 52(4): 432-443. ) [本文引用:1]
[11]	方宝富, 余婷婷, 王浩, 等. 稀疏奖励场景下基于状态空间探索的多智能体强化学习算法. 模式识别与人工智能, 2024, 37(5): 435-446. (FANG B F, YU T T, WANG H, et al. Multi-agent Reinforcement Learning Algorithm Based on State Space Exploration in Sparse Reward Scenarios. Pattern Recognition and Artificial Intelligence, 2024, 37(5): 435-446. ) [本文引用:1]
[12]	YU C, VELU A, VINITSKY E, et al. The Surprising Effectiveness of PPO in Cooperative Multi-agent Games // Proc of the 36th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2022: 24611-24624. [本文引用:1]
[13]	KUBA J G, CHEN R Q, WEN M N, et al. Trust Region Policy Optimisation in Multi-agent Reinforcement Learning[C/OL]. [2024-12-16]. https://arxiv.org/pdf/2109.11251. [本文引用:1]
[14]	方宝富, 余婷婷, 王浩, 等. 稀疏奖励场景下基于适应性状态近似的多智能体强化学习. 机器人, 2024, 46(6): 663-671, 682. (FANG B F, YU T T, WANG H, et al. Multi-agent Reinforcement Learning Based on Adaptive State Approximation in Sparse Reward Scenarios. Robot, 2024, 46(6): 663-671, 682. ) [本文引用:1]
[15]	GUPTA J K, EGOROV M, KOCHENDERFER M. Cooperative Multi-agent Control Using Deep Reinforcement Learning // Proc of the International Conference on Autonomous Agents and Multiagent Systems. Berlin, Germany: Springer, 2017: 66-83. [本文引用:1]
[16]	CHU X X, YE H J. Parameter Sharing Deep Deterministic Policy Gradient for Cooperative Multi-agent Reinforcement Learning[C/OL]. [2024-12-16]. https://arxiv.org/pdf/1710.00336. [本文引用:1]
[17]	SAMVELYAN M, RASHID T, DE WITT C S, et al. The StarCraft Multi-agent Challenge[C/OL]. [2024-12-16]. https://arxiv.org/pdf/1902.04043. [本文引用:3]
[18]	CHRISTIANOS F, PAPOUDAKIS G, RAHMAN M A, et al. Sca-ling Multi-agent Reinforcement Learning with Selective Parameter Sharing. Proceedings of Machine Learning Research, 2021, 139: 1989-1998. [本文引用:2]
[19]	KIM W, SUNG Y. Parameter Sharing with Network Pruning for Sca-lable Multi-agent Deep Reinforcement Learning // Proc of the International Conference on Autonomous Agents and Multiagent Systems. New York, USA: ACM, 2023: 1942-1950. [本文引用:2]
[20]	SU J T, CHEN Y H, CAI T L, et al. Sanity-Checking Pruning Methods: Rand om Tickets Can Win the Jackpot // Proc of the 34th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2020: 20390-20401. [本文引用:1]
[21]	LI X R, PAN L, ZHANG J. Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning[C/OL]. [2024-12-16]. https://arxiv.org/pdf/2410.08540. [本文引用:2]
[22]	HE J M, LI K, ZANG Y F, et al. Not All Tasks Are Equally Difficult: Multi-task Deep Reinforcement Learning with Dynamic Depth Routing. Proceedings of the AAAI Conference on Artificial Intelligence, 2024, 38(11): 12376-12384. [本文引用:1]
[23]	RASHID T, SAMVELYAN M, DE WITT C S, et al. Monotonic Value Function Factorisation for Deep Multi-agent Reinforcement Learning. Journal of Machine Learning Research, 2020, 21(1): 7234-7284. [本文引用:4]
[24]	MORDATCH I, ABBEEL P. Emergence of Grounded Compositional Language in Multi-agent Populations. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 1495-1502. [本文引用:2]
[25]	SHAPLEY L S. Stochastic Games. Proceedings of the National Aca-demy of Sciences, 1953, 39(10): 1095-1100. [本文引用:1]
[26]	LITTMAN M L. Markov Games as a Framework for Multi-agent Reinforcement Learning // Proc of the 11th International Conference on Machine Learning. New York, USA: ACM, 1994: 157-163. [本文引用:1]
[27]	GRAESSER L, EVCI U, ELSEN E, et al. The State of Sparse Trai-ning in Deep Reinforcement Learning. Proceedings of Machine Learning Research, 2022, 162: 7766-7792. [本文引用:1]
[28]	SOKAR G, MOCANU E, MOCANU D C, et al. Dynamic Sparse Training for Deep Reinforcement Learning(Poster)[C/OL]. [2024-12-16]. https://arxiv.org/pdf/2106.04217v2. [本文引用:1]
[29]	KUSUPATI A, RAMANUJAN V, SOMANI R, et al. Soft Thre-shold Weight Reparameterization for Learnable Sparsity. Procee-dings of Machine Learning Research, 2020, 119: 5544-5555. [本文引用:1]
[30]	WANG T H, DONG H, LESSER V, et al. ROMA: Multi-agent Reinforcement Learning with Emergent Roles. Proceedings of Machine Learning Research, 2020, 119: 9876-9886. [本文引用:1]
[31]	WANG T H, GUPTA T, MAHAGAN A, et al. RODE: Learning Roles to Decompose Multi-agent Tasks[C/OL]. [2024-12-16]. https://arxiv.org/pdf/2010.01523. [本文引用:1]
[32]	LI C H, WANG T H, WU C J, et al. Celebrating Diversity in Shared Multi-agent Reinforcement Learning // Proc of the 35th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2021: 3991-4002. [本文引用:1]
[33]	LI D P, LOU N, ZHANG B, et al. Adaptive Parameter Sharing for Multi-agent Reinforcement Learning // Proc of the IEEE International Conference on Acoustics, Speech and Signal Processing. Washington, USA: IEEE, 2024: 6035-6039. [本文引用:1]

2024

0.0

... 近年来,随着群体智能^[1]与人工智能技术^[2]的快速发展,多智能体系统(Multi-agent System, MAS)^[3]在各类复杂任务上的应用不断拓展,并取得显著成效^[4] ...

2023

0.0

... 近年来,随着群体智能^[1]与人工智能技术^[2]的快速发展,多智能体系统(Multi-agent System, MAS)^[3]在各类复杂任务上的应用不断拓展,并取得显著成效^[4] ...

2021

0.0

... 近年来,随着群体智能^[1]与人工智能技术^[2]的快速发展,多智能体系统(Multi-agent System, MAS)^[3]在各类复杂任务上的应用不断拓展,并取得显著成效^[4] ...

2023

0.0

... 近年来,随着群体智能^[1]与人工智能技术^[2]的快速发展,多智能体系统(Multi-agent System, MAS)^[3]在各类复杂任务上的应用不断拓展,并取得显著成效^[4] ...

2023

0.0