
贺文武,博士,教授,主要研究方向为可信赖人工智能、图神经网络.E-mail: hwwhbb@163.com.
作者简介:
刘小雨,硕士研究生,主要研究方向为人工智能、图神经网络.E-mail:lxiaoyu0321@163.com.
毛国君,博士,教授,主要研究方向为人工智能、数据挖掘、分布式计算.E-mail: 19662092@fjut.edu.cn.
第二十七届中国科协年会学术论文
图神经教师网络指导下的多层感知器在一定程度上平衡图数据相关任务中的推理性能与推理效率,但多层感知分类器独立看待图节点,难以显式捕获目标节点的邻域信息,推理性能受限.为此,文中提出基于解耦标签传播和多节点混合正则的图神经网分类器(Graph Neural Network Classifier Based on Decoupled Label Propagation and Multi-node Mixup Regularization, DLPMMR),基于知识蒸馏框架训练多层感知分类器,保证高推理效率下的基础推理性能.在训练阶段,基于朴素无超参数的二次组合策略实现多节点混合,增强节点多样性,并据此构建混合正则项,显式调控多层感知分类器的复杂性,提升其泛化性与鲁棒性.在推理阶段,引入标签传播,为多层感知分类器的推理纳入其所缺失的目标节点邻域信息,并解耦目标节点与邻域节点,有效控制邻居节点信息对目标节点分类决策的影响程度,进一步提升多层感知分类器的推理精度.在5个图节点分类基准数据集上的实验表明,DLPMMR自然鲁棒、性能较优.
HE Wenwu, Ph.D., professor. His research interests include trust-worthy artificial intelligence and graph neural networks.
About Author:
LIU Xiaoyu, Master student. Her research interests include artificial intelligence and graph neural networks.
MAO Guojun, Ph.D., professor. His research interests include artificial intelligence, data mining and distributed computing.
Academic Papers of the 27th Annual Meeting of the China Association for Science and Technology
Graph neural network-distilled multilayer perceptrons(MLPs) balance inference performance and efficiency in graph-related tasks to some extent. However, MLPs treat graph nodes independently and struggle to explicitly capture neighborhood information of target nodes. Thus, their inference performance is limited. To solve this problem,a graph neural network classifier based on decoupled label propagation and multi-node mixup regularization(DLPMMR) is proposed. DLPMMR trains the MLP classifier under a knowledge distillation framework to ensure basic inference performance with high inference efficiency. During the training phase, a naive and hyperparameter-free double combination strategy is employed for multi-node mixup to enhance node diversity. A mixup regularization term is then constructed to explicitly control the complexity of the MLP so as to improve its generalization ability and robustness. During the inference phase, label propagation is introduced to incorporate missing neighborhood information into the predictions of the MLP. By decoupling target nodes from their neighboring nodes, the influence of neighbor node information on the classification decision of the target node is effectively regulated, and thus the inference accuracy of MLP is further enhanced. Experiments on five benchmark graph node classification datasets demonstrate that DLPMMR exhibits strong robustness and superior performance.
图结构数据广泛存在于生产与社会活动中, 能在节点、边或图等不同层级上有效表示相关对象及其间的复杂关系.近年来, 图神经网络(Graph Neural Networks, GNNs)发展迅速, 因其表征能力强而性能卓越, 已成为处理图结构数据的有效工具之一, 应用于推荐系统[1]、用户分析[2]、文本分类[3]等诸多任务上.然而, GNNs的内部信息处理与相关计算高度依赖于消息传递策略, 包括邻居节点聚合与节点表示学习等, 资源消耗较大, 导致在需要快速推理的实际应用中难以有效部署.相比而言, 经典多层感知器(Multi-Layer Perceptron, MLP)独立看待输入特征, 能实现快速推理.但MLP处理图结构数据的过程中忽略图的拓扑结构信息, 直接使用MLP时推理性能有限.
为此, 研究者尝试基于知识蒸馏(Knowledge Dis-tillation, KD)[4]迁移GNNs中部分知识到MLP, 以轻量化策略平衡图结构数据相关任务的推理性能与推理效率[5, 6, 7].具体地, 以相关任务上预训练的GNNs为教师模型, 以未训练的MLP为学生模型, MLP以节点特征为输入、以教师GNNs针对该节点生成的软标签以及该节点对应的真实标签为目标进行训练, 完成训练的MLP最终用于推理, 实现推理效率的提升.知识蒸馏一定程度上能隐式捕获邻域节点信息, 但MLP独立看待图节点信息的固有特性并未改变, 难以完整捕获图中拓扑结构信息, 推理性能受限.因此, 如何为面向图数据的MLP引入邻域信息具有重要的研究意义.
与基于知识蒸馏增强学生模型推理能力的策略不同, 数据增强是在不显式改变推理模型的前提下提升其泛化性能的另一有效途径.计算机视觉领域的mixup[8]对随机样本对的特征和标签进行线性插值, 提高深度视觉模型的泛化能力, 其基本思想在图神经网络领域也得到拓展性应用.Verma等[9]提出GraphMix, 在MLP隐藏层中引入节点混合, 实现MLP推理性能的提升.Lu等[10]提出NodeMixup, 通过类内节点混合与类间节点混合, 实现GNNs泛化性能的提升.此类方法通过数据增强为相关模型引入隐式正则, 节点混合中通常涉及多个超参数, 调适难度较大.因此, 实现朴素、易行的图节点增强, 为推理模型引入可控的显式正则以提升其泛化性能十分必要.
综上所述, 为了深度平衡图数据任务中模型的推理效率与推理性能, 本文聚焦图节点分类任务, 提出基于解耦标签传播和多节点混合正则的图神经网络分类器(Graph Neural Network Classifier Based on Decoupled Label Propagation and Multi-node Mixup Regularization, DLPMMR).DLPMMR基于知识蒸馏框架训练MLP推理模型, 保证其推理效率下的基础推理性能.在训练阶段, 基于无超参数的二次组合策略实现多节点混合, 并据此构建混合正则项, 显式调控推理模型的复杂性, 提升其泛化能力与鲁棒性.在推理阶段, 引入标签传播并解耦目标节点及其邻域节点, 为MLP有效纳入目标节点邻域信息的同时控制其影响程度, 避免邻域信息覆盖目标节点自身信息, 进一步提升推理精度.整体所得的MLP高效率地实现图节点的高精度分类, 且自然鲁棒, 能有效达成推理效率与精度的深度平衡.在5个公共基准数据集上的实验充分评估DLPMMR的推理精度与效率, 验证其有效性.
图神经网络(GNNs)因其能在学习与推理过程中自然纳入邻域拓扑信息, 在图数据处理的相关任务中得到广泛应用.GNNs一般采用消息传递策略.GCN(Graph Convolutional Network)[11]利用拉普拉斯矩阵进行图卷积操作, 迭代聚合一阶邻居节点信息, 平滑节点特征.GATs(Graph Attention Networks)[12]结合图卷积与注意力机制, 通过注意力机制自动调适邻居节点对目标节点的影响.GraphSAGE(Sample and Aggregate)[13]采用固定数量的邻居节点进行再聚合, 可提高训练效率, 消除邻域扩展问题.Fast-GCN[14]对邻居进行分层重要性采样, 减少邻居数量, 加速图卷积操作, 提升模型的可扩展性.
GNNs通过迭代聚合邻居节点特征, 面向任务学习节点表示, 实现图数据的有效学习与建模.
知识蒸馏(KD)[4]最初作为一种模型压缩技术, 通过预先训练的大型教师模型传授“ 知识” 给相对轻量的学生模型, 增强学生模型的泛化能力.之后, 知识蒸馏引入图神经网络领域, 以相对简单的学生GNNs向更复杂、强大的教师GNNs学习.缘于GNNs处理信息的固有特性, 此类方法在消息传递与多跳邻居信息提取上耗时较长, 推理效率受限.Yang等[15]提出LSP(Local Structure Preserving), 引入局部结构保留模块, 实现结构知识蒸馏, 加速推理时间.Yan等[16]提出TinyGNNs(Tiny Graph Neural Net- works), 在浅层GNNs中加入对等感知模块, 实现同层邻居信息的交互, 使浅层GNNs也能捕获高阶邻居节点信息.然而, 学生模型采用GNNs, 其相关信息的处理依然显式依赖于消息传递策略.
与之不同, 近期工作, 如GLNN(Graph-Less Neu-ral Networks)[6]、AdaGMLP(Adaboosting GNN-to-MLP Knowledge Distillation)[17]等使用MLP作为学生模型以提升推理效率, 其局限是MLP独立看待节点特征, 从而不能显式引入邻域信息.Tian等[18]提出NOSMOG(Learning Noise-Robust Structure-Aware MLPs on Graphs), 在GLNN的框架下引入基于随机游走的位置编码, 在节点特征中增编位置信息, 一定程度上补偿邻域拓扑结构信息.位置编码在训练阶段完成, 要求在模型训练阶段获取推理阶段相关节点的全部位置信息.
Mixup[8]混合成对训练样本的特征及其对应标签生成新的混合样本, 丰富样本的多样性, 在计算机视觉相关任务中取得显著成功, 其变体也自然扩展至图神经网络领域.Verma等[9]提出GraphMix, 在MLP隐藏层中引入节点混合, 通过GNNs与MLP的权重参数共享与联合训练提升所得MLP的推理性能.Lu等[10]提出NodeMixup, 通过类内节点混合与类间节点混合, 减少已标记节点表示与未标记节点表示间的分布差异, 提升GNNs的泛化性能.Kim等[19]提出S-Mixup(Structural Mixup), 依照预测置信度选择节点进行混合并为混合, 节点引入邻接关系.
上述方法通过数据增强为相关模型引入隐式正则, 所涉样本混合多限于双样本混合, 部分方法涉及多个超参数, 调适难度较大.
标签传播(Label Propagation Algorithm, LPA)[20]是一种基于图的半监督学习方法, 根据已标记样本标签和样本之间的相似度更新未标记样本的标签.近期一些工作将 LPA引入GNNs.Ghayekhloo等[21]提出CLP-GCN(Confidence and Label Propagation App- lied to Graph Convolutional Networks), 利用标签传播预测未标记节点的伪标签, 将置信度高的节点添加到训练集上, 拓展节点邻域.Wang等[22]提出GCN-LPA, 在一般框架下结合GCN与标签传播, 学习GCN权重的同时学习图的邻接关系, 提升GCN的泛化能力.Yang等[23]提出CPF(Combination of Parameterized Label Propagation and Feature Transfor-mation), 在知识蒸馏框架下构建PLP(Parameterized Label Propagation)模块, 引入邻域信息, 将其输出与MLP输出组合并迭代更新, 最终输出的软标签与教师GNNs的输出对齐, 完成知识蒸馏.Xu等[24]提出GRACE, 在训练阶段通过GNNs自蒸馏增强节点表示, 在推理阶段引入标签传播聚合节点邻居信息, 提升推理性能.
图是一种包含节点与边的数据结构, 一般表示为G=(V, E), 其中, V={v1, v2, …, vN}, 表示节点集, E={e1, e2, …, eK}, 表示边集, X∈ RN× d表示节点特征, N=|V|, 表示节点总数, d表示节点特征维数, K表示边总数.若图中边为无向边, 称为无向图.
图节点分类基于图节点特征判别节点所属类别, 旨在学习由节点特征到节点类别的映射.多层感知器与图神经网络是实现图节点分类的常用模型.本文使用上标L标识节点已标记标签, 上标U标识节点未标记标签, 即图G对应节点、节点特征及节点类别标签相应区分为VL、XL和YL以及VU、XU和YU.
知识蒸馏是一种用于模型压缩或增强的学习框架, 一般包含预训练的教师模型与目标任务上的学生模型.经典知识蒸馏在最小化目标任务上学生模型对应损失的同时要求最小化教师模型输出与学生模型输出之间的分布差异(logit蒸馏), 即蒸馏损失.给定预训练的教师模型T与学生模型S, 对于训练样本v∈ V, 蒸馏损失:
LKD=∑v∈VLKL(ˆySv,ˆyTv),
其中, LKL(· , · )表示学生预测分布ˆySv与教师预测分布ˆyTv之间的KL散度,
ˆyTv=softmax(ZTvτ),ˆySv=softmax(ZSvτ),
τ 表示温度缩放系数, 用于控制模型输出概率的软化程度,
节点混合是一种节点生成方法, 通过随机凸组合一对样本生成混合样本{˜x,˜y}:
˜x=λxi+(1−λ)xj, (1)
˜y=λyi+(1−λ)yj, (2)
其中, {xi, yi}、{xj, yj}表示随机抽取的两个待混合节点对应的节点表示及其标签, λ 表示从β 分布采样的混合因子, 控制插值强度.
标签传播是一种基于图的半监督学习方法, 遵循相邻节点(高可能性地)共享相同标签的潜在假设.基于该假设, 将已标记节点标签信息沿图中邻接边传播至未标记节点, 进而预测其标签.对于无向图G=(V, E), 节点v的预测标签:
ˆyv=argmax (3)
其中, yu表示节点u当前标签, N(v)表示节点v的邻居节点集, y表示节点v可行的任意标签, δ (yu, y)表示克罗内克函数, 若yu=y, δ (yu, y)=1, 否则δ (yu, y)=0.
为了平衡图节点分类任务中的推理效率与推理性能, 本文提出基于解耦标签传播和多节点混合正则的图神经网络分类器(DLPMMR).DLPMMR基于知识蒸馏训练MLP推理模型, 结合经典logit蒸馏与中间特征蒸馏[18], 在提升模型推理效率的前提下保证模型的基础推理性能.因此, 设计两个专门机制:多节点混合正则(Multi-node Mixup Regularization, MMR)和解耦标签传播(Decoupled Label Propaga-tion, DLP), 在有效利用MLP推理效率的基础上提升推理精度.DLPMMR整体架构如图1所示.
DLPMMR包括知识蒸馏框架、多节点混合显式正则、解耦标签传播.鉴于现行知识蒸馏框架结合logit蒸馏与中间表示蒸馏的一般性以及与同领域工作对比的便利性, DLPMMR采用NOSMOG[18]的蒸馏框架, 在经典logit蒸馏的基础上引入中间特征对齐, 保证推理效率的前提下增强学生MLP的基础性能.
为了增强MLP的泛化性与鲁棒性, DLPMMR在训练阶段引入基于多节点混合构建的正则项.此正则项显式可控, 机制为原节点经学生模型所得输出的混合与混合节点经学生模型所得输出保持相近, 以此平衡学生模型训练样本上的拟合能力与模型自身的复杂性.多节点混合显式正则采用朴素的二次组合形式, 生成过程不涉及复杂采样与超参数, 简单易行, 所得节点更具多样性.
在推理阶段, DLPMMR引入标签传播, 为MLP推理纳入目标节点的邻域信息, 并解耦目标节点及其邻居节点, 控制邻居节点对目标节点最终分类决策的影响程度, 进一步提升推理精度.
DLPMMR采用NOSMOG[18]知识蒸馏框架, 在logit蒸馏的基础上纳入中间特征对齐.为了加速推理, 学生模型采用MLP, 教师模型为目标任务上预训练的GNNs, 具体可以是GCN、GAT或GraphSAGE等.在知识蒸馏框架下, 推理模型MLP需要最小化三方面的损失, 即目标任务上的损失、logit蒸馏损失及中间特征对齐损失.具体地, 损失函数:
\begin{aligned} L= & L_{\mathrm{CE}}+\alpha L_{\mathrm{KD}}+\mu L_{\mathrm{RKD}}= \\ & \sum_{v \in V^{\mathrm{L}}} L_{\mathrm{CE}}\left(\hat{\boldsymbol{y}}_{v}^{S}, \boldsymbol{y}_{v}\right)+\alpha \sum_{v \in V} L_{\mathrm{KL}}\left(\hat{\boldsymbol{y}}_{v}^{S}, \hat{\boldsymbol{y}}_{v}^{T}\right)+ \\ & \mu \sum_{v \in V} L_{\mathrm{MSE}}\left(\boldsymbol{S}_{v}^{S}, \boldsymbol{S}_{v}^{T}\right) . \end{aligned} (4)
其中:第1项为目标任务损失LCE, 以已标记样本上学生模型的预测标签与真实标签间的交叉熵度量; 第2项为logit蒸馏损失LKD, 以全体节点上(包括标记样本与未标记样本)学生模型预测标签与教师模型预测标签间的KL散度度量, α 表示权衡超参数; 第3项为中间特征表示对齐损失LRKD, 以全体节点上学生模型的中间特征表示与教师模型中间特征表示的均方误差(Mean-Square Error, MSE)度量, μ 表示权衡超参数.
NOSMOG对中间特征进行适当变换以提升对齐效果.具体地, 以hT∈
\begin{array}{l} \boldsymbol{S}_{v}^{T}=\boldsymbol{h}^{T}\left(\boldsymbol{h}^{T}\right)^{\mathrm{T}}, \\ \boldsymbol{S}_{v}^{S}=\left[\operatorname{Re} L U\left(\boldsymbol{W}_{M} \cdot \boldsymbol{h}^{S}\right)\right]\left[\operatorname{ReLU}\left(\boldsymbol{W}_{M} \cdot \boldsymbol{h}^{S}\right)\right]^{\mathrm{T}}, \end{array}
其中, dT、dS表示相应特征维度, WM∈
多节点混合正则(MMR)旨在提升MLP推理模型的泛化性与鲁棒性, 内在机理是鼓励学生模型保证如下正则性:混合前原节点经模型所得预测的混合与混合节点经模型所得预测相近.由节点混合式(1)与式(2)不难发现, 基于混合样本的学习促使模型习得混合特征 \tilde{x}到混合标签 \tilde{y}的映射.当该模型为简单映射, 如仿射变换(y=Ax+b)时, 式(2)自然成立:
\begin{aligned} \tilde{\boldsymbol{y}}= & \boldsymbol{A} \tilde{\boldsymbol{x}}+\boldsymbol{b}= \\ & \boldsymbol{A}\left[\lambda \boldsymbol{x}_{i}+(1-\lambda) \boldsymbol{x}_{j}\right]+\boldsymbol{b}= \\ & \lambda\left[\boldsymbol{A} \boldsymbol{x}_{i}+\boldsymbol{b}\right]+(1-\lambda)\left[\boldsymbol{A} \boldsymbol{x}_{j}+\boldsymbol{b}\right]= \\ & \lambda \boldsymbol{y}_{i}+(1-\lambda) \boldsymbol{y}_{j} . \end{aligned}
因此, 基于混合节点增强样本多样性实际为相关模型引入趋于简单映射的隐式正则.MMR基于此构建显式可控的正则项, 平衡分类模型训练样本上的拟合能力与模型自身的简单性.
为了减少节点混合中所涉参数的调适难度与开销并增强所得混合节点的多样性, DLPMMR基于朴素二次组合实现多节点混合, 据此构建显式可控的混合正则项.本文考虑三节点混合, 过程如图1所示.
三节点混合的实现为多节点混合提供一般思路, 更多节点的混合或导致节点过平滑而性能下滑.具体地, 从节点集上随机抽取3个节点xi∈ V, xj∈ V, xk∈ V; 分2次对3个节点其进行两两混合, 插值强度采用从β 分布采样的混合因子λ 1和λ 2分别控制.以 \tilde{\boldsymbol{x}}表示最终所得混合样本, 则
\widetilde{\boldsymbol{x}}=\lambda_{1} \boldsymbol{x}_{i}+\left(1-\lambda_{1}\right)\left[\lambda_{2} \boldsymbol{x}_{j}+\left(1-\lambda_{2}\right) \boldsymbol{x}_{k}\right], (5)
此过程未限定类内或类间, 也不涉及超参数, 简单易行.
将混合样本 \widetilde{x}输入MLP, 可得其预测分布:
\hat{\boldsymbol{y}}=M L P(\tilde{\boldsymbol{x}}),
原样本通过MLP也可得其预测, 对其采用类似式(5)的二次组合, 得到混合预测:
\begin{aligned} \hat{\boldsymbol{y}}^{\prime}= & \lambda_{1} M L P\left(\boldsymbol{x}_{i}\right)+ \\ & \left(1-\lambda_{1}\right)\left[\lambda_{2} M L P\left(\boldsymbol{x}_{j}\right)+\left(1-\lambda_{2}\right) M L P\left(\boldsymbol{x}_{k}\right)\right] . \end{aligned}
多节点混合正则对齐混合节点经学生模型所得预测分布 \hat{y}与原节点经学生模型所得预测的混合 \hat{\boldsymbol{y}}^{\prime}实现.具体地, 采用最小化两者间的KL散度, 引入显式正则, 可表示为
L_{\mathrm{MMR}}=\sum_{u \in V_{M}} L_{\mathrm{KL}}\left(\hat{\boldsymbol{y}}^{\prime}, \hat{\boldsymbol{y}}\right), (6)
其中, LKL表示KL散度, u∈ VM表示生成的混合节点, VM表示生成节点集合.
通过知识蒸馏并引入显式多节点混合正则, 相比单纯MLP, 训练所得推理模型具备更强的泛化性.然而, MLP独立看待节点特征, 相比GNNs, 缺乏显式捕获邻域信息的有效机制.为此, DLPMMR在推理阶段引入标签传播, 显式引入邻域信息, 提升MLP的最终推理能力.该过程与推理模型训练相对独立, 不影响推理模型的训练, 能在推理过程中灵活插入, 易于拓展.
由标签传播的一般公式(3)可发现, 目标节点以向邻域节点标签看齐的方式决定其自身标签.具体实现中可基于邻域节点的预测结果取其平均或投票方式确定, 如GRACE[24]就以目标节点及其邻域节点预测的平均作为目标节点的最终预测, 即式(3)具体化为
\hat{\boldsymbol{y}}_{v}=\frac{1}{|N(v)|+1} \sum_{u \in\{v\} \cup N(v)} \boldsymbol{y}_{u} .
此种方法以等权方式看待目标节点及其邻域节点, 容易出现邻域信息对目标节点自身信息的过度覆盖, 从而降低预测性能.为了调适目标节点与邻居节点间的关联程度, 利用邻域信息的同时避免其“ 喧宾夺主” , DLP解耦目标节点与邻居节点, 控制邻居节点信息对目标节点最终预测的影响.
具体地, DLP在标签传播过程中将标签信息分解为目标节点及其邻居节点, 引入权衡参数γ , 调适邻域信息对目标节点最终分类决策的影响程度, 提升推理精度.给定节点v∈ V, 最终预测标签分布:
\hat{\boldsymbol{y}}_{v}=\gamma \hat{\boldsymbol{y}}_{v}^{S}+(1-\gamma) \frac{1}{|N(v)|} \sum_{u \in N(v)} \hat{\boldsymbol{y}}_{u}^{S}, (7)
其中, \hat{\boldsymbol{y}}_{v}^{S}表示推理模型目标节点v的预测输出, \hat{\boldsymbol{y}}_{u}^{S}表示邻居节点u∈ Nv的预测输出, N(v)表示目标节点v的邻域集, γ 表示可调参数.
DLPMMR基于知识蒸馏框架训练MLP, 用于推理, 并在训练中引入多节点混合正则, 提升其泛化性.基于损失函数(4)与混合正则式(6), 最终损失函数LDLPMNM由目标任务上真实标签的交叉熵损失LCE, logit蒸馏损失LKD、中间特征蒸馏损失LRKD及多节点混合正则项LMMR的加权组合构成, 即
L_{\mathrm{DLPMMR}}=L_{\mathrm{CE}}+\alpha L_{\mathrm{KD}}+\mu L_{\mathrm{RKD}}+\beta L_{\mathrm{MMR}},
其中, α 、 μ 、 β 表示超参数, 分别用于平衡LKD、LRKD、LMMR.
基于训练所得MLP, 在推理阶段引入解耦标签传播.具体地, 基于式(7)以解耦方式传播标签, 给出目标节点的最终预测分布, 得到目标节点对应的预测类别.
本文实验采用图节点分类领域广泛使用的CO-RA[25]、CiteSeer[25]、PubMed[26]、Amazon-Computer[27]、Amazon-Photo[27]基准数据集.CORA、CiteSeer、Pub-Med数据集均为引文网络数据集, 节点表示数据集上收录的论文, 节点之间的边表示论文之间的引用关系, 一篇论文可引用多篇论文, 也可同时被多篇论文引用.Amazon-Computer、Amazon-Photo数据集都从亚马逊共购图中提取数据, 节点表示产品, 节点之间的边表示两个产品是否经常共同购买.5个数据集上的节点特征均以One-Hot编码的向量表示.数据集相关细节如表1所示.
![]() | 表1 实验数据集 Table 1 Experimental datasets |
与文献[6]和文献[18]保持一致, 将数据集划分为训练集、验证集和测试集.训练集用于训练推理模型, 验证集用于调适相关超参数, 测试集用于评估推理模型性能.
以预测准确率(Accuracy)和Macro-F1[28]作为评价指标评估节点分类性能.Accuracy表示正确预测节点数与参与评估总节点数的比值, Macro-F1通过对每个类别的F1-score值取平均得到.
基于PyTorch实现DLPMMR与相关模型, 设置批处理大小为 512, 最大迭代轮数为500, 学生模型隐藏层维度为128, 优化器为Adam(Adaptive Moment Estimation), 损失函数为KL散度与交叉熵.对比模型基于其开源代码与建议参数运行.
实验采用不同随机种子独立运行10次, 求取平均值与标准差.采用预测准确率评估模型分类性能, 基于验证集选择相关超参数, 报告测试集上相关结果.
实验环境为NVIDIA GeForce RTX 16 GB GPU, 操作系统为Windows 10, 内存为32 GB, 开发语言为Python.
为了验证DLPMMR的有效性, 选择如下对比模型.
1)MLP.经典的前馈神经网络模型, 由多层组成, 每层包含多个神经元.相比同体量的GNNs, MLP推理效率更高.
2)GraphSAGE[13].基于采样的可扩展经典图神经网络, 通过局部邻域采样与邻域信息聚合学习节点表示.为了公平对比, 遵循GLNN[6]、NOSMOG[18]的设置, 采用其变体SAGE-GCN(以GCN为聚合函数)作为DLPMMR的教师模型, 是自然的基线模型.
3)GLNN[6].典型图蒸馏框架, 以SAGE-GCN为教师模型, MLP为学生模型, 采用经典的logit蒸馏结合目标任务训练学生模型.
4)NOSMOG[18].图蒸馏框架, 在节点特征中增编位置信息, 为学生模型MLP补偿邻域拓扑结构信息.在GLNN logit蒸馏的基础上引入中间特征对齐, 并在节点特征中引入噪声, 增强模型的鲁棒性.
5)CPF[23].构建PLP模块, 引入邻域信息, 学生模型由MLP与PLP组合而成.注意, CPF与GLNN、NOSMOG和DLPMMR不同, 其学生模型需被多次调用, 同时采用较小的隐藏层维度.
6)CPF-.CPF的变体, 即在蒸馏框架与其它要素不变的情况下, 将学生模型的使用方式和隐藏层维度设置成与DLPMMR等一致, 以便公平对比.
7)AdaGMLP[17].图蒸馏框架, 通过AdaBoost集成多个在不同训练子集上训练的学生MLP, 并引入节点对齐机制, 提升模型对噪声与缺失数据的鲁棒性.
GRACE[24]使用不同的计算框架实现GNNs, 自蒸馏所用GNNs与DLPMMR及前述对比模型均不相同, 相关结果非直接可比, 故未纳入对比模型.
本节主要从模型推理性能进行评估, 兼顾考查推理效率.各模型在5个数据集上的预测准确率和Macro-F1值对比如表2所示, 表中黑体数字表示最优值, 斜体数字表示次优值, 各模型在相同实验环境下进行, 结果直接可比, 实际运行结果也与相关文献结果相近.
![]() | 表2 各模型的预测准确率和Macro-F1值对比 Table 2 Comparison of prediction accuracy and Macro-F1 among different models % |
由表2可见, DLPMMR在5个基准数据集上的两个指标值均最优.相比经过标准训练的MLP, DLPMMR在多个数据集上的预测准确率提升幅度较大.相比教师模型SAGE-GCN, DLPMMR的预测准确率平均提升3.83%, 表明经过专门设计训练后的MLP的推理性能已明显超越教师模型.相比同类蒸馏模型GLNN与NOSMOG, DLPMMR的预测准确率分别平均提升3.16%与1.51%, 表明其可行性、有效性.相比使用标签传播的CPF-, DLPMMR的预测准确率平均提升2.06%, 提升明显.相比CPF, DLPMMR的预测准确率平均提升1.27%.相比Ada-GMLP, DLPMMR的预测准确率平均提升1.96%.
图2可视化展现各模型在CORA数据集上的推理时间及其相应预测准确率, 用于对比相关模型的推理效率.
![]() | 图2 各模型在CORA数据集上的推理时间与预测准确率对比Fig.2 Comparison of inference time and accuracy among related different models on CORA dataset |
由图2可见, DLPMMR在提供高推理精度的同时相对保持高推理速度(12 ms).GLNN、NOSMOG与因推理中不涉及标签传播而推理速度略快, 但预测准确率更低.SAGE是图神经网络, 因其推理涉及邻域信息的聚合而耗时最长.在推理性能与推理效率的平衡方面, DLPMMR提供一个可行基准.
各模型在CORA数据集上的参数量与内存占用情况如表3所示.表中黑体数字表示最优值, 斜体数字表示次优值.
![]() | 表3 各模型的参数量和内存占用情况 Table 3 Parameter size and memory usage of different models MB |
由表3可见, DLPMMR采用与GLNN等相同的MLP推理模型, 参数量与标准MLP相当.NOSMOG因为位置编码, 参数量略高于标准MLP.AdaGMLP因为使用双MLP, 参数量翻倍.CPF的学生模型采用更低的隐藏层维度, 参数量最低.CPF-采用与标准MLP相同的隐藏层维度, 加上PLP模块中的参数, 参数量略高于标准MLP.
内存占用方面, SAGE-GCN采用按需加载而非通常(其它模型)采用的一次性加载数据的特殊方式, 训练内存因训练样本少而占用量最低, 推理阶段因加载全部数据, 内存占用高于标准MLP.此外, 标准MLP的训练与推理内存占用均最低.GLNN因知识蒸馏涉及教师数据加载, 训练内存占用显著高于标准MLP, 推理内存占用与标准MLP相当.NOS-MOG因包含特征对齐等额外模块, 训练内存占用高于GLNN, 推理阶段因位置编码需要内存占用, 显著高于MLP.AdaGMLP因使用多个MLP, 训练与推理内存占用均较高.CPF因训练需多次调用推理模型, 训练内存占用最高.CPF-减少调用次数, 与标准MLP相当, 相比CPF, 训练内存显著减少.因两者在推理阶段不需要在前向传播中缓存大量激活值, 学生模型调用次数对推理阶段影响较小.相比而言, DLPMMR因在训练阶段引入多节点混合正则, 训练内存高于GLNN, 但低于NOSMOG; 在推理阶段因采用解耦标签传播机制, 相比标准MLP与GLNN, 内存占用更高, 与CPF与CPF-大致相当.综合来看, DLPMMR在有效提升模型推理性能的同时能合理控制参数规模与资源消耗, 在多个对比模型中表现均衡, 具有良好的应用潜力.
为了验证DLPMMR中解耦标签传播(DLP)和多节点混合正则(MMR)的有效性, 首先对组件进行消融实验, 分别去除完整模型的不同组件以分析各自贡献.设计如下两个模块.
1)w/o DLP.不使用解耦标签传播.
2)w/o MMR.不使用多节点混合正则.
具体消融实验结果如表4所示.表中, ↓ 表示相比完整模型性能下降, 黑体数字表示最优值, 斜体数字表示次优值.由表可见, 去除DLP后, 推理性能下降明显, 在5个基准数据集上的预测准确率平均下降1.8%; 去除MMR后, 预测准确率也有所下降, 平均下降0.78%.实验表明, DLPMMR的解耦标签传播与多节点混合正则有效、可行.
![]() | 表4 各模块对DLPMMR预测准确率的影响 Table 4 Effect of each module on DLPMMR prediction accuracy % |
进一步, 为了验证DLPMMR的DLP中解耦设计的先进性以及MMR设计的合理性, 实验替换DLPMMR中的DLP为一般标签传播(LPA), 替换多(三)节点混合正则(MMR)为一般两节点混合正则(简记为TMR)和四节点混合正则(简记为FMR), 进行组件变化.设计如下三个模块:
1)w/ LPA.以LPA替换DLPMMR的DLP.
2)w/TMR.以TMR替换DLPMMR的MMR.
3)w/FMR.以FMR替换DLPMMR的MMR.
消融实验结果如表4所示.由表可见, 去除标签传播中解耦环节后, 预测准确率均有所下降, 在Amazon-Photo数据集上下降尤其明显.经典标签传播缺乏调适邻域信息影响程度的机制, 难以保证性能的一致提升.以两节点混合替代多(三)节点混合后, 性能也有所下降.以四节点混合替代多(三)节点混合后, 相比不使用混合正则, 虽在3个基准数据集上带来性能提升, 但相比多(三)节点混合模型, 性能均有所下降.实验表明朴素多节点混合策略行之有效, 而三节点混合模型在多个基准数据集上整体性能最佳.
前文实验均使用SAGE作为GNNs教师模型.为了检验DLPMMR不同教师下性能增益的敏感性, 选择SAGE、GCN、GAT这3种教师模型, 相关模型的预测准确率平均值如图3所示.
由图3可见, 在多种教师模型下, DLPMMR的预测准确率一致优于对比模型, 表明DLPMMR对教师模型不敏感, 性能增益对不同教师模型具有普适性.
为了增强推理模型的鲁棒性, NOSMOG[18]专门设计Adversarial Feature Augmentation(简记为AFA), 并引入噪声进行实验.为了验证DLPMMR自然的鲁棒性, 参照NOSM-OG引入不同水平的噪声进行实验.具体地, 实验以
\hat{x}=(1-\alpha) x+\alpha n
替换特征原节点特征x, 引入高斯噪声, 其中, n表示高斯噪声, α ∈ [0, 1]控制噪声水平.
AdaGMLP、NOSMOG、DLPMMR、DLPMMR-AFA在5个数据集上的预测准确率平均值如图4所示.
由图4可见, 不同噪声水平下DLPMMR的预测准确率一致优于有专门针对性设计的NOSMOG及新近模型AdaGMLP, 相比NOSMOG, DLPMMR在多个噪声水平下预测准确率平均提升1%, 相比AdaGMLP, DLPMMR的预测准确率平均提升1.13%.进一步, 在DLPMMR中引入AFA模块(简记为DL- PMMR-AFA).
由图4可见, DLPMMR-AFA能进一步带来鲁棒性的小幅提升.由此可见, DLPMMR在训练中引入多节点混合正则, 在推理中引入解耦标签传播, 具有自然的鲁棒性, 表现出较强的抗噪性.
本节分析DLPMMR中相关超参数的敏感性.具体而言, 在5个基准数据集上对γ 、α 、 μ 、 β 进行扰动, 观察DLPMMR预测准确率的变化, 结果如图5所示.
对于平衡标签传播中邻域信息对目标节点影响程度的超参数γ , 在CORA、CiteSeer、PubMed、Amazon-Computer、Amazon-Photo数据集上分别取值为0.3、0.3、0.2、0.1、0.1时预测准确率最高.当γ 取值趋大时模型性能趋低; 当γ =1, 即完全不纳入邻域信息时, 分类性能最低; 而当γ 取值趋低时, 即模型过度依赖标签传播时, 性能也趋低, 表明通过标签传播适度引入邻域信息确能提升模型分类性能.
对于平衡logit蒸馏影响的超参数α , 当α =1时, 模型在除Amazon-Photo数据集(取值为0.9时最佳)外的4个数据集上预测准确率最高, 表明基于图神经网络教师模型logit蒸馏的适度指导能有效提升学生推理模型的分类性能, 指导不足(α 取值过小)或过度依赖(α 取值过大)会导致学生模型分类性能降低.
对于平衡中间特征蒸馏的超参数μ , 在CORA、CiteSeer、PubMed数据集上分别取值为0.1、0.1、0.9时, 模型分类预测准确率最高; 在Amazon-Computer、Amazon-Photo数据集上, μ =1e-09时, 模型预测准确率最高.表明适度对齐学生模型与教师模型的中间特征能进一步提升知识蒸馏效果.
对于平衡显式混合正则项的超参数β , 当其在CORA、CiteSeer、PubMed、Amazon-Computer、Amazon-Photo数据集上分别取值为0.3、0.4、0.3、0.6、0.4时, 模型预测准确率最高, 表明引入适度的正则能带来分类性能的提升.
本文提出基于解耦标签传播和多节点混合正则的图神经网络分类器(DLPMMR), 基于知识蒸馏框架训练MLP推理模型, 保证其推理效率与基础性能.在训练阶段, 基于朴素二次组合以无超参数的方式实现多节点混合, 并据此构建混合正则项, 显式调控推理模型的复杂性, 提升其泛化性与鲁棒性.在推理阶段, 引入标签传播, 为模型推理纳入目标节点的邻域信息, 并解耦目标节点与邻居节点信息, 控制邻居节点信息对目标节点预测的影响程度, 进一步提升模型推理性能.在5个基准图节点分类数据集上的实验验证DLPMMR的有效性.今后将关注更复杂的图神经网络模型与更大规模的图数据相关任务下的推理效率与推理性能问题.
本文责任编委 吴 飞
Recommended by Associate Editor WU Fei
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|