
宋胜利,博士,教授,主要研究方向为智能计算及应用.E-mail:slsong@126.com.
作者简介:
郭全明,硕士研究生,主要研究方向为生物信息计算、人工智能.E-mail:gqm_99@163.com.
郭延哺,博士,副教授,主要研究方向为神经网络理论与应用.E-mail:guoyanbu@gmail.com.
陈紫豪,硕士研究生,主要研究方向为生物信息计算、人工智能.E-mail:c15736774662@163.com.
朱昊坤,硕士研究生,主要研究方向为生物信息计算、人工智能.E-mail:zhuhaokun2000@163.com.
微生物与药物的相互作用对人体健康具有重要影响.现有关联预测方法未充分建模异质图的内部节点信息,且忽略不同元路径实例蕴含信息的重要性.为此,文中提出生物拓扑语义增强的药物与微生物异质图表征学习方法(Biological Topology-Semantic Enhanced Heterogeneous Graph Representation Learning for Drug-Microbe Interactions, HGRL),提取高阶混合邻域网络嵌入表示,推理微生物与药物间的关联信息.首先,整合微生物与药物相似性及关联数据,构建加权双向异质网络和多视图元路径感知网络.然后,结合变换器门控图网络与贝叶斯高斯混合加权对比学习,提取复杂生物网络的拓扑语义和嵌入特征.基于对抗性负采样的预测结果表明,HGRL在微生物-药物关联预测中性能较优,可作为预测候选药物相关微生物的可靠工具.
SONG Shengli, Ph.D., professor. His research interests include intelligent computing and applications.
About Author:
GUO Quanming, Master student. His research interests include bioinformatics computation and artificial intelligence.
GUO Yanbu, Ph.D., associate professor. His research interests include neural network theory and applications.
CHEN Zihao, Master student. His research interests include bioinformatics computation and artificial intelligence.
ZHU Haokun, Master student. His research interests include bioinformatics computation and artificial intelligence.
The interaction between microorganisms and drugs significantly impacts human health. In existing association prediction methods, the internal node information of heterogeneous graphs is not adequately modeled and the importance of different meta-path instances is overlooked. Hence, a biological topology-semantic enhanced heterogeneous graph representation learning for drug-microbe interactions(HGRL) method is proposed. High-order mixed neighborhood network embedding representations are extracted to infer microorganism-drug associations. Microorganism-drug similarity and association data are integrated to construct a weighted bidirectional heterogeneous network and a multi-view meta-path aware network. The transformer-gated graph network is combined with Bayesian Gaussian mixture weighted contrastive learning to extract topological semantics and embedding features of complex biological networks. Prediction based on adversarial negative sampling demonstrates that HGRL outperforms existing methods in microorganism-drug association prediction and is a reliable tool for inferring microorganisms associated with candidate drugs.
人体皮肤、胃肠道和口腔等组织中存在细胞、真菌和病毒等微生物群落, 它们在维持人体内部环境稳态中发挥关键作用[1].在疾病治疗过程中, 微生物可通过影响药物的疗效和毒性, 调节治疗效果; 反之, 药物也可能抑制或杀死体内微生物, 从而引发如糖尿病、心脑血管疾病等复杂病症[2].传统的湿实验方法周期长、成本高、通量低, 难以满足大规模微生物-药物相互作用研究的需求.因此, 利用智能计算算法研究药物与微生物的相互作用, 对于研发药物、制定治疗方案和实现个体化药物治疗具有重要意义[3].
近年来人工智能和生物学测序技术的发展, 以及相关微生物和药物数据库的建立, 如MDAD(Mi-crobe-Drug Association Database)数据集[4]、aBiofilm数据集[5]、DrugVirus数据集[6], 使人工智能通过快速计算方法预测微生物与药物之间的相互作用成为可能.
当前, 微生物与药物关联预测的计算方法研究主要包括基于网络相似性的方法和基于机器学习的方法.基于网络相似性的方法构建异质网络, 利用节点之间的相似性推断未知关联.Zhu等[7]提出HMDAKATZ, 通过微生物和药物的相似性网络构建微生物-药物异质网络, 利用KATZ中心性测度量化异质网络中节点的重要性, 预测它们之间的潜在关联.Wang等[8]提出MGAVAEMDA, 使用多个数据库建立微生物和药物的特征矩阵, 设计改进的图注意变分自编码器, 用于提取特征, 并利用随机森林模型推理微生物与药物的关系.
近年来, 以图神经网络为代表的机器学习方法因其强大的高阶信息挖掘能力, 在电子信息和生物医学信息处理领域得到广泛应用.在基因-表型关联预测方面, 谭好江等[9]提出基于多组学数据融合的个性化随机游走算法(Individual Multiple Random Walks, iMRW), 为不同重要程度的节点分配差异化游走步长, 并基于高斯相互作用核的相似性, 预测多源基因-表型关联信息.在药物-药物相互作用预测研究中, 饶晓洁等[10]提出基于多层次注意力机制和消息传递神经网络的DDI(Drug-Drug Interaction)预测方法, 建模分子中不同原子的贡献, 结合基于分子质心的位置编码, 实现从原子级到分子级的层次化特征学习, 提升药物间相互作用预测的准确性.
在微生物-药物关联预测研究中, 已有多项基于图神经网络的工作.Long等[11]提出GCNMDA(Graph Convolutional Network Based Framework for Predicting Human Microbe-Drug Associations), 通过图卷积网络预测微生物与药物的相互作用.Long等[12]提出EGATMDA, 以图注意力网络为基础, 利用分层注意力机制, 从多个生物网络中学习节点嵌入, 进行微生物-药物关联预测.随后, Long等[13]提出HNERMDA(Heterogeneous Network Embedding Re-presentation Framework for Microbe-Drug Association Prediction), 基于异构网络嵌入表示, 利用metapath-2vec和双分网络推荐算法, 实现微生物与药物之间低维嵌入表示的学习.Tian等[14]提出SCSMDA(Struc-ture-Enhanced Contrastive Learning and Self-Paced Negative Sampling Strategy for Microbe-Drug Associa-tion Predictions), 采用结构增强的对比学习和自适应优化负采样策略, 预测微生物与药物之间的潜在关联.Deng等[15]提出Graph2MDA, 学习节点和整个图的潜在表示, 再使用变分图自动编码器预测微生物与药物之间的关联.
鉴于药物与微生物网络的生物实体之间具有的复杂互作用信息, 现有药物与微生物关联计算方法存在的主要挑战包括:1)单一图结构难以挖掘其中高阶关联作用; 2)以传统图卷积网络为基础的计算方法未能充分捕获网络节点中的丰富多模态特征; 3)选择药物微生物的负样本数据时仅随机地从未标记样本集上挑选, 忽略不同负样本对模型预测性能的影响.
针对现有计算方法的不足, 本文以变换器门控图卷积和贝叶斯高斯混合模型(Bayesian Gaussian Mixture Model, BGMM)为基础, 融合加权对比学习和对抗性负采样, 提出生物拓扑语义增强的药物与微生物异质图表征学习方法(Biological Topology-Semantic Enhanced Heterogeneous Graph Representa-tion Learning for Drug-Microbe Interactions, HGRL).首先, 整合药物和微生物多源信息, 构建药物与微生物加权双向异质网络和多视图元路径感知网络.再以相邻节点和元路径信息为基础, 采用变换器门控图卷积网络, 通过多头注意力机制对节点特征进行加权聚合, 自适应地学习节点间的重要性权重, 捕获药物-微生物之间的代表性交互模式.然后, 采用贝叶斯高斯混合加权对比学习, 自动聚类发现负样本结构, 并利用后验概率为不同负样本分配权重, 提升模型对样本对重要程度的区分能力.此外, 引入对抗性负采样方法, 在损失函数梯度方向添加扰动, 生成负样本, 并基于预测概率与标签损失进行模型训练.基于对抗性负采样的预测结果表明, HGRL在微生物-药物关联预测中性能较优, 可作为预测候选药物相关微生物的可靠工具.
本文提出生物拓扑语义增强的药物与微生物异质图表征学习方法(HGRL), 框架如图1所示.
HGRL包含三个核心部分:1)构建药物-微生物加权双向异质网络并设计多视图元路径, 捕获网络语义信息; 2)设计变换器门控图网络, 结合Trans-former的全局建模能力与门控图神经网络的局部特征提取机制进行异质网络表征学习; 3)引入基于贝叶斯高斯混合模型的对比学习框架和对抗性负采样策略, 进行模型优化, 提升预测性能.
1)关联关系网络构建.药物与微生物之间的关联关系表示为二值矩阵A∈
2)相似性网络构建.基于文献[16]方法和SIMCOMP[17]分别构建微生物功能相似性矩阵MF和药物结构相似性矩阵DS.
为了解决部分微生物或药物缺乏完整功能或结构信息的问题, 本文引入高斯核函数[18].在微生物-药物关联矩阵A中, 将微生物mi的第i行A(mi)和药物dj的第j列A(dj)作为它们各自的交互谱, 并基于这些交互谱, 利用高斯核函数计算微生物高斯核相似性矩阵GM和药物高斯核相似性矩阵GD, 定义如下:
GM(mi, mj)=exp(-η m‖ A(mi)-A(mj)‖ 2),
GD(di, dj)=exp(-η d‖ A(di)-A(dj)‖ 2),
其中,
\eta_{m}=\eta_{m}^{\prime}\left(\frac{1}{N_{m}} \sum_{i=1}^{N_{m}}\left\|\boldsymbol{A}\left(\boldsymbol{m}_{i}\right)\right\|^{2}\right),
表示微生物的归一化核带宽参数,
\eta_{d}=\eta_{d}^{\prime}\left(\frac{1}{N_{d}} \sum_{i=1}^{N_{d}}\left\|\boldsymbol{A}\left(\boldsymbol{d}_{i}\right)\right\|^{2}\right),
表示药物的归一化核带宽参数, η 'm、η 'd表示预先设定的原始带宽参数, 与Van Laarhoven等[18]提出的高斯核函数一致, 本文中将原始带宽参数同样设为1, 以保持核函数的尺度不变性.
为了综合利用功能相似性和高斯核相似性信息, 提升微生物相似性计算准确性, 对MF和GM进行加权平均, 得到最终微生物相似性网络Sm:
Sm(mi, mj)=
此外, 对DS和GD进行加权平均, 构建药物相似性网络Sd:
Sd(di, dj)=
3)加权双向异质网络构建.在相似性计算完成后, 基于已知的药物-微生物交互数据, 构建一个基础交互网络Ahet∈ R(M+D)× (M+D).为了确保网络中关系的双向性和一致性, 对基础交互网络Ahet进行对称化处理, 得到对称化交互网络:
Asym=Ahet+
然后, 将药物和微生物的相似性信息(分别由Sm和Sd表示)与上述交互信息整合, 构建药物-微生物加权双向异质网络:
Sall=
4)多视图元路径感知网络构建.元路径作为一种语义丰富的异质图模式, 能有效捕捉药物与微生物之间多层次、多角度的拓扑信息[19].本文设计MDM(微生物-药物-微生物)和DMD(药物-微生物-药物)两种元路径:
\begin{array}{l}D M D=D \xrightarrow{R_{D M}} M \xrightarrow{R_{M D}} D, \\M D M=M \xrightarrow{R_{M D}} D \xrightarrow{R_{D M}} M, \end{array}
从微生物和药物两个视角全面表征异构网络中的节点关系, 其中, M表示微生物节点, D表示药物节点, RMD和RDM表示微生物与药物之间的关联关系.A表示药物与微生物关联矩阵, 则基于MDM和DMD元路径构建的元路径感知网络可分别表示为
AMDM=AAT, ADMD=ATA.
这种多视图的建模策略为后续的预测任务提供更丰富的特征表示.
近年来, 图神经网络在各类结构化数据处理任务中优势显著, 但传统图神经网络面临两个关键局限:1)基于消息传递的架构难以有效建模长程依赖关系, 导致远距离节点间的信息交互受限; 2)节点特征更新缺乏选择性机制, 容易出现过度平滑现象, 损失节点的独特表征.针对这些挑战, 本文提出变换器门控图网络(Transformer-Gated Graph Network, TGGN), 融合Transformer[20]的全局建模能力与门控图神经网络的局部特征提取机制, 在保持结构敏感性的同时实现高效的长程依赖建模.
TGGN采用分层混合架构, 包含可学习的特征投影、基于图结构的多头注意力机制、图卷积操作和GRU(Gated Recurrent Unit)[21]门控更新.引入位置编码和层次化残差连接, 实现全局信息交互与局部特征提取的有效平衡.
1)多头注意力机制.TGGN采用稀疏多头注意力机制进行节点间信息交互, 相比传统基于消息传递的图神经网络, 该机制通过自适应注意力权重实现更高效的信息聚合, 能从不同角度捕获药物-微生物的交互模式.例如:某些注意力头关注药物的化学结构特征, 而其它头更注重微生物的功能属性.具体地, 给定节点特征矩阵x∈
第h个注意力头下节点对(i, j)的注意力得分为:
其中,
z_{i}^{h}=\sum_{j \in N(i)} \alpha_{i j}^{h} V_{j}^{h},
其中V
最后, 为了充分利用多头机制捕获的多样化特征模式, 拼接各个注意力头的输出, 并通过可学习的线性变换WO, 融合得到最终的节点嵌入表示:
zi=concat(
2)图信息传递.为了平衡全局信息交互与局部结构特征提取, TGGN设计基于门控机制的图信息处理模块, 动态调节信息流动, 识别和保留关键的药物-微生物交互特征.在图卷积传播阶段, 给定输入特征矩阵X∈
M(l)=X(l)W(l).
随后, 基于图的边集(i, j)执行消息传递, 采用加法聚合器高效融合邻域信息, 即
h_{i}^{(l+1)}=\sum_{j \in N(i)} M_{j}^{(l)} .
TGGN引入GRU门控机制, 增强对节点特征的选择性更新能力.在每层图卷积之后, 当前层的聚合特征M
3)位置编码与残差连接.与序列数据不同, 图结构数据缺乏天然的位置序列关系.为了准确表征药物-微生物网络中的拓扑距离信息, TGGN采用基于正弦-余弦函数的位置编码, 定义如下:
\begin{array}{l}P E_{(p o s, 2 i)}=\sin \left(\frac{p o s}{10000^{2 i / d}}\right), \\P E_{(p o s, 2 i+1)}=\cos \left(\frac{p o s}{10000^{2 i / d}}\right), \end{array}
其中, pos表示节点位置索引, i表示特征维度索引.同时, 考虑特征传递的衰减问题, 结合层正则化[22], 设计层次化残差连接, 提取生物网络的拓扑信息:
该连接一定程度上可避免梯度消失问题.
最终, 以基于两种元路径构建的元路径感知网络与初始药物-微生物特征嵌入作为输入, 通过TGGN得到基于元路径的药物-微生物异构节点表示Zmd.通过融合不同元路径获取的结构信息, 模型可更好地理解药物-微生物交互网络中的复杂语义关联, 提升预测性能和模型可解释性.
1)基于贝叶斯高斯混合图对比学习.传统的对比学习方法通常将所有负样本等价对待, 这种处理方式忽视负样本之间的差异性.在微生物-药物关联预测任务中, 不同的负样本对具有不同的信息量和重要性, 某些负样本对可能代表潜在的未发现关联, 而另一些负样本对可能是确定的无关联对.特别地, 生物医学数据普遍具有噪声和不确定性.因此, 本文引入基于贝叶斯高斯混合模型的对比学习框架, 通过自适应负样本加权策略, 提升特征表示的判别性.该框架利用贝叶斯高斯混合模型, 通过自动聚类发现负样本的内在结构, 并利用后验概率对负样本类别进行软分配, 从而更好地捕捉复杂的数据分布特征.
为了在统一的特征空间中进行对比学习, 首先采用双层全连接神经网络, 对微生物的初始嵌入
\begin{array}{l}\boldsymbol{H}_{m_{i}-}^{\text {all }} \operatorname{Proj}=\boldsymbol{W}_{2} \cdot \sigma\left(\boldsymbol{W}_{1} \cdot \boldsymbol{H}_{m_{i}}^{\text {all }}+\boldsymbol{b}_{1}\right)+\boldsymbol{b}_{2}, \\\boldsymbol{Z}_{m_{i}-}^{m d} \operatorname{Proj}=\boldsymbol{W}_{2} \cdot \sigma\left(\boldsymbol{W}_{1} \cdot \boldsymbol{Z}_{m_{i}}^{m d}+\boldsymbol{b}_{1}\right)+\boldsymbol{b}_{2} .\end{array}
在投影空间中, 选用余弦相似度作为特征间的度量标准.相比欧氏距离, 余弦相似度更专注于捕捉向量间的方向关系, 不受向量模长影响.投影特征间的双向相似度如下所示:
然后利用BGMM对负样本对的相似度进行自动聚类, 捕捉不同负样本对之间的内在差异性.对于相似度值simHZ, 其属于第k个高斯成分的后验概率:
q\left(z=k \mid \operatorname{sim}_{\mathrm{HZ}}\right)=\frac{\pi_{k} N\left(\operatorname{sim}_{\mathrm{HZ}} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right)}{\sum_{j=1}^{K} \pi_{j} N\left(\operatorname{sim}_{\mathrm{HZ}} \mid \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)},
其中, π k表示混合系数, μ k、Σ k分别表示第k个高斯分布的均值向量和协方差矩阵.
对比各个高斯成分的均值μ k, 自动选择均值最小的成分(即相似度较低的负样本), 其后验概率用于构建权重矩阵Q.
进一步地, 将权重矩阵Q与原始相似度矩阵进行元素级乘法运算, 突出具有较大区分度的负样本对的贡献, 进而得到加权相似度矩阵:
基于加权相似度, 采用负对数似然损失函数分别优化微生物和药物的嵌入表示, 得到微生物嵌入整体损失:
其中,
\begin{aligned}L_{m_{i}}^{\mathrm{HZ}} & =-\frac{1}{N} \sum_{i=1}^{N} \ln \left(\sum_{j=1}^{M}\left(\operatorname{sim}_{\mathrm{HZ}}^{\text {weighted }} \cdot \boldsymbol{P}\right)_{i j}+\varepsilon\right), \\L_{m_{i}}^{\mathrm{ZH}} & =-\frac{1}{N} \sum_{i=1}^{N} \ln \left(\sum_{j=1}^{M}\left(\operatorname{sim}_{\mathrm{ZH}}^{\text {weighted }} \cdot \boldsymbol{P}\right)_{i j}+\varepsilon\right), \end{aligned}
N表示微生物样本总数, M表示每个微生物样本在计算相似性时考虑的正负样本对总数, P表示正样本对指示矩阵, ε 表示极小正数, λ 表示平衡参数.
采用类似的方式学习药物嵌入, 其整体损失函数如下:
最终, 通过反向传播算法优化可学习参数, 将药物-微生物加权双向异质网络作为TGGN的输入, 学习微生物和药物的最终特征嵌入表示, 记为Zs.
2)对抗性负采样.在微生物与药物相互作用研究中, 已验证的交互对构成正样本集P, 未验证的潜在联系构成负样本集N.由于负样本数量远大于正样本, 直接随机采样可能导致模型过度关注负样本.为此, 本文提出对抗性负采样方法, 通过对抗训练生成具有挑战性的负样本, 并借鉴自适应负采样策略[14]进行选择性采样.
给定一个样本的预测概率
L(
在损失函数梯度方向添加对抗扰动, 生成对抗样本的预测概率:
其中ε 表示扰动强度.将所有对抗样本根据其预测概率的置信度划分为K个区间.每个区间包含一定数量的样本:
B_{l}=\left\{\hat{y}^{\text {adv }}\left|\frac{l-1}{k} \leqslant\left|\hat{y}^{\text {adv }}\right|< \frac{l}{k}\right\}, l \in[1, k] .\right.
根据预定义的策略, 从若干区间中选择负样本, 通常选择置信度接近0.5的样本, 表达式如下:
\begin{array}{l}N_{0}= \left\{\hat{y}_{l, j}^{\mathrm{adv}} \mid l \in[1, k], j \in\left[1, S_{B_{l}}\right] ; l \in \mathbf{N}^{+}, j \in \mathbf{N}^{+}\right\}, \end{array}
其中,
S_{B_{l}}=\frac{w_{l}|P|}{\sum_{t} w_{t}},
表示从第l个区间选择的负样本数量,
wl=
表示第l个区间的归一化采样权重,
α =tan(
表示自适应因子, i表示迭代次数,
h_{l}=\sum_{\substack{\hat{y}_{l, j}^{\mathrm{adv}} \in B_{l}}} \frac{\left|\hat{y}_{l}^{\mathrm{adv}}\right|}{\left|B_{l}\right|},
表示第l个区间的平均硬度得分.
最终将采样得到的负样本集N0与正样本集P组成训练集, 并结合微生物和药物的最终特征嵌入Zs训练多层感知机分类器.
本文采用MDAD[4]、aBiofilm[5]、DrugVirus[6]这3个微生物与药物数据集, 验证HGRL在关联预测任务上的有效性和鲁棒性.MDAD数据集包括173种微生物和1 373种药物的2 470条经过实验验证的数据关联.aBiofilm数据集包含140种微生物与1 720种药物组成的2 884个微生物-药物关联信息.DrugVirus数据集包含有95种微生物和175种药物构成的933个微生物-药物关联数据.
HGRL采用Glorot初始化方案[23]、Adam(Adap-tive Moment Estimation)优化器[24]和余弦退火学习率调度器[25]进行训练.为了获得最优配置, 采用网格搜索方法优化关键超参数, 通过实验确定最优参数组合:学习率为0.000 6, 余弦退火周期为200, 最小学习率为1e-5, 注意力头数为4, 药物和微生物的嵌入维度以及隐藏层维度均为128.经过1 400个迭代周期的训练后, 性能达到最优.
实验环境如下:PyCharm 2024.1、Python 3.10.8、scikit-learn 1.1.1、scipy 1.9.3、torch 2.1.2、torch-geometric 2.5.3.
硬件配置如下:Intel Xeon Platinum 8255C CPU和NVIDIA RTX 3060 Laptop GPU.
为了评估HGRL在MDAD、aBiofilm、DrugVirus数据集上的性能, 采用五折交叉验证.具体地, 将已知的微生物-药物相互作用对作为正样本, 未发现的潜在相互作用对作为候选负样本.HGRL通过对抗性生成负样本策略, 从候选负样本集上采样与正样本等量的负样本, 构成最终的实验数据集.
在五折交叉验证中, 数据集随机划分为五份, 每次取一份作为测试集, 其余四份作为训练集.本文采用AUC(Area Under the Curve)、AUPRC(Area Under the Precision-Recall Curve)、准确率、Matthews相关系数(Matthews Correlation Coefficient, MCC)和F1分数评估方法性能.
为了降低实验结果的随机性, 对每种方法进行5次独立实验, 并计算各项指标的平均值和标准差.
为了提高研究的透明度和可重复性, 本文的代码和数据集已在Gitee开源:https://gitee.com/gqm_99/HGRL_MDA.
为了确保公平对比, 所有基线方法均采用与HGRL相同的实验设置和评估指标.在数据输入上, 将HGRL构建的微生物相似性网络和药物相似性网络作为所有方法的输入特征, 确保各方法在相同的数据基础上进行预测.
本文选择如下基线方法.
1)GCNMDA[11].构建药物和微生物的异构网络, 采用基于GCN的框架, 结合条件随机场和注意力机制发现微生物-药物关联.
2)SCSMDA[14].使用结构增强对比学习和自适应负采样预测微生物-药物关联.
3)GCN(Graph Convolutional Network)[26].使用图卷积网络处理图结构数据.
4)GAT(Graph Attention Networks)[27].引入注意力机制的图神经网络, 最初用于预测蛋白质与药物的相互作用.
5)LAGCN(Layer Attention Graph Convolutional Network)[28].用于预测药物-疾病关联, 结合来自多个图卷积层的嵌入, 使用注意力机制整合这些嵌入, 获得丰富的药物和疾病表示.
6)GSAMDA[29].采用基于图注意力网络的自编码器(GAT-Based Autoencoder)学习网络中节点的拓扑表示, 并使用稀疏自编码器(Sparse Autoen-coder)学习节点的属性表示.
7)MMGCN(Multi-view Multichannel Attention Graph Convolutional Network)[30].采用GCN编码器在不同相似性视图中获取miRNA 和疾病的嵌入, 并利用多通道注意力机制增强学习的表示.
8)GACNNMDA[31].结合基于图注意力网络的自编码器和基于CNN的分类器, 预测潜在的微生物-药物关联.
各方法的AUC和AUPRC结果如表1所示, 表中黑体数字表示最优值.由表可见, HGRL在所有数据集上都取得最优值.
![]() | 表1 各方法在3个数据集上的性能对比 Table 1 Performance comparison of different methods on 3 datasets |
在MDAD数据集上, 相比SCSMDA, HGRL分别提升1.36%和2.97%(p < 0.001), 这种显著的性能提升表明方法能有效捕获复杂的微生物-药物关联模式.在aBiofilm数据集上, 虽然相比次优方法SCSMDA, HGRL在AUC值上的提升幅度相对较小(0.96%, t=6.340, p< 0.001), 但在AUPRC指标上取得显著提升(3.70%, t=19.783, p < 0.001).这种提升幅度的差异主要是由于该数据集上正负样本分布较平衡, 使AUC指标对模型改进的敏感度降低.
在具有挑战性的DrugVirus数据集上, 尽管数据稀疏性和类别不平衡带来更大挑战, HGRL表现仍保持稳定, 较小的标准差(多数指标小于0.01)表明方法在不同数据分布下都具有良好的泛化能力和稳定性.
同时, 由表1可观察到, HGRL在药物-微生物关联预测任务上显著优于传统的图卷积网络(GCN)和图注意力网络(GAT), 在3个数据集上的AUC和AUPRC值均提升约8%.GCN和GAT在处理图数据时, 往往会受到过平滑问题的影响, 即经过多次卷积之后, 节点特征会变得越来越相似, 难以区分不同节点.这是因为它们在聚合邻居信息时, 对所有邻居赋予相同的权重.HGRL通过MDM和DMD两种元路径构建元路径感知网络, 并引入变换器门控图网络(TGGN)融合不同元路径获取的结构信息.TGGN通过多头注意力机制分配不同的权重, 从而更准确地捕获节点之间的差异性, 有效缓解过平滑问题, 更好地保留节点的局部特征, 更有效地捕获节点之间的长程依赖关系.
通过对比学习, HGRL能学到基于元路径的节点语义相似性.融合元路径感知网络与初始药物-微生物特征嵌入, HGRL可更好地理解药物-微生物交互网络中的复杂语义关联.此外, 在传统的图神经网络中, 针对负样本通常采用随机采样.这种随机采样的方式可能导致生成的负样本不够有挑战性, 从而影响方法的学习效果.HGRL采用对抗性负采样, 即通过一个生成器生成更难区分的负样本.生成器会不断尝试欺骗判别器, 而判别器则区分正样本和负样本.这种对抗性的训练过程使方法能学到更鲁棒的特征表示, 提高模型的泛化能力.
综上所述, HGRL充分利用图结构信息, 在与近年来的其它先进方法的对比中, 在AUC和AUPRC指标上均取得最优值, 由此验证方法的有效性.
为了评估方法中各组成部分的必要性, 本节考虑逐个移除中的独立组件进行消融实验.选择如下独立组件:变换器门控图组件(简记为TG)、基于贝叶斯高斯混合的对比学习组件(简记为BG)、对抗性负采样组(简记为AP).分别在不包含TG组件的HGRL(HGRL w/o TG)、不包含BG组件的HGRL(HGRL w/o BG)和不包含AP组件的HGRL(HGRL w/o AP)以及HGRL上进行消融实验, 结果如图2所示.
由图2可看出, 在3个数据集上, HGRL的性能均优于其它模型, 表明TGGN有助于HGRL更好地学习数据特征, 提高预测准确性.基于贝叶斯高斯混合的对比学习(BG)和对抗性负采样组件(AP)在提高模型的泛化能力上也起到重要作用.
为了更进一步验证对抗性负采样组件的有效性, 在HGRL中分别采用随机负采样、自适应负采样和对抗性负采样这3种策略进行对比实验, 结果如图3所示.由图可见, 在3个数据集上, 采用对抗性负采样的HGRL均取得最优值.实验表明, 相比传统的随机负采样和自适应负采样, 对抗性负采样能生成更具挑战性的负样本, 帮助方法学到更鲁棒的特征表示.这与消融实验结果相互印证, 进一步证实对抗性负采样组件在提升方法性能方面的重要作用.
本节旨在评估HGRL对不同超参数设置的敏感性, 主要关注学习率、多头注意力机制头数、嵌入尺寸、区间数(负样本采样时考虑的区间总数)等关键超参数对方法性能(如准确率、F1-Score、AUC等)的影响.
学习率决定方法权重更新的步幅大小, 对模型的收敛性和全局最优解的搜索至关重要.
在实验中, 设置学习率为6× 10-3, 6× 10-4, 1× 10-4, 6× 10-5, 1× 10-5, 其对HGRL性能的影响如图4所示.
由图4可发现, 当学习率设为6× 10-4时, HGRL在AUC、F1-Score等指标上达到最优值.这说明在模型初期, 适中的学习率能保证快速收敛, 同时在后期避免震荡与局部最优陷阱.
多头注意力机制头数增加可提升方法捕捉数据多样性和复杂模式的能力, 但也会增加计算量和参数量.设置注意力头数为2, 4, 6, 8, 其对HGRL性能的影响如图5所示.
由图5可见, 当注意力头数设置为4时, HGRL性能达到最优.这说明过少的注意力头数(如2个)难以充分捕获节点间的多维特征关系, 而过多的头数(如6个或8个)会导致注意力机制过度分散, 增加计算开销.
对于图神经网络而言, 嵌入维度直接关系特征表示的丰富性及信息冗余度.本文设定嵌入维度为32, 64, 128, 256, 其对HGRL的影响如图6所示.
由图6可知, 当嵌入维度从32增至128时, HGRL各项指标值都有所提升.这表明更高的维度可捕获图结构中更复杂的节点间关系.然而, 当嵌入维度超过128时, 性能开始呈现下降趋势.这是因为过大的嵌入维度会引入更多的噪声信息, 使模型在捕获有用特征的同时也学到不相关的冗余信息.
在对抗性负采样方法中, 区间数控制负样本采样的难度与多样性.设置区间数为6, 8, 10, 12, 14, 其对HGRL的影响如图7所示, 由图可观察到, 当区间数为12时, HGRL的AUC和F1-Score值达到最优.这表明在这个采样规模下, 生成的负样本难度适中, 能有效挑战模型的判别能力, 促使模型学到更具区分性的特征表示.
较小的区间数可能导致负样本的多样性不足, 限制模型的学习深度, 过大的区间数则可能引入过多难以区分的负样本, 导致训练不稳定.
为了进一步探索余弦退火学习率调度器的性能影响, 对其关键超参数— — 余弦周期的长度(T_max)和学习率最小值(eta_min)进行敏感性分析.
在MDAD、aBiofilm、DrugVirus数据集上, 设定在T_max∈ [100, 300]和eta_min∈ [1× 10-6, 1× 10-4]的参数空间内进行网格搜索, 结果如图8所示.
![]() | 图8 余弦退火学习率调度器的参数敏感性分析结果Fig.8 Parameter sensitivity analysis of cosine annealing learning rate scheduler |
实验表明, 当 Tmax=200且eta_min=1× 10-5时, HGRL的AUC值达到最佳.热力图分析显示, 当eta_min> 5× 10-5时, 方法性能出现明显下降, 这可能源于较大的最小学习率制约模型的精细调整能力.
同样, T_max偏离200也会导致方法性能降低, 说明合适的周期长度对方法的优化起到至关重要的作用.
为了深入建模节点的高阶特征以及不同元路径之间的交互关系, 本文以变换器门控图网络为基础, 结合贝叶斯高斯混合加权对比学习和对抗性负采样, 提出生物拓扑语义增强的药物与微生物异质图表征学习方法(HGRL).在3个公共数据集上的实验表明, HGRL可自动捕获复杂生物网络的多模态特征, 进一步提升药物与微生物关联分析模型的表达能力和鲁棒性.
鉴于药物与微生物网络的复杂性, 现有药物和微生物间的计算方法研究主要建模生物网络中节点的局部结构信息.今后拟从如下几方面开展药物和微生物关系建模的计算方法的研究.1)研究引入药物和微生物等的物理化学属性, 增强特征表示.2)构建药物、微生物、基因、疾病、circRNA、miRNA、Inc- RNA等组成大规模复杂生物网络数据, 研究复杂网络的动力学特性, 建立高效的大数据挖掘算法, 改进优化模型的性能.3)将HGRL应用于其它生物医学领域的链接预测任务, 如药物相互作用预测、miRNA-疾病关联预测等, 推动电子信息与生物医学、神经科学的交叉研究与发展.
本文责任编委 周水庚
Recommended by Associate Editor ZHOU Shuigeng
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|