
牛常勇,博士,副教授,主要研究方向为基于云平台的大规模数据管理和分析、机器学习尤其是深层学习算法研究及应用、移动终端系统研发.E-mail:iecyniu@zzu.edu.cn.
作者简介:
周丽娟,博士,副教授,主要研究方向为计算机视觉、机器学习、多模态处理.E-mail:ieljzhou@zzu.edu.cn.
吴梦琪,硕士研究生,主要研究方向为数据挖掘、属性图聚类、对比学习.E-mail:mengqiwuzzu@163.com.
李欣冉,硕士研究生,主要研究方向为多模态推荐、机器学习.E-mail:lixinran@gs.zzu.edu.cn.
图聚类方法旨在使用无监督方式将图节点划分到不同类别中,用于发现复杂系统中的隐藏模式、社区结构和组织关系.现有方法通过不同的学习范式构建自监督模式,指导图表示学习并实现聚类,因此学习范式是图聚类方法的关键,但现有综述少有从学习范式的角度讨论图聚类方法.因此,文中基于不同学习范式总结图聚类方法的研究进展,将图聚类方法分类为重构式图聚类、对比式图聚类、对抗式图聚类和混合式图聚类.基于研究范围和聚类效果,重点探讨重构式图聚类和对比式图聚类.在单关系数据集和多关系数据集上的聚类结果表明,对比式图聚类在单关系数据集上表现较优,而重构式图聚类在多关系数据集上表现较优.最后,总结图聚类领域面临的挑战,展望未来的研究方向,并介绍深度图聚类方法在各个领域的应用.
NIU Changyong, Ph.D., associate professor. His research interests include large-scale data management and analysis on cloud platforms, machine learning with a focus on deep learning algorithms and applications, and mobile terminal system development.
About Author:
ZHOU Lijuan, Ph.D., associate profe-ssor. Her research interests include computer vision, machine learning and multimodal processing.
WU Mengqi, Master student. Her research interests include data mining, attributed graph clustering and contrastive learning.
LI Xinran, Master student. His research interests include multimodal recommendation and machine learning.
Graph clustering aims to partition graph nodes into different categories in an unsupervised manner, facilitating the discovery of hidden patterns, community structures and organizational relationships within complex systems. Existing methods construct different self-supervised information through various learning paradigms to guide graph representation learning and promote clustering. Therefore, the learning paradigm is the key to clustering algorithms. However, few existing reviews discuss graph clustering from the perspective of different learning paradigms. In this paper, the research progress on graph clustering based on different learning paradigms is summarized. Clustering methods are classified into reconstructive graph clustering, contrastive graph clustering, adversarial graph clustering and hybrid graph clustering. Considering the research scope and clustering effect, reconstructive graph clustering and contrastive graph clustering are discussed in detail. Graph clustering results on single-relation and multi-relation datasets are compared. The results show that contrastive graph clustering performs better on single-relation datasets, while reconstructive graph clustering is more effective on multi-relation datasets. Finally, the challenges faced in the graph clustering field are summarized, and future research directions are pointed out as well. The applications of deep graph clustering across various domains are additionally introduced.
图是一种复杂的数据结构, 由于其丰富的信息表示能力而得到广泛应用.以属性图为例, 节点表示实体, 节点属性表示实体特征, 节点之间的边表示实体间复杂的连接关系.图神经网络(Graph Neural Networks, GNNs)利用图的表示能力建模现实世界场景下各种实体之间的复杂交互[1, 2, 3, 4, 5, 6, 7], 如现实世界中的社交网络[8]、分子网络[9]、引文网络[3]等都依赖图神经网络进行数据分析.随着深度学习[10]的发展, 图神经网络引起广泛关注, 近年来基于图的下游任务, 如链接预测[3]、图聚类[11]、异常检测[12]、节点分类[13]等都取得较优性能.其中, 图聚类是一项具有挑战性的任务, 旨在将图节点分离到不同的类别中, 划分到同一类别内的节点联系紧密, 而不同类别之间的节点联系疏远.图聚类可广泛应用于社交网络分析[14]、生物信息学[15]、推荐系统[16]、边缘检测[17]、图像分割[18, 19]等领域.
早期基于传统机器学习的图聚类工作, 只关注图数据中浅层信息:K-means[20]只关注图的节点属性, 却未利用图的拓扑结构; Spectral Clustering[21]只关注图的拓扑结构, 未利用图的节点属性.上述方法只能捕获部分图信息或节点属性与拓扑结构之间的浅层关系.此外, 早期工作由于直接作用于原始的图数据, 受限于原始图维度稀疏的特性, 不能有效利用图的拓扑结构、节点属性以及它们之间的相互关系.
随着深度学习的广泛应用, 学者们开始通过神经网络进行聚类.早期基于深度学习的图聚类的代表性算法是自动编码器, 可应用于纯粹的无监督环境中.Tian等[22]使用SAE(Sparse Auto-Encoder)[23], 将原始特征映射到非线性特征空间中, 再使用K-means进行聚类.Cao等[24]提出DNGR(Deep Neural Networks for Learning Graph Representations), 堆叠去噪自动编码器以学习低维节点表示.GAE(Graph Auto-Encoders)[3]使用图卷积编码器和内积解码器, 通过重构图的拓扑结构学习图结构和属性信息.GATE(Graph Attention Auto-Encoders)[25]使用图注意力编码器、内积解码器和图注意力解码器, 重构图的拓扑结构和节点属性以学习图表示.
虽然上述方法已取得较优性能, 但分别进行图表示学习和聚类使图表示学习在聚类任务上表现次优.为了使图表示学习面向更好的聚类效果优化, 学者们提出基于联合框架的方法[26, 27, 28, 29, 30], 即在统一框架内同时优化图表示学习和聚类, 使其相互受益.
图神经网络与对比学习的结合也在不断扩充图聚类的工作.图对比学习继承对比学习和GNNs的优点, 可利用样本之间隐式但有意义的关系.通常来讲, 图对比学习[31, 32, 33]通过数据增强构造新的视图, 并最大化同一实例的不同视图表示之间的互信息, 通过样本之间有意义的关系构建自监督信息, 将同一节点跨视图的表示视为正样本并促使其靠近.然而不合适的数据增强可能导致语义漂移, 影响模型效果, 因此, 一些方法通过不同的编码器构建不同视图的节点表示进行对比学习, 避免数据增强的局限性.
图聚类近年来取得丰硕的成果, 然而, 与深度聚类[34, 35, 36]不同, 深度图聚类领域缺少综述性的论文.Liu等[37]从图的类型、网络架构、学习范式和聚类方法这4个方面概括性总结图聚类任务, 但缺少详细探讨.此外, 对于每种分类方法, 应按照方法特性进行细分:重构式图聚类由于经典而应用广泛, 除了适用于单视图数据集之外, 也有很多适用于多视图数据集的方法.对比式图聚类方法目前能处理多视图数据集的较少, 但数据增强对于对比学习意义更大, 因此可从数据增强和非数据增强两方面详细分类.Wang等[38]仅列举图聚类的八种经典方法, 缺少对图聚类方法的全面描述.
受上述工作的启发, 本文对现有深度图聚类方法进行综述.这些方法基于不同学习范式, 从原始数据学习不同的自监督信息, 优化图表示学习, 更益于聚类任务.鉴于图聚类无监督的特性, 按照学习范式对图聚类方法进行分类更有意义, 因此本文将图聚类方法按照不同学习范式分为重构式图聚类、对比式图聚类、对抗式图聚类和混合式图聚类, 并对重构式图聚类和对比式图聚类进行深入探讨.本文将重构式图聚类分为单视图聚类和多视图聚类两类.将单视图聚类细分为两步式聚类和联合优化聚类; 将多视图聚类细分为多关系视图聚类和多属性视图聚类.对比式聚类分为基于数据增强的对比式图聚类和非数据增强的对比式图聚类.此外, 分别在单关系数据集和多关系数据集上进行不同方法的聚类效果对比.最后, 总结图聚类目前面临的挑战, 展望未来的研究方向.
1.1.1 属性图
给定具有n个顶点的属性图G={V, E, X}, 其中:
V=[v1, v2, …, vn],
表示图的顶点集合, 包含k个类别的n=|V|个同种顶点; E={eij}, 表示节点之间的边集合, 若eij∈ E, 节点i、 j之间存在边连接;
X=[x1, x2, …, xn]∈ Rn× d,
表示图的属性, xi表示节点i的属性向量.
不同节点之间的边描绘图的拓扑结构, 可表示为邻接矩阵A∈ Rn× n.假设图是无加权的, 如果eij∈ E, Aij= 1, 否则Aij= 0.
1.1.2 异构图
考虑到现实世界中网络的复杂性, 异构图是由不同种节点或边组成的图, 与普通同构图的主要区别在于节点和边的类型是否单一.具体而言, 给定一个具有n个顶点的异构图G={V, E}, 其中, V表示节点集合, E表示边集合.异构图满足节点和边的类型数之和大于2, 即至少包含两种不同类型的节点或两种不同类型的边.
1.1.3 图表示学习
原始图数据高维稀疏的特性不利于机器学习深层信息.图表示学习作为原始输入数据和图聚类任务之间的连接, 旨在将原始的图数据映射到低维表示空间中, 同时最大程度保留原始图拓扑结构和节点属性信息, 从而使下游任务受益.图表示学习的目标是学习每个节点v的低维嵌入向量Zv∈ Rd', 其中, d'≪d, 表示嵌入向量维度.
对于输入数据, 选用合适的神经网络f将其编码, 输出信息的低维嵌入向量:
Z=f(G)=f(A, X)∈ Rn× d',
其中, A∈ Rn× n表示图的邻接矩阵, X∈ Rn× d表示图的属性矩阵.
1.1.4 深度图聚类
深度图聚类依赖节点属性和图结构信息, 具有相似属性的邻居节点更容易聚成一类.图聚类将图中节点按照相似性划分成若干类, 被划分到同类的节点具有较高的相似性, 而不同类之间节点相似性较低.图聚类在社交网络分析、生物信息学和互联网推荐系统等领域都具有广泛应用, 通过图聚类识别网络中的社群和模式, 可帮助理解复杂系统的组织和功能.
深度图聚类流程图如图1所示, 在神经网络将输入数据编码成低维向量Z的基础上(即图表示学习), 采用聚类方法C将节点分成k个不相交的组, 从而完成聚类过程.预测的节点类标签如下:
在训练过程中, 图表示学习是图聚类的基础.两步式图聚类[3, 25]将图表示学习和图聚类视为两个独立的过程; 联合优化图聚类[26]在统一框架内同时优化图表示学习和图聚类, 使图表示学习以聚类任务为导向进行优化, 使两个组件互相受益.
目前评价深度图聚类效果且使用最广泛的评价指标包括:准确度(Accuracy, ACC)[39]、归一化互信息(Normalized Mutual Information, NMI)[40]、调整兰德系数(Adjusted Rand Index, ARI)[41]和F1分数(F1 Score).这些评价指标通过对比预测标签和真实标签之间的差异性以衡量聚类效果, 适用于具有真实标签的数据集.
ACC对比真实标签和预测标签之间的准确性, 计算正确分类的样本占总样本数的比例, 公式如下:
ACC=
其中:TP表示真正例, 即模型正确预测为正类别的样本数; TN表示真负例, 即模型正确预测为负类别的样本数; FP表示假正例, 即模型将负类别错误预测为正类别的样本数; FN表示假负例, 即模型将正类别错误预测为负类别的样本数.ACC能直观反映聚类结果和真实标签的匹配程度, 取值范围在[0, 1]内.ACC数值越大表示预测效果越优.
NMI对比真实标签和预测标签之间的相似性, 公式如下:
NMI(U, V)=
其中, I(U, V)表示真实标签分配U和预测标签分配V之间的互信息, H(U)表示U的熵, H(V)表示V的熵.NMI衡量聚类结果与真实标签共享的信息量, 捕获非线性关系, 取值范围通常在[0, 1]内.NMI数值越大, 真实标签和预测标签之间的相似性越大, 即聚类效果越优.
ARI是对兰德系数的改进, 同样也可用于测量聚类结果和真实结果之间的相似性, 公式如下:
ARI=
其中, RI表示兰德系数, E(RI)表示随机情况下兰德系数的期待值, Max(RI)表示在所有聚类结果中兰德系数的最大值.ARI在考虑随机因素的基础上, 评估聚类结果与真实标签的一致性, 取值在[-1, 1]内, 1表示聚类结果和真实结果完全一致, -1表示聚类结果和真实结果完全不一致.ARI数值越大聚类效果越优.ARI对于不同大小的簇和不同样本数量的数据集都具有鲁棒性.
F1分数是精确度(Precision)和召回率(Recall)的调和平均值, 其中, Precision衡量被正确分类为正类别的样本占所有被分类为正类别的样本比例, 而Recall衡量被正确分类为正类别的样本占所有实际正类别的样本比例.F1公式如下:
F1=2 Precision ⋅ Recall Precision + Recall , Precision =TPTP+FP, Recall =TPTP+FN.
F1分数在类别不平衡的数据集上具有更全面的评估效果, 取值范围在[0, 1]内, 数值越大表示聚类效果越优.
总之, 上述评价指标从不同角度全面衡量方法的聚类效果.ACC能直观反映预测标签和真实标签的吻合程度.NMI在信息论的基础上衡量预测标签和真实标签的重叠程度.ARI考虑随机因素的影响, 对聚类效果进行更合理的评估.F1更适用于类别不平衡的数据集.
本节主要介绍在图聚类广泛应用的公开数据集, 根据是否具有不同种类的关系, 把常用的数据集分成单关系数据集和多关系数据集.
1.3.1 单关系数据集
单关系数据集主要包括两类:论文引用网络数据集和航空交通网络数据集.这两类数据集都常用于评估图神经网络等模型在图数据上的性能.数据集具体信息如表1所示.
![]() | 表1 单关系数据集 Table 1 Single-relation dataset |
论文引用网络数据集表征论文及论文之间复杂的引用关系, 图节点表示论文, 节点之间的边表示论文之间的引用关系, 节点属性表示一组对应于论文内容的关键字.常见的论文引用网络数据集包括Cora[42]、Citeseer[42]、Pubmed[42]数据集.
1)Cora数据集.主要包含关于机器学习和信息检索领域的论文, 每篇论文都被其它论文引用, 即没有孤立节点.根据论文的主题领域将论文分为7类.
2)Citeseer数据集.主要包含有关计算机和信息科学领域的学术论文, 根据论文的主题领域将论文分为6类.
3)Pubmed数据集.引文网络数据集, 主要包含来自Pubmed数据库上关于糖尿病的科学出版物.根据Pubmed数据库上关于糖尿病的科学出版物, 论文分为3类.
航空交通网络数据集表征机场及机场之间的航班信息, 节点表示机场, 节点之间的边表示机场之间存在商业航线, 节点标签与机场的活动水平对应.常见的航空交通网络数据集包括BAT[43]、UAT[43]、EAT[43]数据集.
1)BAT数据集.基于巴西航空交通网络, 收集国家民航局从2016年1月至12月的数据, 机场活动水平由相应年份的着陆和起飞次数衡量.
2)UAT数据集.基于美国航空交通网络, 收集运输统计局从2016年1月至10月的数据, 机场活动水平是根据同期通过(到达和离开)机场的总人数衡量.
3)EAT数据集.基于欧洲航空交通网络, 收集欧盟统计局2016年1月至11月的数据, 机场活动水平同样是根据相应时期着陆和起飞次数衡量.
1.3.2 多关系数据集
多关系数据集包括ACM[44]、DBLP[44]、IMDB[44]数据集, 具体信息如表2所示.
![]() | 表2 多关系数据集 Table 2 Multi-relation dataset |
1)ACM数据集.论文网络数据集, 图节点表示论文, 有两种类型的边:共同作者(Co-paper)和共同主题(Co-subject), 共同作者表示两篇论文有共同作者, 共同主题表示两篇论文有共同主题.根据论文的主题领域, 论文共分为3类.
2)DBLP数据集.作者网络数据集, 图节点表示作者, 有3种类型的边:共同作者(Co-author)、共同术语(Co-term)和共同会议(Co-conference), 共同作者表明两位作者发表同一篇论文, 共同术语表明两位作者发表相同术语的论文, 共同会议表明两位作者在同一个会议上发表论文.根据研究领域, 所有节点分为4类.
3)IMDB数据集.电影数据集, 图节点表示电影, 有两种类型的边:共同演员(Co-author)和共同导演(Co-director), 共同演员表示两部电影是由同位演员参演, 共同导演表示两部电影由同位导演执导.根据电影主题, 电影共分为3类.节点属性表示电影情节对应的描述性元素.
鉴于图聚类无监督的特性, 算法通过不同的学习范式建立不同的自监督信息, 并通过自监督信息优化图表示学习以促进聚类, 因此, 本文按照不同的学习范式将图聚类算法分为重构式图聚类、对比式图聚类、混合式图聚类和对抗式图聚类.由于混合式图聚类和对抗式图聚类工作较少, 本文重点讨论重构式图聚类和对比式图聚类.
重构式图聚类以图数据内部信息作为中心, 通过重构节点属性和图结构作为自监督信号.具体而言, 重构式图聚类使用编码器编码输入图中的信息, 并通过恢复输入学习聚类信息.
重构式图聚类的通用流程图如图2所示, 编码器对输入信息进行特征聚合, 生成嵌入Z, 随后解码器通过对嵌入Z进行解码, 重构输入, 重构损失通过缩小输入与重构之间的差距优化嵌入Z, 最后对嵌入Z使用合适的聚类方法, 得到最终聚类结果.
根据是否适用于多视图数据, 本文将重构式图聚类分为单视图聚类和多视图聚类.
2.1.1 单视图聚类
单视图聚类通常适用于具有单一类型的节点、边或节点属性的数据集.对于重构式图聚类来说, 选取合适的编/解码器进行特征聚合、设计合适的损失函数进行自监督训练, 都有助于实现更优的聚类效果.
本文根据是否同时优化图表示学习和图聚类将单视图聚类分为两步式图聚类和联合优化图聚类, 两种方法各自对应不同的损失函数.两步式图聚类是指将图表示学习和图聚类视为两个独立阶段.联合优化图聚类是指在联合框架内同时优化图表示学习和图聚类, 使其相互受益.两种方法的对比如图3所示.
![]() | 图3 两步式图聚类和联合优化图聚类对比图Fig.3 Comparison of two-step graph clustering and joint optimization graph clustering |
两步式图聚类在进行图表示学习得到嵌入Z后, 在嵌入Z上利用如K-means或DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法得到聚类结果.两步式图聚类的损失函数L=Lrec, 其中Lrec表示重构损失.重构损失衡量输入信息与重构之间的差异, 并通过最小化差异优化图表示学习.
自编码器是经典的重构式图聚类方法, GAE[3]首先将自编码器应用于图结构数据, 通过内积解码器重构图结构以学习图中的结构信息.然而只重构图数据不能充分利用图数据中的属性信息, 节点属性对获得更优的图聚类结果也很重要, GATE[25]同时重构图结构和节点属性, 学习更有益于图聚类的信息, 并采用GAT(Graph Attention Networks)[45]作为编码器, 有选择地聚合节点特征.
总之, GATE通过加入注意力机制有选择地聚合邻居的特征, 提升节点表示学习的效果, 使下游任务受益.虽然相比GAE, GATE效果更优, 但也造成更多的计算成本.因此在实际应用中要权衡聚类效率和性能, GATE更适用于数据集规模较小的场景, 而GAE更适用于数据集规模较大的场景.
两步式图聚类中节点表示并非以聚类任务为导向, 聚类任务也不能优化图表示学习, 从而导致次优的聚类结果.联合优化图聚类在统一框架内同时优化图表示学习和聚类, 实现两个组件间的相互受益.联合优化图聚类的损失函数如下:
L=Lrec+Lc,
其中, Lrec表示重构损失, Lc表示聚类损失.联合优化图聚类通过同时最小化重构损失和聚类损失优化图表示, 学习以聚类任务为导向的图表示, 实现较优的聚类效果.
Wang等[26]提出DAEGC(Deep Attentional Em-bedded Graph Clustering), 在统一框架内联合优化图聚类和节点表示学习, 以聚类任务为导向优化节点表示.此外, 不同于普通图卷积网络(Graph Con-volutional Network, GCN)[46]或GAT仅考虑一阶拓扑距离, DAEGC计算t阶邻接矩阵M, 考虑t阶邻域节点之间的拓扑相关性, 从而聚合更丰富的信息.然而, DAEGC仅采用内积解码器重构邻接矩阵, 忽视节点属性对图表示学习的重要性, 在一定程度上降低聚类性能.Sun等[47]提出DGAE(Dual-Decoder Graph Autoencoder), 使用GCN作为编码器, 使用Inner product解码器重构邻接矩阵, MLP(Multilayer Perceptron)重构属性矩阵, 同时考虑图结构和节点属性对图表示学习的重要性.受益于以往工作[48]的分析, VGAE(Variational Graph Auto-Encoder)[3]的编码器可被解释为一种特殊形式的拉普拉斯平滑.Park等[27]提出GALA(Graph Convolutional Autoen-coder Using Laplacian Smoothing and Sharpening), 采用拉普拉斯平滑作为编码器, 并使用拉普拉斯锐化作为解码器重构节点属性, 实现在编解码过程中同时充分利用图结构和节点属性.然而, 以往方法常使用固定的低阶图卷积, 只考虑每个节点几跳以内的邻域, 未充分利用图的拓扑结构, 为此, Zhang等[28]提出AGC(Adaptive Graph Convolution), 利用高阶图卷积捕获全局聚类信息, 并自适应地为不同的图选择不同阶数, 大量实验分析验证方法的有效性.
一些方法利用非负矩阵分解的思想, 将原始输入投影至一个新的特征空间, 利用投影结果和空间信息重构原数据, 提取高维输入中隐含的模式和结构.为了考虑全局的拓扑结构, Hajiveiseh等[49]提出DAsNMF(Deep Asymmetric Nonnegative Matrix Facto-rization), 组合图的一阶矩阵和二阶矩阵, 作为图的原始输入矩阵, 通过非对称图正则化项重构图结构, 并联合训练表示学习模型和聚类模型.Jannesari等[50]使用非负矩阵分解整合结构和属性信息中的异质信息, 通过对称非负矩阵分解和标准非负矩阵分解对结构空间和属性空间分别去噪, 设计正则化项, 将属性空间的互补信息注入结构空间中, 整合异质信息, 通过正交约束增强聚类结果的可区分性.为了从拓扑结构和节点属性学习更充足的信息, Berahmand等[51]提出WSNMF(Weighted Symmetric Nonnegative Matrix Factorization), 利用属性向量构造相似矩阵, 并集成到目标函数中, 有效混合拓扑信息和属性信息, 此外, 结合图的正则化项和稀疏性约束, 维护数据点的集合结构, 并识别不相关特征和数据异常值.
针对属性缺失的数据, Tu等[52]提出AMGC(Attri-bute-Missing Graph Clustering), 在统一框架中交替推进聚类和数据插补, 使其相互受益, 并通过重构图拓扑结构提升数据插补的质量.Wang等[53]认为现有方法未考虑不同类别大小和密度的差异, 可能会导致聚类准确率较低, 为此提出DAGC(Deep Adap-tive Graph Clustering), 利用图注意力自编码器重构节点属性和图结构, 从vMF(von Mises-Fisher)中提取节点嵌入, 并设计类似EM(Expectation Maximiza-tion)的聚类参数更新策略, 调整指导嵌入学习的混合分布.Zhu等[54]认为现有方法学习单一自监督任务的优势是有限的, 为此提出DyFSS(Dynamically Fusing Self-Supervised Learning), 设计多任务自监督学习属性图框架, 动态融合多个自监督任务学习的特征, 并通过重构拓扑结构和自监督聚类提高融合嵌入的质量.
总之, 由于两步式图聚类不能使学习的图表示向更优的聚类结果优化, 为了弥补这一缺点, 联合优化图聚类在统一框架内同时优化图表示学习和图聚类, 并使两个组件相互受益.相比而言, 两步式图聚类更容易理解和实现, 联合优化图聚类在一定程度上增加时间复杂度, 但聚类效果更优.因此目前主流的聚类方法更偏向于使用联合优化图聚类.
2.1.2 多视图聚类
由于现实世界的复杂性, 通常一个复杂系统内可能会有不同类型的节点或边, 或者一个节点可能包含不同的属性.例如:在论文引用网络中, 节点可以是论文、作者和研究领域, 因此节点之间的关系也相应具有多种类型, 在这种情况下, 单关系单属性的图不能充分表示完整信息.为此, 基于多视图聚类的工作也越来越多.目前基于多视图聚类可分为多关系视图聚类、多属性视图聚类、多关系-属性视图聚类, 分别适用于具有多类型边的图数据、多类型属性的图数据以及同时具有多类型边和多类型属性的图数据.
多关系视图聚类考虑图的拓扑结构的多样性, 即节点之间存在不同类型的边.Qu等[55]提出MVE(Multi-view Network), 首先学习特定于某个视图的节点表示, 再投票选出效果最优的最终表示.Liu等[56]提出MultiNMF(Multi-view Nonnegative Matrix Factorization), 在多视图上进行非负矩阵分解, 得到聚类结果.文献[57]通过低秩矩阵分解得到聚类结果, 文献[58]提出基于二部图的多视图谱聚类.
然而, 上述方法都是基于传统机器学习的方法, 不能深度挖掘图中的聚类信息.随着深度学习的发展, 基于深度学习的多视图聚类也越来越多.Fan等[59]提出O2MAC(One2Multi Graph Autoencoder for Multi-view Graph Clustering ), 是第一个使用图自编码器进行多视图聚类的方法, 但只对多视图中的一个视图进行编码得到图表示, 基于图表示对所有视图进行解码.尽管O2MAC在多视图聚类中是开创性的工作, 但未充分利用多视图信息, 只编码一个视图的信息而忽略其它信息, 本质上还是一种单视图的方法.此后, Sun等[30]提出A2AE(All-to-All Graph Autoencoder), 对所有视图进行编码, 并采用注意力机制有选择地融合特定于视图的节点表示, 得到统一的节点表示, 并在统一框架内联合优化多视图表示学习和图聚类, 大量实验表明该方法的有效性.
尽管多关系视图聚类取得优秀性能, 但在探索多视图聚类的过程中也不应忽略属性的多样性.Cheng等[29]提出MAGCN(Multi-view Attribute Graph Convolution Networks), 使用多视图属性图注意力网络学习图数据, 并使用一致性编码器捕捉不同视图间的几何关系和概率分布的一致性, 自适应地为多视图节点属性和结构寻找一致性的聚类嵌入空间.此外, Xia等[60]提出SGCMC(Self-Supervised Graph Convolutional Network for Multi-view Clustering), 利用欧拉变换提取非线性特征作为新的属性视图, 并利用预测聚类标签指导节点表示学习和系数矩阵学习, 通过聚类和表示学习的相互优化实现聚类效果的提升.
Zhou等[61]提出MAGAF(Multi-view Attributed Graph Clustering Based on Graph Diffusion Convolution with Adaptive Fusion):利用图扩散卷积捕捉高阶邻域特征; 利用注意力机制学习不同属性视图的权重, 自适应融合多个视图; 利用一致性信息学习模块捕获不同视图的几何关系一致性, 学习一致的嵌入空间.
多关系-属性视图聚类同时考虑关系和属性的多样性, 可处理更复杂的图数据.Lin等[62]提出MvAGC(Multi-view Attributed Graph Clustering), 同时利用多关系视图和多属性视图, 即同时考虑关系多样性和属性多样性, 此外, MvAGC利用自表达探索全局结构并包含二阶邻域信息, 使其在具有复杂拓扑结构的数据集上时优势更明显.Liu等[63]提出DMVGC(GCN-Based Deep Multi-view Graph Clustering Network with Weighting Mechanism and Collaborative Training), 由多个视图特定的图编码器和一个统一的图解码器组成, 在解码器上构造具有注意力机制的重构损失, 在视图特定的嵌入和公共嵌入上进行协同自训练聚类, 保证不同视图聚类结果的对齐.Chen等[64]提出VGMGC(Variational Graph Generator for Multiview Graph Clustering), 利用变分图生成器推断共识图, 并通过无参数的消息传递方式将共识图和特定视图的图嵌入节点表示中, 通过重构多关系和多属性学习节点表示, 在统一框架内同时优化重构和聚类损失.
Wen等[65]认为现有大多数属性图聚类方法仅适用于同配图(Homophilous Graph), 即相连节点倾向于属于同类, 然而现实世界中的图数据往往难以满足同配性假设.他们认为传统的GNNs只保留图的低频(局部相似性)信息, 滤除图中的高频(全局差异性)信息, 导致其在异配图(Heterophilous Gra-ph, 即相连的节点可能属于不同类别)上性能不佳.为此, 提出AHGFC(Adaptive Hybrid Graph Filter for Multi-view Graph Clustering), 充分融合低频信号与高频信号, 学习更具区分度的节点嵌入, 通过图联合聚合构建增强低频信号和高频信号区分度的聚合矩阵, 代替传统邻接矩阵, 并设计自适应混合图滤波器, 根据图的同配性程度动态调整滤波器参数, 挖掘低频信息和高频信息, 学习更具判别性的节点表示, 并通过重构输入和自监督训练优化节点表示.
2.1.3 小结
重构式图聚类在图聚类领域取得显著成果, 也表现出巨大潜力.单视图聚类和多视图聚类分别适用不同的应用场景, 当图中关系和节点属性都是单一类型时, 单视图聚类效率较高, 但当图中关系类型或节点属性具有多种类型时, 单视图聚类不具有表征多种信息源的能力, 而多视图聚类能表征复杂网络, 融合不同视图的信息, 得到更丰富的图表示, 使聚类任务受益.但是, 多视图聚类在融合过程中需要考虑不同视图之间的一致性和互补信息, 适用更复杂场景的同时也会消耗更多的计算成本.
总之, 重构式图聚类能挖掘节点内的精细信息, 促进聚类效果的提升, 在多视图场景中取得较优性能, 但这类方法目前只利用重构邻域信息学习节点之间显式连接, 忽略节点之间隐式且有意义的关系.
对比式图聚类旨在利用图数据之间的信息作为中心, 并通过样本之间隐式但有意义的关系构建自监督信息.对比学习将相似样本推近、不相似样本推开以提高特征的判别性, 这在本质上有利于实现聚类目标.
对比式图聚类通过数据增强构建另一个视图, 使用编码器将两个视图的输入分别映射至嵌入空间中, 再通过对比损失函数引导正样本相互靠近、负样本相互远离, 融合来自两个视图的节点表示并使用聚类算法将节点分组到不同类中.
现有很多对比学习方法依赖数据增强, 然而不合适的数据增强会导致语义偏移, 如在蛋白质网络中, 增加或删除边可能改变分子结构.此外, Wang等[66]指出, 数据增强很大程度上依赖于图数据的同配性, 但不适用于异配图.因此, 一些不使用数据增强的方法相继被提出.通常来说, 非数据增强的对比式图聚类通过两个编码器生成替代视图.
由于对比式图聚类的大部分工作都集中在单视图中, 因此本节依据是否使用数据增强进行分类, 即将对比式图聚类分为基于数据增强的对比式图聚类和基于非数据增强的对比式图聚类.
2.2.1 基于数据增强的对比式图聚类
基于数据增强的对比式图聚类流程如图4所示.学习在原始图和增强图之间不变的节点表示.
数据增强的一般方式有如下3种:属性遮挡、添加或删除边和图扩散.属性遮挡指随机遮挡节点属性的一部分.添加或删除边指随机添加或删除原始图的一部分边.图扩散指通过图扩散重建高阶邻域之间连续的关系, 生成新的图.Hassani等[31]提出Contrastive Multi-view Representation Learning on Gra-phs, 利用图扩散卷积生成结构增强视图, 并通过视图级对比和节点级对比优化图表示学习.Gong等[32]认为对比学习侧重于最大化具有不同增强视图的同一实例表示之间的互信息(Infomax), 但Infomax操作存在捕获无关信息的风险, 可能会导致次优的节点表示, 为此提出AGC-DRR(Attributed Graph Clustering with Dual Redundancy Reduction), 同时减少输入空间和潜在特征空间的信息冗余.AGC-DRR引入对抗学习机制, 自适应学习冗余边去除矩阵, 减少输入空间冗余, 并强制跨视图嵌入的相关矩阵近似于单位矩阵, 减少潜在特征空间的冗余. Ahmadi等[67]提出GMIM(Gaussian Mixtures Informa-tion Maximization), 利用图扩散卷积生成增强视图, 施加高斯混合分布, 使嵌入空间更适合聚类, 并在统一框架下联合优化对比模型和混合分布的参数.
上述方法对输入图采用随机增广, 获得两个视图并最大化两个视图中的一致性.然而, 图的增强方案是图对比学习的重要组成部分, 不合适的数据增强会限制图对比学习的性能.为此, Zhu等[33]结合图的拓扑结构和语义信息, 提出GCA(Deep Graph Con-trastive Representation Learning with Adaptive Augmentation):对于图的拓扑结构, 使用基于节点中心性度量的增强方案; 对于节点属性, 在不重要的节点属性上添加噪声破坏特征, 强制模型识别底层语义信息.
2.2.2 非数据增强的对比式图聚类
非数据增强的对比式图聚类一般通过生成替代视图避免数据增强, 具体流程图如图5所示.
Lee等[68]提出AFGRL(Augmentation-Free Graph Representation Learning), 不需要增强技术, 也不需要负样本学习图的表示, 而是发现与图共享局部结构信息和全局语义的节点, 生成图的替代视图.同时, Yang等[69]指出目前生成样本对的方法都集中在增强或扰动图结构上, 以获得输入图的不同视图, 但这种策略可能会在图中添加噪声以降低性能, 这可能缩小图对比学习的应用范围, 为此提出DSGC(Dual Space Graph Contrastive), 在双曲空间、欧几里得空间等不同空间中生成的视图之间进行图对比学习, 从而利用不同空间之间的对比学习优势.不同于基于典型GNNs的工作, Kulatilleke等[70]认为传统GNNs存在过度平滑、噪声、异质性、计算成本过高的问题, 为此提出SCGC* (Self-Supervised Contrastive Graph Clustering), 使用简单的线性单元, 通过对比损失信息施加图结构, 学习具有判别性的节点表示和迭代改进的软聚类标签.与之类似, Liu等[71]提出SCGC(Simple Contrastive Graph Clustering), 同样采用多层感知机(MLP)作为编码器.SCGC包含两个主要部分:预处理阶段和网络骨干.SCGC使用简单的低通去噪操作聚合邻居信息, 作为一个独立的预处理, 并使用两个参数非共享的多层感知机作为主干.同样, SCGC未使用复杂的数据增强, 而是在其中一个编码器添加高斯噪声, 直接干扰节点嵌入以构造同一节点的两个增强视图, 并采用新的跨视图结构一致性目标函数提高网络的判别能力.在SCGC的基础上, Wu等[72]提出CGCFS(Contrastive Graph Clu-stering Algorithm Based on Feature and Structural Em-bedding Fusion), 对同一特征采用不同的处理方式, 生成多特征视图, 对每个特征视图采用结构一致性目标函数进行约束, 并融合每个特征视图的对比自监督信息以增强网络的判别能力.Yang等[73]认为目前图对比学习的工作忽略重要的聚类信息, 导致聚类效果次优, 为了解决这一问题, 提出CCGC(Cluster-Guided Contrastive Deep Graph Clustering Net-work), 利用以聚类为导向的损失函数约束图表示学习, 挖掘高置信度聚类结果中的内在监督信息, 获得更优的聚类效果.
MCGC(Multi-view Contrastive Graph Clustering)[74]和HeCo(Heterogeneous Graph Neural Network with Co-contrastive Learning)[75]分别将对比学习应用到多视图聚类和异构图学习中.不同于以往的方法在两个视图的节点表示之间构建正/负对, MCGC将每个节点与其k近邻视为正对.具体而言, MCGC框架包含图过滤、图学习和图对比组件, 使用图过滤生成光滑的表示, 图学习利用节点属性和图结构信息学习共识图, 图对比使用对比损失作为正则化, 使学习的共识图有益于聚类.不同于传统对比学习只注重正负样本的对比, HeCo通过跨视图对比学习实现交叉视图对比, 使用网络模式视图和元路径视图学习节点表示, 并同时捕获局部结构和高阶结构.
上述方法在自监督图聚类领域取得较大进展, 但未区分不同样本的关注程度.在模型训练过程中若对难以学习的样本赋予更多的关注, 同时对简单样本适当降低关注, 有益于图表示的学习.以往的方法, 如ProGCL[76]只关注难负样本, 忽略难正样本的代表性.Liu等[77]指出具有相同类别但相似性较小的样本也应分配更多的权重仔细学习, 因此提出HSAN(Hard Sample Aware Network), 同时利用属性相似度和结构相似度的可学习线性组合计算样本的相似度, 再采用自适应样本加权函数, 根据样本的相似度调整正、负样本对的权重, 引导网络更多地关注难正样本和难负样本, 进一步提升聚类性能.
尽管上述方法自监督能力都较优, 但都需要预定义的类别个数才能进行聚类, 不能应用于纯无监督的环境.Zhao等[78]提出PADGC(Parameter-Agno-stic Deep Graph Clustering Method), 主要分为K引导聚类和拓扑层次推理两个模块.K引导聚类交替优化对比学习损失和聚类对齐损失, 得到具有聚类判别性的节点表示.拓扑层次推理分裂分散簇和合并耦合簇, 动态调整预测的类别个数K.在训练过程中, K引导聚类在最新生成的K值下生成聚类分布, 拓扑层次推理通过这些聚类分布制定并执行分裂和合并决策, 从而调整K值.通过迭代优化上述两个模块, 生成收敛的K值和相应的聚类分配.
2.2.3 小结
对比式图聚类具有优秀的自监督学习能力.基于数据增强对比式图聚类建立新的视图并进行对比学习, 是早期对比式图聚类广泛使用的方法之一, 但复杂的数据增强会限制图表示学习的能力, 为此学者们提出非数据增强的对比式图聚类.此外, 为了使模型更关注难以学习的样本, 近期工作开始为难样本赋予更多权重以提升模型的判别能力, 实现更优的聚类效果.但这些方法都需要预定义类别个数, 为此学者们提出无参数的方法, 用于纯无监督的环境中.
总之, 对比式图聚类训练稳定, 可有效利用节点之间隐式的关联关系促进聚类效果的提升, 但对比学习对不同对比视图的质量较敏感.此外, 面向无参数场景的对比式图聚类更适合于分类平衡的数据集, 在分类不平衡的数据集上, 相比现有的属性图聚类, 聚类效果仍有一定差距, 因此无参数对比式图聚类在分类不平衡数据集上仍有进步空间.
对抗式图聚类通过生成和鉴别建立自监督信息.具体而言, 对抗式图聚类引入生成器和鉴别器, 提高表示学习的质量.通过训练鉴别器, 识别学习的特征是否来自真实的数据分布, 而生成器生成具有迷惑性的嵌入欺骗鉴别器.对抗式图聚类的通用流程图如图6所示, 生成器将输入编码成节点表示, 而鉴别器识别当前数据是节点表示还是噪声数据, 通过生成器和鉴别器之间的对抗训练不断优化节点表示学习, 并对节点表示使用聚类算法, 得到聚类结果.
Pan等[79]认为大多数重构式图聚类忽略潜在代码的数据分布, 在一定程度上导致生成图表示的质量较差, 为此, 提出ARGA(Adversarially Regularized Graph Autoencoder)和ARVGA(Adversarially Regula-rized Variational Graph Autoencoder), 不仅重构拓扑结构, 还进一步采用对抗训练规范化潜在表示以学习鲁棒的图表示.对抗训练模块的目的是区分目前的潜在表示来自实际的先验分布还是图自编码器.ARGA在一个联合框架内同时优化图自编码器学习和对抗正则化, 并使两个组件彼此受益, 实现更好的图表示学习.与其相似, Gao等[80]认为不同节点之间的邻近性是学习良好节点表示的关键, 提出ProGAN(Proximity Generative Adversarial Network), 利用生成对抗网络生成邻近性节点, 发现不同节点之间潜在的复杂信息, 保留真实的邻近性和生成的邻近性, 生成质量更高的节点表示.Jia等[81]提出CommunityGAN(Community Detection with Generative Adversarial Nets), 通过生成对抗网络优化图表示学习, 通过生成器和鉴别器提升性能, 并输出更好的社区结构.为了考虑高阶邻域信息, Wang等[82]提出CANE(Community-Aware Network Embedding via Ad-versarial Training), 利用对抗学习框架, 联合学习网络嵌入和社区检测, 利用检测的社区结构, 将全局结构信息融入节点表示中, 提高检测准确性.
对抗式图聚类通过生成器和鉴别器之间的对抗性训练生成自监督信息, 引导网络生成更具判别性的图表示以改善聚类性能.对抗式图聚类能生成质量更高的样本, 但缺点是训练不稳定, 当生成器开始产生有限类型的输出, 却忽略数据分布的多样性时, 会发生模式崩溃, 而如何设计生成器、鉴别器、噪声和判别损失函数是改善对抗式图聚类性能的关键难点.
混合式图聚类结合不同学习范式建立互补的自监督信息进行图表示学习, 获得较优的聚类效果.
Pan等[79]提出ARGA, 同时结合重构和对抗的学习范式, 验证重构和对抗结合的有效性.Gong等[32]提出AGC-DRR, 结合对抗和对比的学习范式, 利用对抗学习减少冗余, 并利用对比学习优化聚类子网, 获得较优的聚类结果.
Wang等[83]提出NCAGC(Neighborhood Contrast Framework for Attributed Graph Clustering), 采用邻域对比模块增强节点表示的学习, 同时重构属性矩阵和邻接矩阵.Cui等[84]提出DMCAG(Deep Multi-view Subspace Clustering with Anchor Graph), 结合重构和对比的学习范式, 利用基于对比学习的标签一致性策略提升聚类性能, 并采用重构属性矩阵的方式, 有效编码图的节点属性信息.Liu等[85]提出DCRN(Dual Correlation Reduction Network), 同样结合重构和对比的学习范式, 并通过样本级相关性降低和特征级相关性降低, 降低冗余信息, 提升模型聚类性能.Lin等[86]提出DIAGC(Dual Information En- hanced Multiview Attributed Graph Clustering), 结合对比和重构的思想, 应用于多关系图聚类, 利用信息重构从多视图中分离共识信息和特定信息, 利用对比学习最大化潜在高阶表示和低阶表示之间的一致性, 并结合自监督聚类, 使高阶表示更适用于聚类.此外, Li等[87]提出MVCG(Mutual-View Contrastive Generative Framework), 结合对比学习和重构学习, 分别构建两个模块, 对比聚类细化模块利用对比学习优化嵌入插补和聚类, 非对称生成机制用于重构拓扑结构和节点属性.MVCG结合两个模块, 处理缺失属性, 并保持稳健的聚类能力.
Xu等[88]提出GEC-CSD(Graph Embedding Clu- stering: Graph Attention Auto-Encoder with Cluster-Specificity Distribution), 同时结合对抗和重构的学习范式, 采用联合框架优化节点表示学习和聚类, 采用L1和L2范数惩罚约束节点表示, 使其具有聚类特异性分布约束.
上述工作证实结合不同学习范式对优化图表示学习的有效性.不同的学习范式具有不同的优缺点:重构学习能利用数据内的信息, 但忽略数据之间复杂的语义关系; 对比学习训练相对稳定, 但对对比视图较敏感; 对抗学习能生成高质量样本, 但训练不稳定, 容易发生模式崩溃.虽然混合式图聚类结合不同的学习范式, 弥补不同学习范式的缺陷, 建立互补的自监督信息, 获得质量更优的图表示, 但结合不同学习范式会导致模型架构较复杂, 如何设计合理的架构, 融合有益的自监督信息, 仍是一个具有挑战性的任务.
为了对比不同图聚类方法的聚类效果, 分别选取单关系数据集上的论文引用数据集Cora、Citeseer和航空交通网络数据集BAT、EAT、UAT, 以及多关系数据集上的ACM、DBLP数据集进行实验对比.采用ACC、NMI、ARI、F1作为评价指标, 指标值越高表示方法聚类效果越优.
各图聚类方法在单关系论文引用数据集上的指标值对比如表3所示, 表中黑体数字表示最优值, 斜体数字表示次优值.由表可得如下结论.
![]() | 表3 各方法在单关系论文引用数据集上的聚类效果对比 Table 3 Clustering result comparison of different methods on single-relation citation datasets % |
1)在所有方法中, 对比式图聚类在单关系数据集上表现出绝对优势.Cora数据集上所有指标最优值以及Citeseer数据集上ACC、ARI指标最优值都集中在对比式图聚类上.特别是在Cora数据集上, HSAN的ACC、ARI和F1值分别超过其它方法0.67%~33.69%、0.56%~41.09%、2.38%~41.63%, 这表明利用样本之间潜在关系可提升图聚类的有效性.值得注意的是, 混合式图聚类也表现出一定优势, 在Cora、Citeseer数据集上达到次优的ACC 值, 并且在Citeseer数据集上取得最优的F1值.GEC-CSD在Cora数据集上的NMI值和在Citeseer数据集上的ACC值都是次优, 这表明结合对抗学习和重构学习优化图表示学习的有效性.DCRN在Citeseer数据集上的F1值最优, 这表明结合对比学习和重构学习范式建立互补的自监督信息对图表示学习和图聚类的有效性.
2)在重构式图聚类中, 多视图聚类表现出优越性.相比其它重构式图聚类, SGCMC在Cora数据集上3个指标值都达到最优, ACC、NMI和ARI值分别要超过其它重构式图聚类方法0.90%~32.62%、0.20%~31.22%、0.20%~36.97%.MAGAF在Cite-seer数据集上ACC、NMI值达到最优, 分别超过其它重构式图聚类方法1.70%~31.12%、1.80%~36.49%.这表明多视图聚类可融合不同视图的信息, 学习更丰富的图表示, 更有益于聚类任务.同时在单视图方法中可看到, 联合优化图聚类DAEGC和AGC要明显优于两步式图聚类, 这也证实联合优化图表示学习和图聚类可使学习的节点表示更利于聚类任务.
3)在对比式图聚类中, 非数据增强的对比式图聚类效果更优.例如:SCGC* 在Citeseer数据集上ACC、ARI值达到最优; HSAN在Cora数据集上ACC、ARI、F1值达到最优.这表明非数据增强方式在一定程度上可弥补数据增强的局限性.此外, 相比其它对比式图聚类, HSAN更关注正样本对和负样本对中难以学习的样本, 这也表明在对比学习中对难样本予以关注的重要性.
各方法在单关系航空交通网络数据集上的聚类效果对比如表4所示, 表中黑体数字表示最优值, 斜体数字表示次优值.
![]() | 表4 各方法在单关系航空交通网络数据集上的聚类效果对比 Table 4 Clustering result comparison of different methods on single-relation air traffic network datasets % |
相比其它数据集, 航空交通网络数据集上拓扑结构更复杂, 因此能验证图聚类方法应用在拓扑结构复杂的真实场景中的效果.由表4可得到如下结论.
1)对比所有方法发现, 对比式图聚类仍然表现出最优的聚类效果, 在3个数据集上的最优值和次优值都集中在对比式图聚类中.CGCFS在BAT数据集上的ACC、NMI、ARI、F1值分别高于其它对比方法2.41%~42.82%、3.42%~41.80%、3.55%~50.77%、4.06%~52.45%, 这说明对比学习在拓扑结构复杂的数据集上也能挖掘样本之间的紧密联系, 得到更优的聚类效果.
2)在重构式图聚类中, 在BAT、EAT数据集上, GAE的聚类效果优于DAEGC, 而DAEGC在论文引用数据集上表现更优.这是因为BAT、EAT数据集的规模较小, 而DAEGC采用的注意力机制会增加复杂度, 在数据量有限时, 不能支持模型学习足够通用的模式.
3)在对比式图聚类中, CGCFS在3个数据集上的大部分指标值都达到最优, 这是因为航空交通网络数据集具有更复杂的拓扑结构, 而CGCFS采用结构一致性目标函数约束对比学习, 使其更关注拓扑结构的信息, 从而更适用于拓扑结构复杂的数据集.
各方法在多关系数据集上的聚类效果对比如表5所示, 表中黑体数字表示最优值, 斜体数字表示次优值.由表可得如下结论.
![]() | 表5 各方法在多关系数据集上的聚类效果对比 Table 5 Clustering result comparison of different methods on multi-relation datasets % |
1)在所有方法中, 重构式图聚类在多关系数据集上表现较优.在ACM数据集上VGMGC的ACC、NMI、ARI、F1值达到最优, 分别高于其它对比方法1.21%~11.44%、2.74%~27.16%、3.09%~27.46%、1.17%~11.35%, 在DBLP数据集上, VGMGC的ACC、ARI、F1值达到最优, 分别高于其它对比方法0.13%~11.74%、0.40%~25.42%、0.10%~12.60%.这是因为VGMGC利用多个图之间的共识图以及特定于视图的特征信息, 从而有效利用多视图嵌入丰富的语义.A2AE在2个数据集上7个指标值达到次优, 这是因为A2AE使用注意力机制自适应学习不同视图的语义信息, 并在联合框架内同时优化图表示学习和图聚类, 使其表现出聚类的优势.
2)在重构式图聚类中, 多视图聚类性能要优于单视图聚类, 这与在单关系数据集上得到的结论一致, 说明利用多视图嵌入更丰富的信息对聚类任务有益.
3)对比式图聚类在多关系数据集上表现次优.对比学习虽然在单关系数据集上的优势明显, 但应用于多视图聚类的工作却相对较少, 如何有效结合对比学习与多视图聚类是一个重要的研究方向.
由于图结构数据强大的信息表征能力, 深度图聚类在现实生活中的应用前景非常广阔, 具体应用包括推荐系统、社区检测、欺诈检测等.同样, 深度图聚类蓬勃发展的同时也面临许多挑战.
与深度图像数据类似, 深度图聚类也可能会受到噪声和不完整数据的影响, 图结构数据的噪声主要来自节点和边.节点属性和边可能会包含错误信息或不完整信息, 而消息传递的过程会导致错误信息的传播, 造成次优的图表示学习.因此, 方法需要具备对这些问题的鲁棒性, 保证在实际应用中的有效性.
针对这一挑战, AGC-DRR[32]引入对抗学习机制, 降低输入空间的信息冗余, 并强制使跨视图嵌入的相关矩阵近似于单位矩阵, 从而降低潜在特征空间的噪声.Do 等[89]提出K-pooling GAE, 能有效恢复有噪声的图结构信息.
由于现实世界实体以及实体之间关系的复杂性, 往往存在性质不同的节点以及节点之间存在不同类型的边, 因此, 为了全面表征信息, 基于异构图的表示学习也是一个值得的研究方向.然而, 由于异构图的复杂性, 图表示学习如何全面表征丰富的信息是一个挑战.为此, 多视图聚类[30, 64]旨在融合来自不同视图的信息, 编码更丰富的图表示.然而, 这些方法仅考虑多关系或多属性的一方面, 同时利用异构图的多关系和多属性信息的方法仍很少, 但多关系和多属性包含有益于聚类的信息.
一些方法[61, 62, 63, 64, 65]同时利用多关系和多属性进行聚类, 生成具有更丰富信息的图表示, 优化聚类效果.这些工作为异构图聚类带来开创性的进展, 但如何有效融合多关系视图和多属性视图中的一致性信息和互补性信息仍是具有挑战性的任务.此外, 目前利用对比学习进行多视图聚类的工作仍较少, 但它具有强大的自监督能力, 因此, 未来结合对比学习与多视图聚类仍是可行的研究方向之一.
在实际应用中, 图规模可能非常大, 包含大量节点和边, 处理大规模图数据时, 需要考虑计算和内存资源的限制, 基于传统GNNs的方法由于其复杂性限制图聚类处理大规模图数据的性能.此外, 较高时间复杂度导致高额的计算成本, 也会限制图聚类在现实场景中的应用.
近年来基于简单图的聚类方法由于其简单高效的特性也表现出一定优势.一般而言, 这些方法利用MLP作为编码器提取特征, MLP高效的特点使其在处理大规模图数据时表现出更强的适应性.此外, 相对于在大规模图数据上直接聚类, MGAE(Margina-lized Graph Autoencoder)[90]通过数据压缩, 可避免不良影响和高额的计算成本.
深度图聚类能挖掘数据中的潜在结构和关系模式, 在现实场景中应用广泛, 如自然语言处理、计算机视觉、社交网络分析、生物信息学等.
在自然语言处理领域, 文档挖掘[91]、语音分离[92]和大语言模型[93]都是深度图聚类重要的应用.在计算机视觉领域, 现有研究利用深度图聚类进行人脸聚类[94]、视频分析[95]等.
深度图聚类对社交网络分析也至关重要, 图聚类能聚集联系紧密的节点, 减少不同组之间的节点联系, 这种能挖掘图中固有关系模式和社区结构的特性, 使其自然适用于社区检测[50, 67, 96, 97]和异常检测[98, 99, 100].同样, 深度图聚类也在推荐系统[101]中具有广泛应用, 通过图聚类挖掘社交网络中的社区结构, 将具有相似品味和行为的用户分组在一起, 从而实现个性化定向推荐.此外深度图聚类还用于用户意图提取[102].
深度图聚类在生物信息学的应用包括分子挖掘[103]、宏基因组分箱[104]和单细胞RNA测序[105]等.Grunig等[103]通过对血浆生物标志物数据进行分层聚类, 识别WTC(9· 11恐怖事件袭击)幸存者中的异质性群体, 挖掘与WTC暴露相关的潜在生物标志物模式.在宏基因组分箱[104]中, 通过对DNA子序列进行聚类分析, 将其归并到不同的组中, 确定这些基因组所属的微生物种类.单细胞RNA测序[105]构建细胞图, 保留细胞的特征及拓扑结构关系, 通过细胞进行聚类分析, 推动单细胞数据分析领域的发展.
总之, 深度图聚类已在现实场景中发挥关键作用, 助力攻克不同领域的难题, 因其强大的数据分析能力, 在未来可应用于更多重要且影响深远的领域.
针对图聚类领域缺少综述的问题, 本文对深度图聚类进行全面综述.首先, 介绍深度图聚类的基本概念和公式化定义、通用的评价指标以及实验数据集.然后, 根据不同的学习范式将图聚类分为重构式图聚类、对比式图聚类、对抗式图聚类和混合式图聚类, 其中重构式图聚类又分为单视图聚类和多视图聚类, 对比式图聚类分为基于数据增强的对比式图聚类和非数据增强的对比式图聚类.为了有效对比不同方法的优劣, 分别在单关系数据集和多关系数据集上进行聚类效果对比分析.最后, 总结图聚类领域的挑战和未来研究方向, 介绍深度图聚类在不同领域的应用.
深度图聚类通过运用不同的学习范式挖掘图中的隐藏结构和关系模式, 其中, 对比式图聚类在单关系数据集上具有聚类优势, 而重构式图聚类在多关系数据集上表现更优.今后, 深度图聚类研究有望产生更多突破, 更好表征并分析现实场景中的复杂系统, 取得更深远的影响.
本文责任编委 杨 明
Recommended by Associate Editor YANG Ming
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|
[51] |
|
[52] |
|
[53] |
|
[54] |
|
[55] |
|
[56] |
|
[57] |
|
[58] |
|
[59] |
|
[60] |
|
[61] |
|
[62] |
|
[63] |
|
[64] |
|
[65] |
|
[66] |
|
[67] |
|
[68] |
|
[69] |
|
[70] |
|
[71] |
|
[72] |
|
[73] |
|
[74] |
|
[75] |
|
[76] |
|
[77] |
|
[78] |
|
[79] |
|
[80] |
|
[81] |
|
[82] |
|
[83] |
|
[84] |
|
[85] |
|
[86] |
|
[87] |
|
[88] |
|
[89] |
|
[90] |
|
[91] |
|
[92] |
|
[93] |
|
[94] |
|
[95] |
|
[96] |
|
[97] |
|
[98] |
|
[99] |
|
[100] |
|
[101] |
|
[102] |
|
[103] |
|
[104] |
|
[105] |
|