Processing math: 100%
基于节点表示和子图结构的动态网络链接预测
郝宵荣1, 王莉1, 廉涛1
1.太原理工大学 大数据学院 晋中 030600
通信作者:

王 莉,博士,教授,主要研究方向为大数据计算与分析、知识图谱、数据挖掘等.E-mail:wangli@tyut.edu.cn.

作者简介

郝宵荣,硕士研究生,主要研究方向为动态网络链接预测、知识表示学习等.E-mail:hxrongong@163.com.

廉 涛,博士,讲师,主要研究方向为推荐系统、数据挖掘.E-mail:liantao@tyut.edu.cn.

摘要

动态链接预测的关键是建模网络动态性和抽取局部结构特征.为此,文中提出基于节点表示和子图结构的动态链接预测方法.为了建模节点的动态演化特性,引入节点向量模型,按序拼接各个历史快照的节点表示.为了建模链接的局部子图结构信息,引入图同构算法,编码局部子图的拓扑结构.最终目标链接的特征表示融合每个历史快照中目标节点对的向量表征和局部子图的拓扑结构.实验表明文中方法性能较优.

关键词: 动态网络; 链接预测; 节点表示; 子图结构
中图分类号:TP 393.09
Dynamic Network Link Prediction Based on Node Representation and Subgraph Structure
HAO Xiaorong1, WANG Li1, LIAN Tao1
1.College of Data Science, Taiyuan University of Technology, Jinzhong 030600
Corresponding author:
WANG Li, Ph.D., professor. Her research interests include big data computation and analysis, knowledge graph and data mining.

AboutAuhtor:
HAO Xiaorong, master student. Her research interests include dynamic network link prediction and knowledge representation lear-ning.
LIAN Tao, Ph.D., lecturer. His research interests include recommendation system and data mining.

Abstract

The key to dynamic link prediction is modeling network dynamics and extracting local structural features. Therefore, a method for dynamic network link prediction based on node representation and subgraph structure is proposed. To model node evolution dynamics, the node2vec model is introduced, and the node representations in historical snapshots are concatenated in temporal order. To model the local subgraph structure information, a graph isomorphism algorithm is employed to encode the topology structure of the local subgraph. In each historical snapshot, the node vectors of the target node pair and the topology structure of the local subgraph are fused by the ultimate feature representation of the target link. Extensive experiments demonstrate that the proposed method achieves better performance.

Key words: Key Words Dynamic Network; Link Prediction; Node Representation; Subgraph Structure

本文责任编委 陈恩红

Recommended by Associate Editor CHEN Enhong

链接预测作为网络数据挖掘中的一个重要研究课题, 具有广泛的应用价值.例如, 在社交网络中, 链接预测根据用户之间的属性信息等为用户合理推荐好友; 在信息检索领域中, 链接预测通过分析用户查询的内容, 为用户推荐与查询内容相关的搜索结果[1].在知识图谱中, 链接预测可发现和补全知识图谱中的缺失信息.

目前, 学者们主要集中研究静态网络的链接预测, 本质是要判断网络中两个节点之间关系存在的可能性, 即是否存在缺失链接和未来产生的链接.传统的链接预测方法主要基于相似性度量的方法.该方法判断网络中节点对的相似性, 相似性越高, 节点对之间越容易有连接关系[2].伴随而来的是各种相似性指标的提出, 包括基于局部信息的相似性指标[3, 4, 5]、基于路径的相似性指标[6]及基于随机游走的相似性指标[7].这些算法容易实现, 获得良好的链接预测效果.但由于各种相似性指标在不同的数据集中表现效果不同, 需要根据不同网络指定不同相似性指标并进行链接预测.

随着深度学习的快速发展, 人们开始表征网络的特征, 希望从网络本身自动学习这些启发式特征.Perozzi等[8]提出深度游走模型(DeepWalk), 将结点看作单词, 将网络上进行随机游走生成的节点序列看成句子, 并应用神经网络语言模型获得网络的表示特征.Grover等[9]提出节点向量模型(Node2vec), 改进DeepWalk的随机游走方式, 增加参数pq, 使随机游走选择的节点具有偏向性, 同时具备深度优先遍历和广度优先遍历两种采样特性, 因此获得更有效的节点表示.对于得到的节点表示, 可采用不同方式构建链接表示, 通过分类实现链接预测.Zhang等[10]提出WLNM(Weisfeiler Lehman Neural Machine), 首先抽取链接周围的局部子图, 为方便度量网络中不同局部子图的相似性, 对局部子图进行重新编码.再获取局部子图的邻接矩阵, 取邻接矩阵的上三角元素作为链接的表征向量, 输入神经网络中, 学习链接预测模型, 在多种实验数据集上获得较精确的链接预测结果.

上述工作主要考虑静态网络中的链接预测.现实生活中的网络(如社交网络)常会因为新的实体(用户)和链接(关系)的加入与消失导致网络的拓扑结构不断演化.一个动态演变的网络可看作是多个不同时间段的网络快照组成.动态网络链接预测旨在通过网络的历史信息预测未来时刻链接发生的变化.现有工作大多从以下两方面进行建模:1)直接建模网络中链接的时序变化信息, 用于预测下一时刻链接可能出现的概率; 2)将网络视为不同的快照, 根据历史快照变化预测未来时刻网络的链接状态.

早期的动态网络链接预测主要基于第1)种方式实现.学者们基于相似性指标(如共同邻居)计算历史时间片中节点对的相似性分数, 输入时序预测模型中, 预测未来时刻节点对的相似性分数, 分数越高, 形成链接的可能性越大[11].为了获取更高的准确率, 学者们进一步融入链接变化的频率改进相似性分数[12], 也有学者进一步改进时序预测模型[13].网络表征学习的发展进一步挖掘基于节点表征进行链接预测的能力.Nguyen等[14]通过随机游走, 按边的时间戳大小选择时序递增的节点, 得到随机游走的路径后, 采用词向量模型中的skip-gram模型, 优化得到节点的表示向量, 最后融合节点的表示形成边的表示以进行分类预测.

与直接建模需要预测的动态链接关系不同, 第2)种方式按照固定的时间窗口将动态网络划分成多个快照, 处理历史快照信息, 预测下一个时间片网络的链接状态.Ahmed等[15]基于矩阵分解的方法, 将动态网络按时间顺序划分成多个静态时间片网络, 每个时间片网络表示为邻接矩阵, 提出同时考虑动态网络的时序信息和结构信息的迭代规则, 获得较高的预测结果.然而, 基于矩阵分解的动态网络链接预测时间复杂度较高, 不适用于大规模动态网络数据.基于机器学习的方法, 通过提取网络数据的特征, 从一定程度上减少算法运行的时间复杂度.de Winter等[16]利用node2vec得到每个时间片中节点的向量表示, 并将同一节点在各个历史时间片的向量表示进行拼接, 然后取两个节点的历史表征向量的元素对应乘积作为预测快照的链接表征向量, 输入到分类器中进行链接预测.

近年来, 长短期记忆网络(Long Short-Term Me-mory, LSTM)[17]和门控循环单元(Gated Recurrent Unit, GRU)[18]等循环神经网络被用于建模网络的演变特征.Goyal等[19]提出动态图表征模型(Dyngraph2vec), 将历史快照的邻接矩阵通过编码器编码得到表征向量, 输入LSTM网络中, 将预测得到的最后一个时间片的表示进一步输入解码器中, 得到未来时刻的邻接矩阵, 获得较高的准确率.Lei等[20]基于加权动态网络进行链接预测, 利用图卷积网络(Graph Convolutional Network, GCN)[21]捕获每个网络快照拓扑结构的特征, 将学习的网络表示特征输入LSTM网络中, 获得未来时刻网络的表示, 在对抗训练的基础上, 利用生成对抗网络(Generative Adversarial Networks, GAN)[22]生成高质量、可信的图形快照.

上述方法依据共同机理:节点间链接关系的存在与否和两个节点紧密有关.所以, 学者们大都着眼于利用各种网络表示学习或类似方法学习时间序列快照中的节点表征, 利用深度学习等算法提取网络数据随时间演化的特征, 用于链接预测.而实际上, 在动态网络演化过程中, 节点间链接的变化不仅受邻接节点变化的影响, 还和两个节点周围的局部子图结构的变化紧密相关.

因此, 本文引入动态网络中链接周围的局部子图结构信息, 提出基于节点表示和子图结构的动态网络链接预测方法(Dynamic Network Link Prediction Based on Node2vec and Palette Weisfeiler Lehman, d_n2v_PWI).一方面, 引入node2vec多样化采集节点邻居信息, 获得每个历史时间片中节点的表征向量, 拼接每个历史时间片的节点表征向量, 作为预测时间片中节点的表征, 计算两个节点向量的元素对应乘积作为链接的表征向量.另一方面, 捕获链接周围的局部子图结构信息, 帮助预测未来时间片中链接的状态.由于WLNM可捕获链接的局部子图结构信息, 链接预测的效果较优, 于是扩展WLNM中的基于哈希函数的图同构算法(Palette Weisfeiler Lehman, PWL), 增强链接的局部结构表征能力.最后将得到的未来时间片中链接的表征向量和局部子图结构表征向量进行拼接, 采用随机森林分类器进行链接预测.实验表明, 本文方法性能较优.

1 基于节点表示和子图结构的动态网络链接预测方法
1.1 问题定义

本文研究的动态网络节点集为V, 边集为E, 节点间连边为无向边.按一定时间窗口将动态演化的网络划分为N+1个时间快照{G1, G2, …, GN, GN+1}.每个快照使用无向图Gt=(V, Et)表示, V={v1, v2, …, vn}为网络节点集合, Et⊆|V|× |V|为t时刻网络中边的集合.

动态网络链接预测问题描述如下.已知N个历史快照{G1, G2, …, GN}的网络信息, 预测GN+1时间片中节点对(i, j)之间是否存在链接L(N+1)(i, j):

f:{G1, G2, …, GN}→ L(N+1)(i, j),

其中

L(N+1)(i, j)= {1,(i,j)E(N+1)0,(i,j)E(N+1)

1.2 方法设计

本文提出基于节点表征和子图结构的动态网络链接预测方法(d_n2v_PWL).方法结构如图1所示, 由4个模块组成:表征节点向量、捕获链接局部子图结构特征、融合链接特征、分类预测.首先基于node2vec拼接每个历史时间片的节点表征向量.再基于PWL捕获预测节点对在各个历史时间片的局部子图结构特征, 拼接这些向量, 记为链接的局部子图结构特征表示.然后将预测节点对的节点表征向量融合为链接表征向量, 并与链接的局部子图结构特征向量拼接.最终将得到的链接表示输入到随机森林分类器中.

图1 d_n2v_PWL框图Fig.1 Framework of d_n2v_PWL

1.2.1 表征节点向量

给定动态网络{G1, G2, …, GN}, 对每个历史时间片分别应用node2vec, 学习历史快照中节点的嵌入向量.

node2vec可有效学习网络中节点的连续特征表示.相比传统的网络表征方法, node2vec在Deep-walk的基础上引入深度优先搜索和广度优先搜索两种有偏的随机游走方式, 分别通过引入返回参数p和输出参数q控制有偏游走.

如图2所示, p用于控制游走过程中返回上一个顶点的可能性, p设置越大, 节点在游走过程中返回上一个节点的概率越小.参数q用于控制游走的方式:当q> 1时, 游走时倾向于选择围绕起始点的节点序列, 该过程类似于广度优先遍历; 当q< 1时, 游走时倾向于选择远离起始点的节点序列; 当p=q=1时, node2vec与Deepwalk游走方式相同.

图2 node2vec随机游走过程示意图Fig.2 Illustration of random walk procedure of node2vec

基于文献[16]的设置, 本文删除历史快照中有关测试集的边, 再将各个历史快照分别输入node2-vec中.对于每个历史时间片, 首先基于pq值计算随机游走转移的概率, 得到随机游走的节点序列后, 将这些节点序列输入skip-gram模型中, 学习节点的表示.最后, 得到节点i在各个历史时间片的表征向量V ti, t=1, 2, …, N, 拼接该节点在所有时间快照的向量表示, 得到N+1时刻的i节点表示, 记为

si=[ v1iv2i‖ …‖ vNi].

其中:‖ 表示2个向量按行拼接, 例如

[[0.1, 0.3]‖ [0.8, -0.2]]⇒ [0.1, 0.3, 0.8, -0.2].

同理, 对于j节点,

sj=[ v1jv2j‖ …‖ vNj].

1.2.2 捕获链接局部子图结构特征

为了充分利用链接的局部拓扑信息, 首先抽取未来时间片中, 目标节点对在不同时间片中对应的局部子图, 再分别对不同时间片上的局部子图结构进行重新编码, 目的是为了更好地度量历史时间片与未来时间片中局部子图结构的相似性.最后, 利用编码完成的局部子图, 构建未来时刻链接的局部子图结构表示.具体过程如下.

1)抽取局部子图.对于要预测的目标节点对(i, j), 基于每个历史快照Gt, 添加节点ij, 再分别添加它们的1跳邻居, 2跳邻居, 以此类推, 直至局部子图中节点个数为k个或没有邻居节点, 得到包含k个节点的局部子图 Gijt.为了便于表达, 记该局部子图的节点集为U.

2)局部子图编码.不同时间片中目标节点对周围的局部子图结构越相似, 目标节点对形成链接的可能性越相似.于是, 为了度量不同时间片中目标节点对周围的局部子图结构的相似性, 对局部子图结构进行重新编码, 如图3所示.

图3 局部子图编码过程Fig.3 Process of local subgraph coding

具体编码过程如下所示.

(1)计算子图 Gijt中节点uU的初始编号:

c(u)=f(d(u,i)d(u,j)).(1)

其中:i, j表示目标节点对; d(x, y)为节点xy之间的最短距离; f:RkCk为映射函数, 即将k个节点映射为有序整数.

例如, 目标节点对(99, 107)的初始编码为1, 子图中其余节点按照式(1)编码, 得到图3中的子图初始编号.

(2)利用PWL不断迭代更新子图中的节点编号, 直到算法收敛, 为所有的节点编好独立的序号.PWL更新如下:

c'(u)=f(c(u)+ zΓ(u)ln(p(c(z)))z'Γ(u)ln(p(c(z')))), (2)

其中, c'(· )为节点更新后的编号, c(· )为节点初始编号, Γ (u)为节点u的邻居, p(n)表示第n个素数, 如p(0)=2, p(1)=3, 4, …

例如, 对于图3得到的初始编号的子图, 循环使用式(2), 直到为所有节点编好独立的序号, 见图3中子图最终编号.

3)生成局部子图结构特征表示.当得到局部子图的最终编号后, 构建邻接矩阵 Aijt.行列按照节点的编号大小排列.取每个子图的上三角矩阵triu( Aijt), 按行依次拼接上三角矩阵的各行元素(去除目标节点对元素 Aijt[1, 2])作为目标节点对(i, j)的局部子图结构特征表示 ctij.

如图4所示, 对于目标节点对(99, 107), 在某个时间段t得到的局部子图的邻接矩阵表示为 A(99, 107)t, 该节点对的局部子图结构特征表示为ct(99, 107).

图4 链接的局部子图结构表示Fig.4 Local subgraph structure representation of link

4)生成下一时刻链接的局部子图结构表示.分别将各个时间快照上生成的子图结构表示进行拼接, 生成第N+1时刻链接的局部子图结构表示, 记为

lij=[ c1ijc2ij‖ …‖ cNij].

1.2.3 链接表示及分类预测

在基于网络表示学习的链接预测方法中, 链接表示通常构建为两个节点向量的拼接或对应元素相乘.对比拼接或对应元素相乘这两种方法后发现, 计算节点i的表示si和节点j的表示sj的元素对应乘积, 作为两个节点之间的交互表示预测效果更好, 即

hij=sisj.

其中☉表示两个向量逐个元素乘积.

例如,

si=[0.1, -0.2], sj=[0.5, 0.7],

hij=[0.1× 0.5, -0.2× 0.7]=[0.05, -0.14].

本文将基于node2vec的链接表征向量和链接的局部子图结构表示进行拼接, 记为

eij=[hijlij].

GN+1的边被随机划分为训练集和测试集, 在建立网络表征模型前, 移除历史快照中包含的测试集, 随机选取相同数量的负例样本.对于训练集和测试集中的每条边, 利用本文方法得到链接表示后, 将训练集的链接表示用于训练二分类器, 再预测测试集中链接是否存在.对比逻辑回归(Logistic Regression)、随机森林(Random Forest, RF)、梯度提升回归树(Gra-dient Boosted Regression Tree)和全连接神经网络在各个数据集上的实验效果, 本文选用在大多数数据集上分类性能较优的RF作为二分类器.

2 实验及结果分析
2.1 实验数据及参数设置

本文的实验数据来源于Network Repository Website, 共5个数据集[23].

1)Enron-Employee(Emp).2002年2月至2004年2月Enron员工之间的电子邮件通信网络, 8个时间片, 相邻两个时间片之间间隔3个月.

2)Radoslaw(Rad).2010年1月2日至2010年9月30日中型制造网络员工之间的电子邮件通信网络, 9个时间片, 相邻两个时间片之间间隔1个月.

3)Facebook-Forum(Fac).用户在2004年5月至2004年10月的论坛活动, 6个时间片, 相邻两个时间片之间间隔一个月.

4)Contacts-Dublin(Dub).2009年5月11日至2009年7月5日人际接触网络, 8个时间片, 相邻两个时间片之间间隔一周.

5)Reality-Call(Rea).2004年9月27日至2005年1月2日麻省理工学院小型移动电话网, 7个时间片, 相邻两个时间片之间间隔两周.

数据集的基本信息如表1所示.

表1 实验数据集 Table 1 Experimental datasets

实验分析不同数据集节点的平均度随时间片变化情况, 如图5所示, 即节点的度数变化反映节点的邻居变化情况.由图可看出, 不同数据集中每个时间片的节点分布稀疏情况和节点邻居变化情况不同.除Emp数据集外, 其他4个数据集的节点邻居基本呈现下降趋势, 因此链接的消失比增长更快.Rea数据集上每个时间片数据都很稀疏.

图5 各数据集上节点平均度随时间片变化情况Fig.5 Average node degree changing with time slices on the datasets

实验中共涉及3个主要模块, 每个模块涉及的参数值如下.PWL中子图节点数k=10, RF中决策树个数n=80.在node2vec中, 训练窗口大小为10, 随机游走经过每个节点次数为10, 随机游走的每个路径包含节点数为80, 节点表征维度为128.

2.2 评估指标

实验采用链接预测常用的评估指标:接收者操作特征曲线下面积(Area Under Curve, AUC)值和平均精确度(Average Precision, AP)值.AUC为评价二分类模型优劣的常用指标, AUC值越高, 表明模型表现的效果越优.AP值计算准确率-召回率(Precision-Recall, PR)曲线下的面积.PR曲线用于稀疏数据集的检测.当负样本较大时, ROC曲线无法正确评估模型.因此采用只考虑正样本的PR曲线, 更好地评估模型.

2.3 对比方法

为了说明本文方法的有效性、灵活性、鲁棒性, 采用如下对比方法.

1)静态链接预测方法.不考虑时间信息, 将动态网络的所有时间片合并为一张大的静态网络, 随后划分训练集和测试集, 进行训练, 预测网络中的链接状态, 包括如下多种方法.

(1)共同邻居(Common Neighbors, CN)[3].认为2个节点之间的相似分数由共同邻居数目决定:

Score(vi, vj)=|Γ (vi)∩ Γ (vj)|.

(2)杰卡德系数(Jaccard Coefficient, JC)[4].节点对的相似性定义为共同邻居的数目与邻居总数的比值:

Score(vi, vj)= |Γ(vi)Γ(vj)||Γ(vi)Γ(vj)|.

(3)资源分配(Resource Allocation, RA)[5].认为节点vivj之间的相似性分数可定义为vi通过间接链接从vj获得的资源, 每个间接链接贡献一部分资源:

Score(vi, vj)= vΓ(vi)Γ(vj)1Γ(v).

(4)局部路径(Local Path, LP)[6].考虑网络的路径信息, 两节点之间的相似性分数计算为两节点之间长度为2和3的路径数目:

Score(vi, vj)= A2(vi,vj)+β A3(vi,vj),

其中, A表示网络的邻接矩阵, β 为可调参数.

上述4种方法主要基于训练集获得得分矩阵, 根据得分矩阵计算测试集上节点对形成链接的概率.

(5)node2vec[9].使用node2vec学习由训练集构成的静态网络中节点的表示向量, 预测链接的表示通过对应节点向量的元素对应乘积得到, 最后将正负例样本输入到随机森林分类器中建立链接预测模型.

(6)PWL.基于WLNM[10], 与原文不同的是采用随机森林作为分类器, 因为经过实验测试发现, 随机森林分类器训练的效果优于原文神经网络训练得到的结果.

2)动态链接预测方法.考虑时序信息, 利用历史快照得到的信息, 获取未来网络链接的表示, 最后建立分类模型(下述模型中分类器都表示随机森林分类器), 包括如下几种方法.

(1)连续时间动态网络表征(Continuous Time Dynamic Network Embeddings, CTDNE).基于文献[16], 将时序信息表示在网络中边的权重上, 使用node2vec以时序递增的方式随机游走网络, 产生节点的表示向量, 最后将节点向量的元素对应乘积输入到分类器中.

(2)基于node2vec的动态网络链接预测(Dyna-mic Network Link Prediction Based on node2vec, d_n2v).通过node2vec捕获每个历史快照上节点的表示向量.将得到的各个历史快照中节点表示的元素对应乘积作为边的表示.将前N个历史快照拼接得到的边表示输入到分类器中.

(3)基于PWL的动态网络链接预测(Dynamic Network Link Prediction Based on Palette Weisfeiler Lehman, d_PWL).基于PWL的设计, 抽取每个历史时间片中目标节点对的局部子图结构表示.为了捕捉子图结构的演化, 拼接这些子图结构特征表示作为下一时刻边的局部子图结构表示.最后将得到的边表示输入到分类器中进行链接预测.

(4)基于GCN的动态网络链接预测(Dynamic Network Link Prediction Based on Graph Convolu-tional Network, d_GCN).类似于d_n2v, 但采用GCN获得节点的向量表示.

(5)基于LSTM的动态网络链接预测(Dynamic Network Link Prediction Based on Long Short-Term Memory, d_LSTM).基于LSTM, 通过捕获每个时间片网络结构演变的情况, 预测未来时刻的网络结构图, 即将每个时间片的邻接矩阵输入LSTM中, 预测最后一个时间片的邻接矩阵, 得到邻接矩阵的行向量作为节点表示, 节点表示元素的对应乘积作为边表示.分别获取训练集和测试集的边表示, 输入到分类器中进行训练.

(6)本文方法(d_n2v_PWL)._n2v意味着历史快照中节点的向量表征通过node2vec实现; _PWL表示链接的局部子图结构信息被融入到最后的链接表示中.

2.4 实验结果

2.4.1 链接预测的有效性

不同方法在每个数据集上的AUC值和AP值如表2表3所示, 表中— 表示算力限制.

表2 各方法在5个数据集上的AUC值 Table 2 AUC values of different methods on 5 datasets
表3 各方法在5个数据集上的AP值 Table 3 AP values of different methods on 5 datasets

分析上述实验结果, 得出如下结论.

1)d_n2v_PWL在5个数据集上均获得较优的预测结果.对比之前静态链接预测方法和动态链接预测方法得到的最高分数(见表2表3中斜体数字):在AUC指标上, d_n2v_PWL分别提高3.47%, 1.04%, 1.71%, -0.1%, 1.25%; 在AP指标上, d_n2v_PWL分别提高3.19%, 1.02%, 2.07%, -0.09%, 1.78%.

2)对比node2vec和d_n2v, PWL和d_PWL, 实验结果表明, 使用静态网络表示方法获取历史快照的链接表征向量, 拼接作为预测网络的链接表示可改进动态网络链接预测的准确度, 然而并非适用于所有静态网络链接预测方法和所有的数据集.在Rad数据集上, 直接使用PWL获得的结果优于d_PWL.另外, 不同的静态网络表示方法扩展为动态链接预测方法在不同数据集上效果有所不同.在Rea数据集上, d_PWL的预测效果优于d_n2v, 而在其它数据集上, d_n2v的预测效果更优.

3)整体研究发现, d_n2v_PWL在稀疏数据集和稠密数据集上都可获得不同程度的改进.在较稠密的数据集Rad上, 相比d_n2v, d_n2v_PWL的AUC值提高5.92%, AP值提高7.88%.在较稀疏的数据集Rea上, 相比d_n2v, d_n2v_PWL的AUC值提高2.52%, AP值提高3.19%.

2.4.2 时间片数量的影响

本节主要研究时间片数量对方法预测结果的影响.d_n2v、d_PWL、d_GCN、d_n2v_PWL在5个数据集上的AUC值随使用时间片数量的变化趋势如图6所示.AP值的变化趋势与其类似, 在此不再赘述.

图6 时间片数量对预测结果的影响Fig.6 Influence of time slice number on model prediction results

由图6可见, 随着近期时间片数量的增长, 方法预测结果趋于稳定.在Rad数据集上, 当使用近期时间片数量超过5时, d_n2v_PWL预测结果增长不大.在Emp、Fac数据集上, 使用近期时间片数量超过3后, d_n2v_PWL预测性能不再发生较大变化.在Rea数据集上, 预测性能一直保持接近100%.在Dub数据集上, 当使用近期7个时间片时, d_n2v_PWL达到100%的预测结果.此外, d_n2v_PWL综合d_n2v和d_PWL的优点, 即节点相似特征和局部子图结构特征, 几乎在不同时间片数量上的结果均达到最高.

2.4.3 子图节点数目的影响

本节研究方法抽取的局部子图中的节点数目对链接预测结果的影响.图7对比d_PWL和d_n2v_PWL在5个数据集上的AUC值随局部子图节点数目增大的变化情况, AP值趋势相同.由图可见, 当改变局部子图的邻居数目时, d_PWL的AUC值变化幅度较大, d_n2v_PWL可获得更优的预测结果, 受局部子图节点数目影响不大.

图7 局部子图节点数目对预测结果的影响Fig.7 Influence of local subgraph node numbers on prediction results

在Rad、Emp、Fac数据集上, 当局部子图中考虑的节点数目较少时, d_PWL预测结果较低.随着局部子图节点数目的增长, 预测结果开始变优.当增长到一定程度后预测结果开始下降.在Rad数据集上, 当局部子图考虑的节点个数为3时, d_PWL预测结果极低, 而当其增长到5时, 预测结果明显变好, 节点个数增长到25时, 预测结果开始降低.d_n2v_PWL可一直维持较好的预测结果.在Rea数据集上, 当局部子图考虑的节点个数为3时, d_PWL预测结果较低, 节点数增长到5之后, d_PWL、d_n2v_PWL预测结果基本维持稳定, 前后变化幅度不超过0.002.在Dub数据集上, 随着局部子图邻居节点个数的改变, d_PWL和d_n2v_PWL的性能均保持不变.

3 结束语

本文提出基于节点表示和子图结构的动态网络链接预测方法, 主要包括4个模块:1)利用node2vec得到历史快照的节点表征; 2)基于PWL捕获链接的局部子图结构特征; 3)融合节点表征和局部子图结构构造链接特征; 4)利用随机森林分类器进行链接预测.在5个数据集上的实验表明, 本文方法在稀疏数据集和稠密数据集上都能获得更优性能, 说明融合节点表征和链接的局部子图结构特征对于提升链接预测结果是有效的.最后, 分析考虑近期时间片数目和局部子图的节点数目对动态网络链接预测结果的影响.实验结果表明, 本文方法仅需利用少数近期快照便可取得不错效果, 随着使用快照数目继续增加, 性能趋于稳定.此外, 随着局部子图考虑的节点数目增加, 本文方法的预测性能波动不大, 优于PWL.

本文方法在结构上还具有松散耦合的特点, 这使本文方法各子模块都可使用其它更好的技术进行替代, 达到改进整体模型的目的, 但同时也带来了不便于端到端训练的局限.今后将致力于研究端到端的异质动态网络链接预测, 考虑节点属性、链接属性、结构特征和网络动态特性, 并应用于不同领域大规模网络中的动态链接预测问题.

参考文献
[1] 徐昭娣. 动态网络的高效链接预测方法研究. 硕士学位论文. 重庆: 重庆邮电大学, 2019.
(XU Z D. Research on Efficient Link Prediction Methods for Dynamic Networks. Master Dissertation. Chongqing, China: Chong-qing University of Posts and Telecommunications, 2019. ) [本文引用:1]
[2] LIN D K. An Information-Theoretic Definition of Similarity // Proc of the 15th International Conference on Machine Learning. New York, USA: ACM, 1998: 296-304. [本文引用:1]
[3] LÜ L Y, JIN C H, ZHOU T. Similarity Index Based on Local Paths for Link Prediction of Complex Networks. Physical Review E, 2009, 80. DOI: DOI:10.1103/PhysRevE.80.046122. [本文引用:2]
[4] LIBEN-NOWELL D, KLEINBERG J M. The Link-Prediction Pro-blem for Social Networks // Proc of the 20th Annual ACM International Conference on Information and Knowledge Management. New York, USA: ACM, 2003: 556-559. [本文引用:2]
[5] LÜ L Y, ZHOU T. Link Prediction in Complex Networks: A Survey. Physica A(Statistical Mechanics and Its Applications), 2011, 390(6): 1150-1170. [本文引用:2]
[6] YANG X H, YANG X H, LING F, , et al. Link Prediction Based on Local Major Path Degree. Modern Physics Letters B, 2018, 32(29): 1850348. 1-1850348. 12. [本文引用:2]
[7] LIU W P, LÜ L Y. Link Prediction Based on Local Rand om Walk. EPL(Europhysics Letters), 2010, 89(5). DOI: DOI:10.1209/0295-5075/89/58007. [本文引用:1]
[8] PEROZZI B, AI-RFOU R, SKIENA S. Deepwalk: Online Learning of Social Representations // Proc of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2014: 701-710. [本文引用:1]
[9] GROVER A, LESKOVEC J. Node2vec: Scalable Feature Learning for Networks // Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2016: 855-864. [本文引用:2]
[10] ZHANG M H, CHEN Y X. Weisfeiler-Lehman Neural Machine for Link Prediction // Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2017. DOI: DOI:10.1142/S0217984918503487. [本文引用:2]
[11] GÜNES I, GÜNDÜZ-ÖGÜDÜCÜ S, CATALTEPE Z. Link Prediction Using Time Series of Neighborhood-Based Node Similarity Scores. Data Mining and Knowledge Discovery, 2016, 30(1): 147-180. [本文引用:1]
[12] MUNASINGHE L, ICHISE R. Time Aware Index for Link Prediction in Social Networks // Proc of the 13th International Conference on Data Warehousing and Knowledge Discovery. Berlin, Germany: Springer-Verlag, 2011: 342-353. [本文引用:1]
[13] DE SILVA SOARES P R, PRUDÊNCIO R B C. Time Series Based Link Prediction // Proc of the International Joint Conference on Neural Networks. Washington, USA: IEEE, 2012. DOI: DOI:10.1109/IJCNN.2012.6252471. [本文引用:1]
[14] NGUYEN G H, LEE J B, ROSSI R A, et al. Continuous-Time Dynamic Network Embeddings[C/OL]. [2020-07-30]. http://ryanrossi.com/pubs/nguyen-et-al-WWW18-BigNet.pdf. [本文引用:1]
[15] AHMED N M, CHEN L, WANG Y L, et al. DEEPEYE: Link Prediction in Dynamic Networks Based on Non-negative Matrix Factorization. Big Data Mining and Analytics, 2018, 1(1): 19-33. [本文引用:1]
[16] DE WINTER S, DECUYPERE T, MITROVIĆ S, et al. Combining Temporal Aspects of Dynamic Networks with Node2Vec for a More Efficient Dynamic Link Prediction // Proc of the IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Washington, USA: IEEE, 2018: 1234-1241. [本文引用:3]
[17] HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory. Neural Computation, 1997, 9(8): 1735-1780. [本文引用:1]
[18] CHO K, VAN MERRIËNBOER B V, BAHDANAU D, et al. On the Properties of Neural Machine Translation: Encoder-Decoder Approaches // Proc of the 8th Workshop on Syntax, Semantics and Structure in Statistical Translation. Berlin, Germany: Springer, 2014: 103-111. [本文引用:1]
[19] GOYAL P, CHHETRI S R, CANEDO A. Dyngraph2vec: Capturing Network Dynamics Using Dynamic Graph Representation Lear-ning. Knowledge-Based Systems, 2020, 187: 104816. 1-104816. 9. [本文引用:1]
[20] LEI K, QIN M, BAI B, et al. GCN-GAN: A Non-linear Temporal Link Prediction Model for Weighted Dynamic Networks // Proc of the IEEE Conference on Computer Communications. Washington, USA: IEEE, 2019: 388-396. [本文引用:1]
[21] KIPF T N, WELLING M. Semi-supervised Classification with Graph Convolutional Networks[C/OL]. [2020-07-30]. https://arxiv.org/pdf/1609.02907.pdf. [本文引用:1]
[22] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Ge-nerative Adversarial Nets // Proc of the 27th International Confe-rence on Neural Information Processing Systems. Cambridge, USA: The MIT Press, 2014: 2672-2680. [本文引用:1]
[23] ROSSI R A, AHMED N K. The Network Data Repository with Interactive Graph Analytics and Visualization // Proc of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2015: 4292-4293. [本文引用:1]