基于注意力机制和分时图卷积的公交客流预测

引用本文

张伟, 朱凤华, 陈圆圆, 吕宜生. 基于注意力机制和分时图卷积的公交客流预测. 模式识别与人工智能, ,34(2): 167-175
ZHANG Wei, ZHU Fenghua, CHEN Yuanyuan, L#cod#x000dc; Yisheng. Bus Passenger Flow Forecast Based on Attention and Time-Sharing Graph Convolutional Network. PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE, ,34(2): 167-175. 复制到剪切板

Doi: 10.16451/j.cnki.issn1003-6059.202102008
Permissions

《模式识别与人工智能》编辑部所有

基于注意力机制和分时图卷积的公交客流预测

张伟^1,², 朱凤华^2,³, 陈圆圆², 吕宜生²

1.中国科学院大学人工智能学院北京 100049

2.中国科学院自动化研究所复杂系统管理与控制国家重点实验室北京 100190

3.中国科学院云计算中心东莞 523808

通信作者：

朱凤华,博士,副研究员,主要研究方向为人工交通系统、平行交通管理系统、智能控制等.E-mail:fenghua.zhu@ia.ac.cn.

作者简介

张伟,硕士研究生,主要研究方向为交通数据挖掘、智能交通系统.E-mail:wei.zhang2018@ia.ac.cn.

陈圆圆,博士,助理研究员,主要研究方向为社会交通、机器学习及其在智能交通领域的应用.E-mail:yuanyuan.chen@ia.ac.cn.

吕宜生,博士,副研究员,主要研究方向为智能交通系统、人工智能、平行交通管理与控制系统.E-mail:yisheng.lv@ia.ac.cn.

收稿日期: 2020-08-17 接受日期: 2021-01-05

资助项目: 国家自然科学基金项目(No.U1811463)、广东省基础与应用基础研究基金项目(No.2019B1515120030)资助

摘要

实际公交路网通常为复杂的非线性时变系统,难以有效构建线路间的时空间依赖关系.因此,文中提出基于注意力机制和分时图卷积的公交客流预测模型,提升公交客流量预测的准确性.首先通过长短期记忆网络提取历史数据中的时间特征,并利用通道注意力模块加权特征.再使用分时图卷积方法分析不同时段下公交线路间的空间依赖性,根据预测时段选择不同的关系矩阵,通过图卷积的方式完成对非欧关系的建模.最后,融合提取的时空间特征与外部因素(天气、节假日信息等)的特征表示,得到最终的预测结果.在真实公交数据上的实验表明,文中模型可提升预测精度,加快学习速率.

关键词: 智能交通; 公交客流预测; 递归神经网络; 通道注意力模块; 分时图卷积

中图分类号:TP 391.4

Bus Passenger Flow Forecast Based on Attention and Time-Sharing Graph Convolutional Network

ZHANG Wei^1,², ZHU Fenghua^2,³, CHEN Yuanyuan², LÜ Yisheng²

1.School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing 100049

2.State Key Laboratory for Management and Control of Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190

3.Cloud Computing Center, Chinese Academy of Sciences, Dongguan 523808

Corresponding author:
ZHU Fenghua, Ph.D., associate professor. His research interests include artificial transportation system, parallel transportation system and intelligent control.

AboutAuthor:
ZHANG Wei, master student. His research interests include traffic data mining and inte-lligent transportation system.
CHEN Yuanyuan, Ph.D., assistant professor. His research interests include social transportation system, and data-driven traffic modeling and prediction.
LÜ Yisheng, Ph.D., associate professor. His research interests include intelligent transportation system, artificial intelligence, and parallel traffic management and control system.

Fund:Supported by National Natural Science Foundation of China(No.U1811463), Basic and Applied Basic Research Fund of Guangdong Province(No.2019B1515120030)

Abstract

Real bus network tends to be a complicated nonlinear time-varying system. Therefore, the spatiotemporal correlation between different bus lines can hardly be built effectively. To solve this problem, an attention and time-sharing graph convolution based long short-term memory network for bus passenger flow forecast is proposed. Firstly, temporal features of historical data are extracted by long short-term memory network(LSTM), and then they are weighted by a channel-wise attention module. A time-sharing graph convolution approach is utilized to analyze the spatial dependencies among bus lines. Different adjacent matrices are selected according to time intervals, and non-Euclidean pair-wise correlations are modeled via graph convolution. Finally, the final prediction result is obtained by integrating the extracted spatiotemporal features and vector representations of external factors, like weather and holiday information. Experiments on real bus passenger flow datasets indicate that the proposed model improves the prediction accuracy and learning speed evidently.

Key words: Key Words Intelligent Transportation; Bus Passenger Flow Prediction; Recurrent Neural Network; Channel-Wise Attention; Time-Sharing Graph Convolution

文章图片

本文责任编委付俊

Recommended by Associate Editor FU Jun

公共交通是城市交通系统的基础, 先进的公共交通系统 (Advanced Public Transportation System, APTS) 是智能交通系统的重要组成部分.然而, 车辆配置和公交线路的不合理、车次安排无法较好地契合人们出行需求的变化等都会严重影响城市的公交服务水平.准确的公交客流量预测是解决上述问题的关键技术之一, 对城市交通系统的管理和规划具有重要意义.

公交客流量预测旨在根据过去一段时间的客流量数据及其它信息 (如天气、线路车次安排等)预测未来一段时间内的客流量, 可认为是一种时空间序列预测问题.与地铁线路系统不同的是, 公交系统的配置和运营更具灵活性, 容易受到地面交通状况的影响, 因此线路间的时空间依赖性更紧密.近年来, 基于神经网络的深度学习算法逐渐受到更多研究者的关注, 并在交通流预测、出租车需求分析等问题上取得显著效果^{[1, 2, 3]}.

根据预测目标的不同, 客流量预测可分为区域流量预测、车站流量预测和线路流量预测.区域预测通过城市区域进行划分, 预测不同区域总的客流量分布.对于单一路线, 可根据不同路段将其划分为一维网格, 从而避免对其复杂特征进行建模^[4].对于多条路线, 网格化划分是常用方法, 网络模型大多以传统卷积算法为核心.Zhang等^[5]基于网格划分方法, 提出深度时空残差网络(Deep Spatial-Temporal Residual Network), 预测城市中每个区域的客流量, 取得较优效果.然而, 这种划分方法忽略城市交通网络的固有特征, 无法充分利用交通路线之间的相互联系.车站流量预测直接对公交车站在一段时间内的客流量进行预测.Gong等^[6]基于公交到达事件对车站流量的变化进行细致分析, 结合差分自回归移动平均模型(Auto-Regressive Integrated Moving Ave-rage Model, ARIMA)和卡尔曼滤波器预测不同时间段的等待人数(Waiting Passenger Count, WPC), 取得较优效果.

在实际线路运行中, 客流量的分布和变化往往受到诸多因素的影响, 如天气、车辆到达事件等.Liu等^[7]提出基于深度学习和多源信息融合的地铁客流量预测模型, 能够有效提升预测的准确性.Li等^[8]为了结合数据的空间信息, 通过起讫点(Origin-Destination, OD)矩阵量化不同车站间关系的强弱, 使用图嵌入的方式, 基于传统卷积网络提取多车站地铁客流量的空间特征.然而, 这种方式需要预先找出相关区域, 当相关性发生改变时, 又需要重新计算关联结点, 难以部署在实际系统中.线路流量预测旨在分析一段时间内某条或多条路线总的客流量变化特征.在早期的研究中, Zhao等^[9]结合小波分析和神经网络, 分析某一公交线路流量在不同时段的分布, 实现线路客流短时预测.随后, 栈式自动编码器(Stacked AutoEncoder, SAE)、深度信念网络(Deep Belief Network, DBN)、门控循环单元(Gated Recu-rrent Unit, GRU)、长短期记忆网络(Long Short-Term Memory, LSTM)等模型都被用于分析单一公交线路客流量的时间特征^{[10, 11]}.

本文旨在分析和提取多条公交线路的时空间特征, 提升客流预测的准确性.在时间依赖关系上, 虽然递归神经网络(如LSTM、GRU等)在交通预测任务上得到广泛应用, 但很多模型都只使用最后一步的输出结果作为时间特征.实际上, 在各时间步上提取的特征都会对未来一段时间内的流量产生一定程度上的影响.不同时间步上提取的特征容易受到对应输入信息的影响, 有的会阻碍对未来流量的预测(如较大的波动), 有的会较好地反映当前的状态^[12].因此, 本文提出基于注意力机制和分时图卷积的公交客流预测模型(Attention and Time-Sharing Graph Convolution Based LSTM Network, TsGL).引入通道注意力模块(Channel-wise Attention), 为各时间步上的特征分配相应的权重.在空间依赖性分析上, 尽管许多交通预测模型开始使用图卷积网络(Graph Convolutional Network, GCN)代替图嵌入的方式, 但在对结点间的关系建模时往往忽略时变性.受到城市居民日常生活方式的影响(如早出晚归), 各条公交线路与其它线路间的主要联系会随时间的推移发生明显变化.因此, 本文使用分时图卷积方法(Time-Sharing GCN, TsGCN), 在一天中的不同时段构建不同的关系矩阵以解决上述问题.在真实公交数据上的实验表明, 本文模型能够有效提升公交线路客流量预测的准确性.

1 基于注意力机制和分时图卷积的公交客流预测

1.1 模型总体框架

实际公交系统的拓扑结构和线路分布往往极不规则, 但公交线路间的功能性、地面连接等使不同线路间的客流量分布表现出强烈的相关性.因此, 可利用这种非欧关系, 实现同时预测多条公交线路的客流量.

公交路网结构可看作是一个拓扑图G=(V, E), 各线路构成图中的结点集合, V的模等于公交线路的数量, 即|V|=N, 线路之间的连接及其强度通过邻接矩阵集合

A={A_k|k=1, 2, …, N_r}

描述, A_k∈ R^N^×^N为第k个时段对应的邻接矩阵, N_r为划分时段数量.取

X_t=[ $X_{t}^{1}$ , $X_{t}^{2}$ , …, $X_{t}^{N}$ ]^T∈ R^N

为第t个时间步上的测量数据,

X=[X₁, X₂, …, X_τ]∈ R^N^×^τ

对应各公交线路在过去τ 个时间段内的所有测量数据.

公交线路客流量预测任务旨在利用这些历史测量数据, 预测未来一个时间步上各线路的上车客流量, 即

其中, P_t:R^N^×^τ→ R^N为预测函数, 即网络模型的学习目标.

本文的基于注意力机制和分时图卷积的公交客流预测模型总体框架如图1所示, 主要包含4部分.

	Figure Option View Download New Window
	图1 本文模型框图Fig.1 Framework of the proposed model

1)时间特征提取.对于历史客流数据, 本文使用LSTM学习数据中隐含的时间特征, 得到不同时间步上数据的高维特征表示.再利用全连接网络和残差模块, 提取历史数据在同维度下的特征表示.

2)注意力机制.使用通道注意力模块对不同时间步上提取的时间特征进行赋权, 降低不相关特征对最终预测结果的影响.

3)空间特征提取.根据不同时段的客流量数据分布, 构建相应的关系矩阵.在实际预测时, 根据当前时段, 利用分时图卷积网络提取当前状态下的空间特征.

4)特征融合.融合外部因素(天气、时段、节假日信息)的特征表示, 得到客流量预测的最终结果.

1.2 时间特征提取

对于公交客流量预测任务, 本文使用LSTM提取历史数据的时间特征.网络由多个LSTM模块组成, 每个模块包含一个细胞、一个输入门、一个遗忘门和一个输出门^[13].每个LSTM模块的计算过程如下:

i_t=σ (W_iix_t+b_ii+W_hih_t_-1+b_hi),

f_t=σ (W_ifx_t+b_if+W_hfh_t_-1+b_hf),

g_t=tanh(W_igx_t+b_ig+W_hgh_t_-1+b_hg),

o_t=σ (W_iox_t+b_io+W_hoh_t_-1+b_ho),

c_t=f_t☉c_t_-1+i_t☉g_t,

h_t=o_ttanh(c_t).

其中:i_t为输入门, f_t为遗忘门, g_t为细胞, o_t为输出门, x_t为t时刻的输入, h_t_-1为t-1时刻的隐藏层状态, c_t为t时刻的细胞状态, σ 为激活函数, 其余变量都为可训练参数.

本文引入残差结构融合数据原始特征, 用于解决深度神经网络层数增加时带来的学习退化问题, 并使网络更容易学习恒等映射函数^[14]:

H_t=X_t+δ (W· LSTM(X_t)+b),

其中, H_t=R^τ^×^N为网络提取的时间特征, δ 为激活函数(如ReLU), LSTM(X_t)为LSTM的输出, W、b为可训练参数.

由于不同时间步上提取的特征对预测结果的影响程度不同, 本文使用通道注意力模块对不同时间步上提取到的时间特征进行赋权.注意力机制最初用于图像处理, 旨在为多通道图像特征的每个通道分配一个权值^[15], 加强神经网络对重要特征的提取能力, 减弱其它特征对模型学习的干扰.

该机制首先使用平均池化(Average Pooling)的方式整合每个时间步上的总体信息:

z_c=F_pool(H_t)= $\frac{1}{N} \overset{N}{\sum_{i = 1}} H_{t}^{i}$ .

再通过两层无偏置的全连接网络, 捕捉这些信息的相互依赖关系, 计算相应的权值:

s=F_ex(z, W)=σ (W₂δ (W₁z)),

其中, σ 为Sigmoid激活函数, δ 为ReLU激活函数, W₁∈ $R^{\frac{τ}{α} \times τ}$ , W₂∈ $R^{τ \times \frac{τ}{α}}$ , α > 1为降维因子.

最后, 根据s赋予H_t=[H₁, H₂, …, H_τ]^T上每个时间步相应的权重:

${\tilde{H}}_{c}$ =F_scale(H_c, s)=s_cH_c, c=1, 2, …, τ .

经过注意力机制, 模型会聚焦于对预测结果影响较大的几个时间步, 降低不相关特征(如噪声)对空间特征提取造成的负面影响.

1.3 基于分时图卷积提取空间特征

图卷积网络通过邻接矩阵描述结点间的关系, 使用图卷积运算提取相关特征, 在分析非欧结构特征问题(如社交网络、分子结构)上得到广泛关注.根据实际公交客流量分布和居民出行规律, 本文使用分时图卷积网络(TsGCN)提取不同时段数据中的空间特征.

1.3.1 图卷积网络

对于任意公交线路, 图卷积网络通过谱图卷积聚合相关线路时间特征(包括自身), 以此实现对空间特征的提取.记卷积核g_θ=diag(θ ), 谱图卷积的一般定义为

g_θ* x=Ug_θU^Tx,

其中, x为输入特征, U为标准化拉普拉斯矩阵,

L=I- $D^{- \frac{1}{2}}$ A $D^{- \frac{1}{2}}$ =UΛ U^T,

为特征向量构成的矩阵.当线路较多时, 对L进行特征值分解往往需要耗费大量的计算资源.因此, g_θ通常由K阶切比雪夫多项式近似表达^[16]:

g_{θ '}(Λ )≈ $\overset{K}{\sum_{k = 1}}$ θ '_kT_k( $\tilde{Λ}$ )x,

其中, θ '∈ R^K为多项式系数构成的向量,

$\tilde{Λ}$ = $\frac{2}{λ_{\max}}$ Λ -I_N,

λ _max为L的最大特征值.对于切比雪夫多项式T_k(x), 满足

T₀(x)=1, T₁(x)=x, Tk₍x)=2xTk_-₁₍x)-Tk_-₂₍x).

最终谱图卷积可近似表示为

g_{θ '}* x≈ $\overset{K}{\sum_{k = 1}}$ θ '_kT_k( $\tilde{L}$ )x,

其中

$\tilde{L}$ = $\frac{2}{λ_{\max}}$ L-I_N,

为构建深层次的图卷积网络模型.Kipf等^[17]将其进一步简化为

g_θ* x≈ θ ${\tilde{D}}^{- \frac{1}{2}} \tilde{A} {\tilde{D}}^{- \frac{1}{2}}$ x,

其中, $\tilde{A}$ =A+I_N, $\tilde{D}$ 为对角矩阵, 满足 ${\tilde{D}}_{ii}$ = $\sum_{j} {\tilde{A}}_{ij}$ .将上式扩展至多通道图信号输入X∈ N^N^×^C, 第l层的输出为

H⁽^l⁾=σ ( ${\tilde{D}}^{- \frac{1}{2}} \tilde{A} {\tilde{D}}^{- \frac{1}{2}}$ H⁽^l^-1)Θ ⁽^l⁾)∈ $R^{N \times C_{l}}$ ,

其中, σ 为激活函数(如ReLU), ${\tilde{D}}^{- \frac{1}{2}} \tilde{A} {\tilde{D}}^{- \frac{1}{2}}$ 可看作为标准化后的对称邻接矩阵, Θ ⁽^l⁾∈ $R^{C_{l - 1} \times C_{l}}$ 为可训练参数.

1.3.2 关系矩阵构建

对于实际公交路网, 各线路客流量间的相关性往往会随着时间的推移而发生改变, 并且这种时变性与城市居民的日常出行需求和线路的运营时间、区域等具有紧密联系.以图2为例, 对于公交4号线路的客流量分布, 178号线在6:00~11:00的客流变化趋势与其具有高度相关性, 而在其它时间段表现出较大差异.这是因为, 在早高峰时段前后, 4号线与178号线的主要客流人群都来自于出行需求极其相似的区域, 而在其它时间段, 这种需求会因其途经区域的差异而发生改变.因此在不同时段, 特定公交线路的主要功能往往是不同的, 262号公交线路与4号线的关系也是如此.

	Figure Option View Download New Window
	图2 线路客流量分布曲线对比Fig.2 Comparison of line passenger flow distribution curves

根据公交线路实际客流量的一般分布, 一天通常可分为3个阶段:早高峰时段前后(6:00~12:00)、平稳时段(11:00~17:00)和晚高峰时段前后(16:00~22:00).早晚高峰的公交客流主要来自学生和上下班人群, 其余时段较平均, 基本没有占主导的出行人群.因此, 本文将一天分为这3个时段, 并认为在各自时段内, 线路间的空间依赖关系相对稳定.根据各自时段内的客流量分布, 选取1~2周内的数据, 利用Spearman相关系数^[18]计算不同公交路线的相互联系:

Corr( $R_{i}^{k}$ , $R_{j}^{k}$ )= $\frac{\overset{T_{k}}{\sum_{t = 1}} (u_{t}^{R_{i}^{k}} - {\overset{̅}{u}}^{R_{t}^{k}}) (u_{t}^{R_{j}^{k}} - {\overset{̅}{u}}^{R_{j}^{k}})}{\sqrt[]{\overset{T_{k}}{\sum_{t = 1}} (u_{t}^{R_{i}^{k}} - {\overset{̅}{u}}^{R_{t}^{k}})^{2} \overset{T_{k}}{\sum_{t = 1}} (u_{t}^{R_{j}^{k}} - {\overset{̅}{u}}^{R_{j}^{k}})^{2}}}$ ,

Ak(i, j)= $\{\begin{array}{l} Corr (R_{i}^{k}, R_{j}^{k}), & Corr (R_{i}^{k}, R_{j}^{k}) \geq T h_{k} \\ 0, & Corr (R_{i}^{k}, R_{j}^{k}) < T h_{k} \end{array}$

其中, $u_{t}^{R_{i}^{k}}$ 为线路R_i在第k个时段下、第t个时刻的客流量大小相对于该时段下所有时间序列的排名, T_k为序列的长度, Th_k为一个固定的门槛值.当公交线路客流间的相关性较弱时, 考虑这样的联系往往会干扰神经网络对数据特征的提取并造成过拟合现象, 因此, 本文在各时段下的关系建模时, 都设定一个门槛值, 消除这种影响并提取有效的空间关系.

由于影响客流的外在因素太多, 公交线路的实际连接关系(如换乘、接续等)不足以反映路网的复杂空间结构^[19], 因此, 本文使用相关系数对公交线路间的空间依赖性进行建模.

为了让分时图卷积可应用于神经网络的批训练过程, 利用矩阵乘的方式选择不同时段下的关系矩阵.具体地, 记一天中的时段数为q, 将输入数据所在时段编码为One-hot向量T_t∈ R^q, 其中

$T_{t}^{k}$ = $\{\begin{array}{l} 1, & t \in 第 k 个时段 \\ 0, & 其它 \end{array}$

为T_t的第k个值.将关系矩阵集合构造为一个多通道矩阵R^q^×^N^×^N, 将其与T_t相乘即可选择相应的邻接关系.

本文在图卷积网络中也加入残差模块, 即

H⁽^l⁾=σ (W⁽^l⁾σ ( $\overset{︿}{A}$ H⁽^l^-1)Θ ⁽^l⁾)+b⁽^l⁾)+H⁽^l^-1),

其中 $\overset{︿}{A}$ = ${\tilde{D}}^{- \frac{1}{2}} \tilde{A} {\tilde{D}}^{- \frac{1}{2}}$ 为标准化后的邻接矩阵, 从而使图卷积网络更容易优化.

1.4 外部特征融合

公交线路客流量的变化趋势往往与外部环境(如天气、是否为节假日等)具有紧密联系, 因此, 在提取数据中的时空间特征后, 融入外部环境E_t的特征表示f(E_t), 再对最终结果进行预测.在外部特征融合模块中, 节假日信息(工作日、节假日)、天气信息(小雨、暴雨、多云等)及时段信息作为公交客流量预测的外部环境, 都是经过One-hot编码后的向量.

本文使用嵌入得到各类外部环境向量的局部特征表示:

Y=WE,

其中, Y∈ R^O为嵌入后的结果, E∈ R^l为编码后的环境信息, W∈ R^O^×^l为可训练参数.随后, 利用全连接网络整合各局部特征, 得到外部环境信息的总体特征表示.

1.5 模型步骤

本文使用自适应矩估计(Adaptive Moment Estimation, Adam)优化算法进行批训练, 利用余弦退火(Cosine Annealing)策略调整学习率^[20].模型步骤具体如下.

算法1 TsGL

输入时间步长度τ , 预测线路数量N,

各时段关系门槛值集合

TH={Th_k|k=1, 2, …, q},

所有公交客流数据C∈ R^M^×^N,

每次调整学习率前的训练次数epoch

输出更新后的所有模型参数θ

构造关系矩阵集合A

//构造训练数据集D

for t=1:M do

X_t⇐[ $X_{t}^{1}$ , $X_{t}^{2}$ , …, $X_{t}^{N}$ ]^T

end for

for X_t_-_τ∈ C, …, X_t∈ C do

获取t时段下的所有外部因素E_t

X=[X_t_-_τ, …, X_t_-2, X_t_-1]

将([X, E_t], X_t)添加到数据集D中

end for

//模型训练

repeat

for i=1:epoch do

随机选择一批样本作为输入, 利用Adam算法最小化Y与 $\overset{︿}{Y}$ 间的平均均方误差, 直至训练完所有样本

利用余弦退火调整学习率

until 满足停止训练标准

2 实验及结果分析

2.1 实验数据集

本文使用苏州市2016年4月~9月的公交运营记录测试模型性能.数据集包含253条具有完整信息的线路, 覆盖约6 500个车站.由于许多线路的位置分布较分散且不具有代表性, 本文选取其中主要分布于苏州市商业区的100条公交线路作为实验目标.它们覆盖约3 500个车站, 平均车站数量为78个, 位置分布如图3所示.根据各公交路线的正常运营时间, 本文排除6:00之前和22:00之后的记录, 并以10 min为间隔统计不同时间段各公交车站的乘车人数, 最终得到14 592条记录作为数据集.

	Figure Option View Download New Window
	图3 公交线路实际分布Fig.3 Distribution of bus lines

图4给出目标公交线路在不同时间段的关系矩阵.

	Figure Option View Download New Window
	图4 公交线路在不同时间段的关系矩阵Fig.4 Affinity matrix of bus lines in different time periods

由图4可见, 公交线路间的实际联系会随时间的推移发生剧烈变化, 这与本文的分析是吻合的.按照7:1:2的比例, 公交客流记录划分为训练集、验证集和测试集.所有实验均使用z-score标准化作为数据预处理方法.2.2 评价指标

本文使用均方根误差期望(Root Mean Square Error, RMSE)、绝对误差期望(Mean Absolute Error, MAE)、皮尔森相关系数(Pearson Correlation, PCC)评估模型性能.各指标定义如下:

RMSE= $\sqrt[]{{\frac{1}{N} \overset{N}{\sum_{i = 1}} (y_{i} - {\hat{y}}_{i})}^{2}}$ ,

MAE= $\frac{1}{N} \overset{N}{\sum_{i = 1}}$ |y_i- ${\hat{y}}_{i}$ |,

PCC= $\frac{\overset{N}{\sum_{i = 1}} ({\dot{y}}_{i} - \bar{\dot{y}}) (y_{i} - \overset{̅}{y})}{\sqrt[]{\overset{N}{\sum_{i = 1}} {({\dot{y}}_{i} - \bar{\dot{y}})}^{2} \overset{N}{\sum_{i = 1}} (y_{i} {- \overset{̅}{y})}^{2}}}$ ,

其中, y_i为真实值, ${\hat{y}}_{i}$ 为预测值, N为预测客流总数, $\bar{\dot{y}}$ 为 $\hat{y}$ 的平均值, $\overset{̅}{y}$ 为y的平均值.

MAE用于衡量预测结果在整个测试集的整体误差, 对误差的异常值不够敏感.RMSE对特大或特小误差非常敏感, 可用于分析实际预测结果的稳定性.PCC可衡量预测结果和实际分布的线性相关性, 取值范围为[-1, 1], 其中, -1表示 $\hat{y}$ 和y为完全负相关, 1表示 $\hat{y}$ 和y完全正相关.因此, PCC值越接近于1, 表示预测结果与实际分布的正相关性越强.

2.3 参数设置

本文设置τ =10, 即使用过去100 min的历史数据实现预测.对于模型参数的选择, 使用网格搜索的方法确定网络模型的最优参数.其中, GCN的层数搜索范围为{1, 2, 3}, 每层GCN及LSTM的隐藏结点数目分别在{32, 64, 128}与{128, 256, 512}中进行搜索.实验表明, 当GCN层数为2且隐藏结点数为32、LSTM结点数为512时, 模型可取得最优效果, 其它对比模型的参数调优也都采用同样的方式完成.

本文使用Pytorch构建网络模型, 并通过早停法(Early Stop)完成训练过程.所有实验均以最小化客流量预测值和实际值的平均均方误差(Mean Square Error, MSE)作为训练目标.对于模型训练, 本文使用初始值为0.000 5、权重衰减为1e-4的Adam优化器调整学习率, 余弦退火的训练次数设置为50.

2.4 对比模型

1)历史平均(Historical Average, HA).利用过去10个时间段内客流量的平均值作为预测结果.

2)ARIMA^[21].作为一种早期的统计学习算法, 广泛应用于各种时间序列预测任务.

3)支持向量回归(Support Vector Regression, SVR).SVR是SVM的一个重要分支, 通过使样本点到超平面的距离得到最小训练模型.

4)LSTM.

5)卷积长短时记忆网络(Convolutional LSTM, ConvLSTM)^[22].将LSTM中的矩阵乘替换为卷积运算, 同时提取数据的时空间特征.这里, 使用DeepTrend 2.0^[23]中的方法构造网格.

6)GCN.聚合周围节点信息以提取数据中的特征, 实现交通预测任务.

7)扩散卷积递归神经网络(Diffusion Convo-lutional Recurrent Neural Networks, DCRNN)^[24].基于图卷积的交通预测模型, 将图卷积嵌入到GRU模块, 用于分析数据中的时空间依赖关系.

8)基于注意力机制的时空图卷积网络(Atten-tion Based Spatial-Temporal Graph Convolutional Networks, ASTGCN)^[25].基于时空注意力机制的图卷积网络模型, 利用时空间注意力模块聚焦数据中的重要信息, 并结合图卷积和传统卷积模块提取交通数据中的时空间特征, 提升交通预测的准确性.

2.5 实验结果

各模型公交客流量预测的实验结果如表1所示.由表可知, TsGL在各评价指标上都取得最优结果, 可见TsGL在捕捉公交线路间时空联系的优越性.此外, 相比传统算法, 尽管基于深度学习模型得到的预测曲线更接近于真实走势(PCC值更大), 但MAE和RMSE指标并非在各时段都是最优的.大部分模型在平稳时段(11:00~17:00)的预测结果甚至差于历史平均方法.这是因为, 在该时段, 数据中的时空特征与其它时段差异较大, 不同公交线路间的空间联系明显较弱, 噪声的影响会在较大程度上阻碍模型的学习.而TsGL对时段进行划分, 在不同时段使用不同的关系矩阵实现对特征的提取, 因此在所有时段上都取得最优结果.

表1 各模型在不同时间段上的性能对比 Table 1 Performance comparison of models in different time intervals

图5对比各模型对不同公交线路的预测结果, 这里只展示部分线路.由图可见, TsGL可实现与其它网络几乎相同或更优的预测精度, 因此, TsGL可全面提升公交线路客流量的预测准确度.

	Figure Option View Download New Window
	图5 各模型在不同线路上的预测结果对比Fig.5 Prediction result comparison of different models for different bus lines

图6给出各模型在训练过程中损失值的变化曲线.明显地, TsGL损失值的下降速率最快且最终损失值最小, 表明其具有最强的拟合能力.因此, TsGL不仅可提升公交客流预测的准确性, 还可加快学习速率.

	Figure Option View Download New Window
	图6 各模型的训练损失值对比Fig.6 Training loss comparison of different models

为了进一步验证TsGL结构的合理性, 使用如下模型变体进行对比:1)W-A, 去掉TsGL中的通道注意力模块; 2)W-E, 不考虑外部因素; 3)W-Ts, 仅使用单一关系矩阵.具体实验结果如表2所示.由表可见, 考虑外部因素的影响可小幅提升模型的预测性能, 而注意力机制可帮助模型有效提取数据中的时间特征.

表2 各TsGL变体的预测性能对比 Table 2 Prediction performance comparison of different variants of TsGL

3 结束语

针对公交客流量时空特征分析, 本文提出基于注意力机制和分时图卷积的公交客流预测模型.在时间特征提取上, 通过LSTM获取不同时间步上数据的特征表示, 使用通道注意力机制对其进行加权.在空间特征提取上, 提出分时图卷积方法, 建立不同公交线路间的空间相关性.根据城市居民日常出行需求, 将一天分成3个时段, 通过实际客流变化趋势, 分别构建不同时段下的关系矩阵.在实际预测时, 根据数据所在时段, 选择相应的邻接关系提取空间特征.实验结果表明, 本文模型在预测精度和学习速率上都具有明显的性能提升.今后将进一步分析公交线路间联系的影响因素, 并考虑利用网络本身自适应调整关系矩阵的权重, 强化模型对时空间特征的提取能力.

参考文献

文献选项

[1]	LÜ Y S, DUAN Y J, KANG W W, et al. Traffic Flow Prediction with Big Data: A Deep Learning Approach. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(2): 865-873. [本文引用:1]
[2]	LÜ Y S, CHEN Y Y, LI L, et al. Generative Adversarial Networks for Parallel Transportation Systems. IEEE Intelligent Transportation Systems Magazine, 2018, 10(3): 4-10. [本文引用:1]
[3]	LIU L B, QIU Z L, LI G B, et al. Contextualized Spatial-Temporal Network for Taxi Origin-Destination Demand Prediction. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(10): 3875-3887. [本文引用:1]
[4]	WU Y K, TAN H C, QIN L Q, et al. A Hybrid Deep Learning Based Traffic Flow Prediction Method and Its Understand ing. Transportation Research Part C(Emerging Technologies), 2018, 90: 166-180. [本文引用:1]
[5]	ZHANG J B, ZHENG Y, QI D K. Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction // Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2017: 1655-1661. [本文引用:1]
[6]	GONG M, FEI X, WANG Z H, et al. Sequential Framework for Short-Term Passenger Flow Prediction at Bus Stop. Transportation Research Record(Journal of the Transportation Research Board), 2014, 2417(7): 58-66. [本文引用:1]
[7]	LIU Y, LIU Z Y, JIA R. DeepPF: A Deep Learning Based Architecture for Metro Passenger Flow Prediction. Transportation Research Part C(Emerging Technologies), 2019, 101: 18-34. [本文引用:1]
[8]	LI J, PENG H, LIU L, et al. Graph CNNs for Urban Traffic Pa-ssenger Flows Prediction // Proc of the IEEE SmartWorld, Ubiquitous Intelligence and Computing, Advanced and Trusted Computing, Scalable Computing and Communications, Cloud and Big Data Computing, Internet of People and Smart City Innovation. Washington, USA: IEEE, 2018: 29-36. [本文引用:1]
[9]	ZHAO S Z, NI T H. Notice of Retraction: Prediction of Short-Term Bus Routes Passage Flow Based on Wavelet Analysis // Proc of the 2nd International Conference on Advanced Computer Control. Wa-shington, USA: IEEE, 2010: 49-52. [本文引用:1]
[10]	LI X S, CHEN Z Y, ZHU F H, et al. Short-Term Bus Passenger Flow Forecast Based on Deep Learning // Proc of the International Conference on Security, Pattern Analysis, and Cybernetics. Wa-shington, USA: IEEE, 2018: 372-376. [本文引用:1]
[11]	李梅. 基于深度学习的短时公交客流预测研究. 硕士学位论文. 北京: 北京交通大学, 2019. (LI M. Research on Short-Time Bus Passenger Flow Forecasting Based on Deep Learning. Master Dissertation. Beijing, China: Beijing Jiaotong University, 2019. ) [本文引用:1]
[12]	GENG X, LI Y G, WANG L Y, et al. Spatiotemporal Multi-graph Convolution Network for Ride-Hailing Demand Forecasting // Proc of the AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2019: 3656-3663. [本文引用:1]
[13]	HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory. Neural Computation, 1997, 9(8): 1735-1780. [本文引用:1]
[14]	HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition // Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE, 2016: 770-778. [本文引用:1]
[15]	HU J, SHEN L, ALBANIE S, et al. Squeeze-and -Excitation Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 42(8): 2011-2023. [本文引用:1]
[16]	HAMMOND D K, VANDERGHEYNST P, GRIBONVAL R. Wave-lets on Graphs via Spectral Graph Theory. Applied and Computational Harmonic Analysis, 2011, 30(2): 129-150. [本文引用:1]
[17]	KIPF T N, WELLING M. Semi-Supervised Classification with Graph Convolutional Networks[C/OL]. [2020-07-15]. https://arxiv.org/pdf/1609.02907.pdf. [本文引用:1]
[18]	ZWILLINGER D, KOKOSKA S. CRC Stand ard Probability and Statistics Tables and Formulae. Boca Raton, USA: Chapman & Hall, 2000. [本文引用:1]
[19]	LI Z X, JANARDHANAN M N, TANG Q H, et al. Mathematical Model and Metaheuristics for Simultaneous Balancing and Sequencing of a Robotic Mixed-Model Assembly Line. Engineering Optimization, 2018, 50(5): 877-893. [本文引用:1]
[20]	LOSHCHILOV I, HUTTER F. SGDR: Stochastic Gradient Descent with Warm Restarts[C/OL]. [2020-07-15]. https://arxiv.org/pdf/1608.03983v5.pdf. [本文引用:1]
[21]	AHMED M S, COOK A R. Analysis of Freeway Traffic Time-Series Data by Using Box-Jenkins Techniques. Transportation Research Record, 1979, 722: 1-9. [本文引用:1]
[22]	SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting // Proc of the 28th International Conference on Neural Information Processing Systems. New York, USA: ACM, 2015: 802-810. [本文引用:1]
[23]	DAI X Y, FU R, ZHAO E M, et al. DeepTrend 2. 0: A Light-Weighted Multi-scale Traffic Prediction Model Using Detrending. Transportation Research Part C(Emerging Technologies), 2019, 103: 142-157. [本文引用:1]
[24]	LI Y G, YU R S, SHAHABI C, et al. Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting[C/OL]. [2020-07-15]. https://arxiv.org/pdf/1707.01926.pdf. [本文引用:1]
[25]	GUO S G, LIN Y F, FENG N, et al. Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting // Proc of the AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press, 2019: 922-929. [本文引用:1]

2015

0.0

... 近年来,基于神经网络的深度学习算法逐渐受到更多研究者的关注,并在交通流预测、出租车需求分析等问题上取得显著效果^[1,2,3] ...

2018

0.0

... 近年来,基于神经网络的深度学习算法逐渐受到更多研究者的关注,并在交通流预测、出租车需求分析等问题上取得显著效果^[1,2,3] ...

2019

0.0

... 近年来,基于神经网络的深度学习算法逐渐受到更多研究者的关注,并在交通流预测、出租车需求分析等问题上取得显著效果^[1,2,3] ...

2018

0.0

... 对于单一路线,可根据不同路段将其划分为一维网格,从而避免对其复杂特征进行建模^[4] ...

2017

0.0

... Zhang等^[5]基于网格划分方法,提出深度时空残差网络(Deep Spatial-Temporal Residual Network),预测城市中每个区域的客流量,取得较优效果 ...

2014

0.0

... Gong等^[6]基于公交到达事件对车站流量的变化进行细致分析,结合差分自回归移动平均模型(Auto-Regressive Integrated Moving Ave-rage Model, ARIMA)和卡尔曼滤波器预测不同时间段的等待人数(Waiting Passenger Count, WPC),取得较优效果 ...

2019

0.0

... Liu等^[7]提出基于深度学习和多源信息融合的地铁客流量预测模型,能够有效提升预测的准确性 ...

2018

0.0

... Li等^[8]为了结合数据的空间信息,通过起讫点(Origin-Destination, OD)矩阵量化不同车站间关系的强弱,使用图嵌入的方式,基于传统卷积网络提取多车站地铁客流量的空间特征 ...

2010

0.0

... 在早期的研究中,Zhao等^[9]结合小波分析和神经网络,分析某一公交线路流量在不同时段的分布,实现线路客流短时预测 ...

2018

0.0

... 随后,栈式自动编码器(Stacked AutoEncoder, SAE)、深度信念网络(Deep Belief Network, DBN)、门控循环单元(Gated Recu-rrent Unit, GRU)、长短期记忆网络(Long Short-Term Memory, LSTM)等模型都被用于分析单一公交线路客流量的时间特征^[10,11] ...

2019

0.0

2019

0.0

... 不同时间步上提取的特征容易受到对应输入信息的影响,有的会阻碍对未来流量的预测(如较大的波动),有的会较好地反映当前的状态^[12] ...

1997

0.0

... 网络由多个LSTM模块组成,每个模块包含一个细胞、一个输入门、一个遗忘门和一个输出门^[13] ...

2016

0.0

... 本文引入残差结构融合数据原始特征,用于解决深度神经网络层数增加时带来的学习退化问题,并使网络更容易学习恒等映射函数^[14]: ...

2017

0.0

... 注意力机制最初用于图像处理,旨在为多通道图像特征的每个通道分配一个权值^[15],加强神经网络对重要特征的提取能力,减弱其它特征对模型学习的干扰 ...

2011

0.0

... 通常由K阶切比雪夫多项式近似表达^[16]: ...

0.0

... Kipf等^[17]将其进一步简化为 ...

2000

0.0

... 根据各自时段内的客流量分布,选取1~2周内的数据,利用Spearman相关系数^[18]计算不同公交路线的相互联系: ...

2018

0.0

... 由于影响客流的外在因素太多,公交线路的实际连接关系(如换乘、接续等)不足以反映路网的复杂空间结构^[19],因此,本文使用相关系数对公交线路间的空间依赖性进行建模 ...

0.0

... 5 模型步骤本文使用自适应矩估计(Adaptive Moment Estimation, Adam)优化算法进行批训练,利用余弦退火(Cosine Annealing)策略调整学习率^[20] ...

1979

0.0

... 2)ARIMA^[21] ...

2015

0.0

... 5)卷积长短时记忆网络(Convolutional LSTM, ConvLSTM)^[22] ...

2019

0.0

... 0^[23]中的方法构造网格 ...

0.0

... 7)扩散卷积递归神经网络(Diffusion Convo-lutional Recurrent Neural Networks, DCRNN)^[24] ...

2019

0.0

... 8)基于注意力机制的时空图卷积网络(Atten-tion Based Spatial-Temporal Graph Convolutional Networks, ASTGCN)^[25] ...