朱凤华,博士,副研究员,主要研究方向为人工交通系统、平行交通管理系统、智能控制等.E-mail:fenghua.zhu@ia.ac.cn.
作者简介
张 伟,硕士研究生,主要研究方向为交通数据挖掘、智能交通系统.E-mail:wei.zhang2018@ia.ac.cn.
陈圆圆,博士,助理研究员,主要研究方向为社会交通、机器学习及其在智能交通领域的应用.E-mail:yuanyuan.chen@ia.ac.cn.
吕宜生,博士,副研究员,主要研究方向为智能交通系统、人工智能、平行交通管理与控制系统.E-mail:yisheng.lv@ia.ac.cn.
实际公交路网通常为复杂的非线性时变系统,难以有效构建线路间的时空间依赖关系.因此,文中提出基于注意力机制和分时图卷积的公交客流预测模型,提升公交客流量预测的准确性.首先通过长短期记忆网络提取历史数据中的时间特征,并利用通道注意力模块加权特征.再使用分时图卷积方法分析不同时段下公交线路间的空间依赖性,根据预测时段选择不同的关系矩阵,通过图卷积的方式完成对非欧关系的建模.最后,融合提取的时空间特征与外部因素(天气、节假日信息等)的特征表示,得到最终的预测结果.在真实公交数据上的实验表明,文中模型可提升预测精度,加快学习速率.
ZHU Fenghua, Ph.D., associate professor. His research interests include artificial transportation system, parallel transportation system and intelligent control.
AboutAuthor:
ZHANG Wei, master student. His research interests include traffic data mining and inte-lligent transportation system.
CHEN Yuanyuan, Ph.D., assistant professor. His research interests include social transportation system, and data-driven traffic modeling and prediction.
LÜ Yisheng, Ph.D., associate professor. His research interests include intelligent transportation system, artificial intelligence, and parallel traffic management and control system.
Real bus network tends to be a complicated nonlinear time-varying system. Therefore, the spatiotemporal correlation between different bus lines can hardly be built effectively. To solve this problem, an attention and time-sharing graph convolution based long short-term memory network for bus passenger flow forecast is proposed. Firstly, temporal features of historical data are extracted by long short-term memory network(LSTM), and then they are weighted by a channel-wise attention module. A time-sharing graph convolution approach is utilized to analyze the spatial dependencies among bus lines. Different adjacent matrices are selected according to time intervals, and non-Euclidean pair-wise correlations are modeled via graph convolution. Finally, the final prediction result is obtained by integrating the extracted spatiotemporal features and vector representations of external factors, like weather and holiday information. Experiments on real bus passenger flow datasets indicate that the proposed model improves the prediction accuracy and learning speed evidently.
本文责任编委 付俊
Recommended by Associate Editor FU Jun
公共交通是城市交通系统的基础, 先进的公共交通系统 (Advanced Public Transportation System, APTS) 是智能交通系统的重要组成部分.然而, 车辆配置和公交线路的不合理、车次安排无法较好地契合人们出行需求的变化等都会严重影响城市的公交服务水平.准确的公交客流量预测是解决上述问题的关键技术之一, 对城市交通系统的管理和规划具有重要意义.
公交客流量预测旨在根据过去一段时间的客流量数据及其它信息 (如天气、线路车次安排等)预测未来一段时间内的客流量, 可认为是一种时空间序列预测问题.与地铁线路系统不同的是, 公交系统的配置和运营更具灵活性, 容易受到地面交通状况的影响, 因此线路间的时空间依赖性更紧密.近年来, 基于神经网络的深度学习算法逐渐受到更多研究者的关注, 并在交通流预测、出租车需求分析等问题上取得显著效果[1, 2, 3].
根据预测目标的不同, 客流量预测可分为区域流量预测、车站流量预测和线路流量预测.区域预测通过城市区域进行划分, 预测不同区域总的客流量分布.对于单一路线, 可根据不同路段将其划分为一维网格, 从而避免对其复杂特征进行建模[4].对于多条路线, 网格化划分是常用方法, 网络模型大多以传统卷积算法为核心.Zhang等[5]基于网格划分方法, 提出深度时空残差网络(Deep Spatial-Temporal Residual Network), 预测城市中每个区域的客流量, 取得较优效果.然而, 这种划分方法忽略城市交通网络的固有特征, 无法充分利用交通路线之间的相互联系.车站流量预测直接对公交车站在一段时间内的客流量进行预测.Gong等[6]基于公交到达事件对车站流量的变化进行细致分析, 结合差分自回归移动平均模型(Auto-Regressive Integrated Moving Ave-rage Model, ARIMA)和卡尔曼滤波器预测不同时间段的等待人数(Waiting Passenger Count, WPC), 取得较优效果.
在实际线路运行中, 客流量的分布和变化往往受到诸多因素的影响, 如天气、车辆到达事件等.Liu等[7]提出基于深度学习和多源信息融合的地铁客流量预测模型, 能够有效提升预测的准确性.Li等[8]为了结合数据的空间信息, 通过起讫点(Origin-Destination, OD)矩阵量化不同车站间关系的强弱, 使用图嵌入的方式, 基于传统卷积网络提取多车站地铁客流量的空间特征.然而, 这种方式需要预先找出相关区域, 当相关性发生改变时, 又需要重新计算关联结点, 难以部署在实际系统中.线路流量预测旨在分析一段时间内某条或多条路线总的客流量变化特征.在早期的研究中, Zhao等[9]结合小波分析和神经网络, 分析某一公交线路流量在不同时段的分布, 实现线路客流短时预测.随后, 栈式自动编码器(Stacked AutoEncoder, SAE)、深度信念网络(Deep Belief Network, DBN)、门控循环单元(Gated Recu-rrent Unit, GRU)、长短期记忆网络(Long Short-Term Memory, LSTM)等模型都被用于分析单一公交线路客流量的时间特征[10, 11].
本文旨在分析和提取多条公交线路的时空间特征, 提升客流预测的准确性.在时间依赖关系上, 虽然递归神经网络(如LSTM、GRU等)在交通预测任务上得到广泛应用, 但很多模型都只使用最后一步的输出结果作为时间特征.实际上, 在各时间步上提取的特征都会对未来一段时间内的流量产生一定程度上的影响.不同时间步上提取的特征容易受到对应输入信息的影响, 有的会阻碍对未来流量的预测(如较大的波动), 有的会较好地反映当前的状态[12].因此, 本文提出基于注意力机制和分时图卷积的公交客流预测模型(Attention and Time-Sharing Graph Convolution Based LSTM Network, TsGL).引入通道注意力模块(Channel-wise Attention), 为各时间步上的特征分配相应的权重.在空间依赖性分析上, 尽管许多交通预测模型开始使用图卷积网络(Graph Convolutional Network, GCN)代替图嵌入的方式, 但在对结点间的关系建模时往往忽略时变性.受到城市居民日常生活方式的影响(如早出晚归), 各条公交线路与其它线路间的主要联系会随时间的推移发生明显变化.因此, 本文使用分时图卷积方法(Time-Sharing GCN, TsGCN), 在一天中的不同时段构建不同的关系矩阵以解决上述问题.在真实公交数据上的实验表明, 本文模型能够有效提升公交线路客流量预测的准确性.
实际公交系统的拓扑结构和线路分布往往极不规则, 但公交线路间的功能性、地面连接等使不同线路间的客流量分布表现出强烈的相关性.因此, 可利用这种非欧关系, 实现同时预测多条公交线路的客流量.
公交路网结构可看作是一个拓扑图G=(V, E), 各线路构成图中的结点集合, V的模等于公交线路的数量, 即|V|=N, 线路之间的连接及其强度通过邻接矩阵集合
A={Ak|k=1, 2, …, Nr}
描述, Ak∈ RN× N为第k个时段对应的邻接矩阵, Nr为划分时段数量.取
Xt=[
为第t个时间步上的测量数据,
X=[X1, X2, …, Xτ ]∈ RN× τ
对应各公交线路在过去τ 个时间段内的所有测量数据.
公交线路客流量预测任务旨在利用这些历史测量数据, 预测未来一个时间步上各线路的上车客流量, 即
其中, Pt:RN× τ → RN为预测函数, 即网络模型的学习目标.
本文的基于注意力机制和分时图卷积的公交客流预测模型总体框架如图1所示, 主要包含4部分.
1)时间特征提取.对于历史客流数据, 本文使用LSTM学习数据中隐含的时间特征, 得到不同时间步上数据的高维特征表示.再利用全连接网络和残差模块, 提取历史数据在同维度下的特征表示.
2)注意力机制.使用通道注意力模块对不同时间步上提取的时间特征进行赋权, 降低不相关特征对最终预测结果的影响.
3)空间特征提取.根据不同时段的客流量数据分布, 构建相应的关系矩阵.在实际预测时, 根据当前时段, 利用分时图卷积网络提取当前状态下的空间特征.
4)特征融合.融合外部因素(天气、时段、节假日信息)的特征表示, 得到客流量预测的最终结果.
对于公交客流量预测任务, 本文使用LSTM提取历史数据的时间特征.网络由多个LSTM模块组成, 每个模块包含一个细胞、一个输入门、一个遗忘门和一个输出门[13].每个LSTM模块的计算过程如下:
it=σ (Wiixt+bii+Whiht-1+bhi),
ft=σ (Wifxt+bif+Whfht-1+bhf),
gt=tanh(Wigxt+big+Whght-1+bhg),
ot=σ (Wioxt+bio+Whoht-1+bho),
ct=ft☉ct-1+it☉gt,
ht=ottanh(ct).
其中:it为输入门, ft为遗忘门, gt为细胞, ot为输出门, xt为t时刻的输入, ht-1为t-1时刻的隐藏层状态, ct为t时刻的细胞状态, σ 为激活函数, 其余变量都为可训练参数.
本文引入残差结构融合数据原始特征, 用于解决深度神经网络层数增加时带来的学习退化问题, 并使网络更容易学习恒等映射函数[14]:
Ht=Xt+δ (W· LSTM(Xt)+b),
其中, Ht=Rτ × N为网络提取的时间特征, δ 为激活函数(如ReLU), LSTM(Xt)为LSTM的输出, W、b为可训练参数.
由于不同时间步上提取的特征对预测结果的影响程度不同, 本文使用通道注意力模块对不同时间步上提取到的时间特征进行赋权.注意力机制最初用于图像处理, 旨在为多通道图像特征的每个通道分配一个权值[15], 加强神经网络对重要特征的提取能力, 减弱其它特征对模型学习的干扰.
该机制首先使用平均池化(Average Pooling)的方式整合每个时间步上的总体信息:
zc=Fpool(Ht)=
再通过两层无偏置的全连接网络, 捕捉这些信息的相互依赖关系, 计算相应的权值:
s=Fex(z, W)=σ (W2δ (W1z)),
其中, σ 为Sigmoid激活函数, δ 为ReLU激活函数, W1∈
最后, 根据s赋予Ht=[H1, H2, …, Hτ ]T上每个时间步相应的权重:
经过注意力机制, 模型会聚焦于对预测结果影响较大的几个时间步, 降低不相关特征(如噪声)对空间特征提取造成的负面影响.
图卷积网络通过邻接矩阵描述结点间的关系, 使用图卷积运算提取相关特征, 在分析非欧结构特征问题(如社交网络、分子结构)上得到广泛关注.根据实际公交客流量分布和居民出行规律, 本文使用分时图卷积网络(TsGCN)提取不同时段数据中的空间特征.
1.3.1 图卷积网络
对于任意公交线路, 图卷积网络通过谱图卷积聚合相关线路时间特征(包括自身), 以此实现对空间特征的提取.记卷积核gθ =diag(θ ), 谱图卷积的一般定义为
gθ * x=Ugθ UTx,
其中, x为输入特征, U为标准化拉普拉斯矩阵,
L=I-
为特征向量构成的矩阵.当线路较多时, 对L进行特征值分解往往需要耗费大量的计算资源.因此, gθ 通常由K阶切比雪夫多项式近似表达[16]:
gθ '(Λ )≈
其中, θ '∈ RK为多项式系数构成的向量,
λ max为L的最大特征值.对于切比雪夫多项式Tk(x), 满足
T0(x)=1, T1(x)=x, Tk(x)=2xTk-1(x)-Tk-2(x).
最终谱图卷积可近似表示为
gθ '* x≈
其中
为构建深层次的图卷积网络模型.Kipf等[17]将其进一步简化为
gθ * x≈ θ
其中,
H(l)=σ (
其中, σ 为激活函数(如ReLU),
1.3.2 关系矩阵构建
对于实际公交路网, 各线路客流量间的相关性往往会随着时间的推移而发生改变, 并且这种时变性与城市居民的日常出行需求和线路的运营时间、区域等具有紧密联系.以图2为例, 对于公交4号线路的客流量分布, 178号线在6:00~11:00的客流变化趋势与其具有高度相关性, 而在其它时间段表现出较大差异.这是因为, 在早高峰时段前后, 4号线与178号线的主要客流人群都来自于出行需求极其相似的区域, 而在其它时间段, 这种需求会因其途经区域的差异而发生改变.因此在不同时段, 特定公交线路的主要功能往往是不同的, 262号公交线路与4号线的关系也是如此.
根据公交线路实际客流量的一般分布, 一天通常可分为3个阶段:早高峰时段前后(6:00~12:00)、平稳时段(11:00~17:00)和晚高峰时段前后(16:00~22:00).早晚高峰的公交客流主要来自学生和上下班人群, 其余时段较平均, 基本没有占主导的出行人群.因此, 本文将一天分为这3个时段, 并认为在各自时段内, 线路间的空间依赖关系相对稳定.根据各自时段内的客流量分布, 选取1~2周内的数据, 利用Spearman相关系数[18]计算不同公交路线的相互联系:
Corr(
Ak(i, j)=
其中,
由于影响客流的外在因素太多, 公交线路的实际连接关系(如换乘、接续等)不足以反映路网的复杂空间结构[19], 因此, 本文使用相关系数对公交线路间的空间依赖性进行建模.
为了让分时图卷积可应用于神经网络的批训练过程, 利用矩阵乘的方式选择不同时段下的关系矩阵.具体地, 记一天中的时段数为q, 将输入数据所在时段编码为One-hot向量Tt∈ Rq, 其中
为Tt的第k个值.将关系矩阵集合构造为一个多通道矩阵Rq× N× N, 将其与Tt相乘即可选择相应的邻接关系.
本文在图卷积网络中也加入残差模块, 即
H(l)=σ (W(l)σ (
其中
公交线路客流量的变化趋势往往与外部环境(如天气、是否为节假日等)具有紧密联系, 因此, 在提取数据中的时空间特征后, 融入外部环境Et的特征表示f(Et), 再对最终结果进行预测.在外部特征融合模块中, 节假日信息(工作日、节假日)、天气信息(小雨、暴雨、多云等)及时段信息作为公交客流量预测的外部环境, 都是经过One-hot编码后的向量.
本文使用嵌入得到各类外部环境向量的局部特征表示:
Y=WE,
其中, Y∈ RO为嵌入后的结果, E∈ Rl为编码后的环境信息, W∈ RO× l为可训练参数.随后, 利用全连接网络整合各局部特征, 得到外部环境信息的总体特征表示.
本文使用自适应矩估计(Adaptive Moment Estimation, Adam)优化算法进行批训练, 利用余弦退火(Cosine Annealing)策略调整学习率[20].模型步骤具体如下.
算法1 TsGL
输入 时间步长度τ , 预测线路数量N,
各时段关系门槛值集合
TH={Thk|k=1, 2, …, q},
所有公交客流数据C∈ RM× N,
每次调整学习率前的训练次数epoch
输出 更新后的所有模型参数θ
构造关系矩阵集合A
//构造训练数据集D
for t=1:M do
Xt⇐[
end for
for Xt-τ ∈ C, …, Xt∈ C do
获取t时段下的所有外部因素Et
X=[Xt-τ , …, Xt-2, Xt-1]
将([X, Et], Xt)添加到数据集D中
end for
//模型训练
repeat
for i=1:epoch do
随机选择一批样本作为输入, 利用Adam算法最小化Y与
利用余弦退火调整学习率
until 满足停止训练标准
本文使用苏州市2016年4月~9月的公交运营记录测试模型性能.数据集包含253条具有完整信息的线路, 覆盖约6 500个车站.由于许多线路的位置分布较分散且不具有代表性, 本文选取其中主要分布于苏州市商业区的100条公交线路作为实验目标.它们覆盖约3 500个车站, 平均车站数量为78个, 位置分布如图3所示.根据各公交路线的正常运营时间, 本文排除6:00之前和22:00之后的记录, 并以10 min为间隔统计不同时间段各公交车站的乘车人数, 最终得到14 592条记录作为数据集.
图4给出目标公交线路在不同时间段的关系矩阵.
由图4可见, 公交线路间的实际联系会随时间的推移发生剧烈变化, 这与本文的分析是吻合的.按照7:1:2的比例, 公交客流记录划分为训练集、验证集和测试集.所有实验均使用z-score标准化作为数据预处理方法.2.2 评价指标
本文使用均方根误差期望(Root Mean Square Error, RMSE)、绝对误差期望(Mean Absolute Error, MAE)、皮尔森相关系数(Pearson Correlation, PCC)评估模型性能.各指标定义如下:
RMSE=
MAE=
PCC=
其中, yi为真实值,
MAE用于衡量预测结果在整个测试集的整体误差, 对误差的异常值不够敏感.RMSE对特大或特小误差非常敏感, 可用于分析实际预测结果的稳定性.PCC可衡量预测结果和实际分布的线性相关性, 取值范围为[-1, 1], 其中, -1表示
本文设置τ =10, 即使用过去100 min的历史数据实现预测.对于模型参数的选择, 使用网格搜索的方法确定网络模型的最优参数.其中, GCN的层数搜索范围为{1, 2, 3}, 每层GCN及LSTM的隐藏结点数目分别在{32, 64, 128}与{128, 256, 512}中进行搜索.实验表明, 当GCN层数为2且隐藏结点数为32、LSTM结点数为512时, 模型可取得最优效果, 其它对比模型的参数调优也都采用同样的方式完成.
本文使用Pytorch构建网络模型, 并通过早停法(Early Stop)完成训练过程.所有实验均以最小化客流量预测值和实际值的平均均方误差(Mean Square Error, MSE)作为训练目标.对于模型训练, 本文使用初始值为0.000 5、权重衰减为1e-4的Adam优化器调整学习率, 余弦退火的训练次数设置为50.
1)历史平均(Historical Average, HA).利用过去10个时间段内客流量的平均值作为预测结果.
2)ARIMA[21].作为一种早期的统计学习算法, 广泛应用于各种时间序列预测任务.
3)支持向量回归(Support Vector Regression, SVR).SVR是SVM的一个重要分支, 通过使样本点到超平面的距离得到最小训练模型.
4)LSTM.
5)卷积长短时记忆网络(Convolutional LSTM, ConvLSTM)[22].将LSTM中的矩阵乘替换为卷积运算, 同时提取数据的时空间特征.这里, 使用DeepTrend 2.0[23]中的方法构造网格.
6)GCN.聚合周围节点信息以提取数据中的特征, 实现交通预测任务.
7)扩散卷积递归神经网络(Diffusion Convo-lutional Recurrent Neural Networks, DCRNN)[24].基于图卷积的交通预测模型, 将图卷积嵌入到GRU模块, 用于分析数据中的时空间依赖关系.
8)基于注意力机制的时空图卷积网络(Atten-tion Based Spatial-Temporal Graph Convolutional Networks, ASTGCN)[25].基于时空注意力机制的图卷积网络模型, 利用时空间注意力模块聚焦数据中的重要信息, 并结合图卷积和传统卷积模块提取交通数据中的时空间特征, 提升交通预测的准确性.
各模型公交客流量预测的实验结果如表1所示.由表可知, TsGL在各评价指标上都取得最优结果, 可见TsGL在捕捉公交线路间时空联系的优越性.此外, 相比传统算法, 尽管基于深度学习模型得到的预测曲线更接近于真实走势(PCC值更大), 但MAE和RMSE指标并非在各时段都是最优的.大部分模型在平稳时段(11:00~17:00)的预测结果甚至差于历史平均方法.这是因为, 在该时段, 数据中的时空特征与其它时段差异较大, 不同公交线路间的空间联系明显较弱, 噪声的影响会在较大程度上阻碍模型的学习.而TsGL对时段进行划分, 在不同时段使用不同的关系矩阵实现对特征的提取, 因此在所有时段上都取得最优结果.
图5对比各模型对不同公交线路的预测结果, 这里只展示部分线路.由图可见, TsGL可实现与其它网络几乎相同或更优的预测精度, 因此, TsGL可全面提升公交线路客流量的预测准确度.
图6给出各模型在训练过程中损失值的变化曲线.明显地, TsGL损失值的下降速率最快且最终损失值最小, 表明其具有最强的拟合能力.因此, TsGL不仅可提升公交客流预测的准确性, 还可加快学习速率.
为了进一步验证TsGL结构的合理性, 使用如下模型变体进行对比:1)W-A, 去掉TsGL中的通道注意力模块; 2)W-E, 不考虑外部因素; 3)W-Ts, 仅使用单一关系矩阵.具体实验结果如表2所示.由表可见, 考虑外部因素的影响可小幅提升模型的预测性能, 而注意力机制可帮助模型有效提取数据中的时间特征.
针对公交客流量时空特征分析, 本文提出基于注意力机制和分时图卷积的公交客流预测模型.在时间特征提取上, 通过LSTM获取不同时间步上数据的特征表示, 使用通道注意力机制对其进行加权.在空间特征提取上, 提出分时图卷积方法, 建立不同公交线路间的空间相关性.根据城市居民日常出行需求, 将一天分成3个时段, 通过实际客流变化趋势, 分别构建不同时段下的关系矩阵.在实际预测时, 根据数据所在时段, 选择相应的邻接关系提取空间特征.实验结果表明, 本文模型在预测精度和学习速率上都具有明显的性能提升.今后将进一步分析公交线路间联系的影响因素, 并考虑利用网络本身自适应调整关系矩阵的权重, 强化模型对时空间特征的提取能力.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|