通讯作者:
陈霸东,博士,教授,主要研究方向为信号处理、机器学习、脑机接口.E-mail:chenbd@mail.xjtu.edu.cn.
作者简介:
郑云飞,博士研究生,主要研究方向为机器学习、脑机接口.E-mail:zhengyf@stu.xjtu.edu.cn.
在宽度学习系统的基础上,以误差矢量的 p-范数为损失函数,结合固定点迭代策略,提出基于最小 p-范数的宽度学习系统.通过灵活设置 p的取值( p≥1),提出的最小 p-范数宽度学习系统能较好应对不同噪声的干扰,实现对不确定数据的建模任务.数值实验表明,在高斯、均匀、脉冲噪声干扰环境下,文中系统均能保持良好性能.将该系统应用于脑电图分类任务,在大多数被试上都能取得较高的分类精度.
About the Author:ZHENG Yunfei, Ph.D.candidate. His research interests include machine learning and brain computer interface.
Based on the broad learning system(BLS), a least p-norm based BLS(LP-BLS) is proposed, and it takes the p-norm of error vector as loss function and combines the fixed-point iteration strategy. With the proposed LP-BLS, the interferences from different noises can be well dealt with by flexibly setting the value of p( p≥1), so that the modeling task of unknown data can be better completed. Numerical experiments show that the good performance of the proposed method can always be maintained with Gaussian noise, uniform noise and impulse noise. Finally, the system is applied to electroencephalogram(EEG) classification task and achieves a higher classification accuracy on most subjects.
深度神经网络学习模型已成功应用于诸多回归及分类问题的建模研究.典型的深度神经网络学习模型包括深度玻尔兹曼机(Deep Boltzmann Ma-chines, DBM)[1]、深度置信网络(Deep Belief Networks, DBN)[2]、卷积神经网络(Convolutional Neural Networks, CNN)[3, 4]等.为了有效建立网络模型, 这些深度学习方法需不断调整神经网络的层数及每层网络所需的节点数, 然后采取迭代的方式确定各个层与层之间的连接权.在数据量庞大时, 调整十分耗时, 给实际应用带来困难.
为了应对这一难题, Chen等[5]提出宽度学习系统(Broad Learning System, BLS)并证明其具有通用的逼近能力(Universal Approximation Capability)[6].BLS首先将原始的输入数据经过一系列的随机映射, 形成特征节点矩阵.然后在特征节点矩阵的基础上, 经过一系列的随机增强变换, 形成增强节点矩阵.最后将所有的特征节点矩阵和增强节点矩阵送入输出端, 并借助伪逆求出隐层与输出层之间的连接权.由于在生成特征节点矩阵和增强节点矩阵的过程中, BLS所有的隐层连接权都是随机产生, 并且一直保持不变, 最终只需求出隐层与输出层之间的连接权, 这给整个训练过程带来极大的便利.此外, 当特征节点或增强节点数目不足时, BLS使用自己的增量学习范式[5], 从而可快速实现模型的重建.
在实际应用中, BLS不仅在手写字体识别等大规模数据集[5]上表现优异, 而且在小样本数据集的回归及分类任务中也取得令人满意的结果[6].然而, BLS在求解隐层与输出层之间连接权的过程中, 默认采用最小二乘法的正则化版本求解该参数.由于这种方式难以有效抑制非高斯噪声或异常值带来的负面影响[7], BLS系统的稳定性被降低.因此, 有必要寻找一种更可靠且有效的输出权求解方式.
在自适应滤波领域, 为了应对不同类型噪声的干扰, 误差的p次幂常用于构造损失函数(一般形式为J(e)=
除了采取单一的p值外, 由多个p值组合的损失函数也考虑用于构造一般形式的自适应滤波器, 包括最小平均混合范数算法(Least Mean Mixed-Norm, LMMN)[12]和稳健的混合范数算法(Robust Mixed-Norm, RMN)[13].结合p=2与p=4, LMMN的滤波性能优于LMS与LMF.结合p=1与p=2, RMN的鲁棒性接近SA, 同时在高斯噪声干扰环境下可以逼近LMS的滤波性能.此外, Pei等[14]从理论上证明当p≥ 1时, 由误差的p次幂构成的损失函数是一个关于待优化参数的凸函数, 在优化过程中不会出现落入局部极小值的现象.在实际应用中, 并不需要将p的取值局限于正整数, 进一步体现在递归全局最小平均p-范数算法(Recursive Total Least Mean p-norm, RTLMP)[15]、核递归最小平均p-范数算法(Kernel Recursive Least Mean p-norm, KRLMP)[16]及递归最小平均p-阶超限学习机(Recursive Least Mean p-Power Extreme Learning Machine, RLMP-ELM)[17]中.
由于误差的不同阶次信息在自适应滤波领域中表现优异, 本文将其用于求解BLS的输出权, 得到基于最小p-范数的宽度学习系统(Least p-norm Based BLS, LP-BLS).在LP-BLS中, 随机设置p的取值(p≥ 1), 适应变化的噪声环境, 增强原始BLS的鲁棒性.数值仿真实验表明, 在数据中含有未知噪声干扰时, LP-BLS能较好完成数据建模任务.当与共空间模式(Common Spatial Pattern, CSP)[18]结合对脑电波(Electroencephalogram, EEG)数据进行分类时, LP-BLS的分类性能优于BLS.
图1给出宽度学习系统的基本结构示意图.图中
X=
为N个M维的输入矢量组成的输入矩阵,
Y=
为N个C维的输出矢量构成的输出矩阵, Z1, Z2, …, Zk为特征节点矩阵, H1, H2, …, Hm为增强节点矩阵, W为隐层和输出层之间的连接权矩阵.下面具体介绍它们之间的相互联系.
首先, X经过k组特征映射, 形成k组特征节点矩阵Z1, Z2, …, Zk:
Zi=ϕ i(XWei+β ei)∈ RN× q, i=1, 2, …, k.
其中:ϕ i通常默认为一个线性变换, q为每组特征映射对应的特征节点数目; Wei∈ RM× q、 β ei∈ RN× q分别为随机产生的权值矩阵、偏置矩阵.
为了得到输入数据的稀疏表示, 随机产生的Wei和β ei通过一个稀疏自编码器[5, 19]进行微调.将所有的特征节点矩阵拼接成一个整体, 得到总的特征节点矩阵:
Zk=[Z1, Z2, …, Zk]∈ RN× kq.
进一步, Zk经过m组增强变换, 形成m组“ 增强节点” 矩阵H1, H2, …, Hm:
Hj=ξ j(ZkWhj+β hj)∈ RN× r, j=1, 2, …, m.
其中, r为每组增强变换对应的增强节点数目; Whj∈ Rkq× r、 β hj∈ RN× r也为随机产生的权值矩阵、偏置矩阵.值得注意的是, 这里的ξ j为一个非线性激活函数, 一般可将其设置为双曲正切函数:
ξ j(x)=tanh(x).
将所有的增强节点矩阵拼接成一个整体, 得到总的增强节点矩阵:
Hm=[H1, H2, …, Hm]∈ RN× mr.
为了方便表示, 这里引入新的变量
U=[Zk, Hm]∈ RN× L, L=kq+mr,
系统的最终估计输出为
其中
arg
其中λ 为正则化参数.所以, 有
W=
当λ → 0时, 易得
W=U† Y,
其中
U† =
表示U的伪逆, I为单位矩阵.上式即为当前求解BLS默认方式.它为回归和分类问题最优权的求解提供一个统一的解决方案:在回归问题中, 通常有C=1, 此时待求解的W为一个L× 1的矢量; 在分类问题中, C为一个大于1的整数, 此时待求解的W为一个L× C的矩阵.
在原始的BLS中, 利用正则化的最小二乘法求解最优W, 虽然会极大地方便训练过程, 但是也降低BLS的鲁棒性.这是由于正则化的最小二乘法采用误差矢量的2-范数构造损失函数, 难以有效抑制非高斯噪声污染或异常值带来的负面影响.鉴于此种情况, 本文以误差矢量的p-范数为损失函数, 提出LP-BLS.
首先考虑C=1 的情况, 即一般的回归问题.当C=1时, 输出为一个N× 1维的矢量:
y=
同时, 待求解的权为一个L× 1维的矢量, 表示为w.容易得到估计误差矢量
e=[e1, …, en, …, eN],
其中
en=yn-
为第n个样本对应的估计误差, un∈ R1× L为变换后的输入矩阵U∈ RN× L中的第n个行矢量, yn∈ R为输出矢量y中的第n个元素.根据p-范数的定义, 误差矢量的p-范数可表示为
‖ e‖ p=
不失一般性, 本文采用上述p-范数的p次幂(即
arg
令
J(w)=
则
其中
为一个由估计误差构成的对角阵.令
可得
w=
其中
ρ =
相比式(1), 式(2)中引入一个与误差有关的加权对角矩阵
例如:当某些训练样本被异常值干扰时, 对应的估计误差也非常大(幅值通常大于甚至远大于1).此时, 设置1< p< 2, 可将
接下来, 考虑C> 1且C为整数的情况, 其对应一般的分类问题.此时, 系统输出Y为一个N× C维的矩阵, 相应的待求解权W为一个L× C维的矩阵.根据矩阵分块原理, 将Y和W表示成如下的分块矩阵形式:
Y=[y1, y2, …, yC]∈ RN× C , W=[w1, w2, …, wC]∈ RL× C, (3)
其中, y1, y2, …, yC为C个维度为N× 1的列矢量, w1, w2, …, wC为C个维度为L× 1的列矢量.利用式(2)中的结果, 可得
wc=
将式(4)代入式(3), 得到输出权W的最终表达式.不难发现, 当p≠ 2时, 式(2)和式(4)都是一个关于w或wc的隐式方程, 因此需要找到一种有效的策略发现它们的真实解.
固定点迭代[20]是一种通过迭代方式求解隐式方程解的手段, 已成功应用于机器学习与信号处理领域[21, 22, 23].鉴于此种情况, 也采用固定点迭代策略求解式(2)和式(4).以式(2)为例, 令
f(w)=
则固定点迭代的核心迭代过程可表示为
w(t)=f(w(t-1)),
其中w(t)为第t个迭代时刻得到的输出权的解.在实际操作中, 可以随机给定一个初始化的权矢量w(0)∈ RL× 1, 并设定一个最大迭代次数上限值(如30), 从而达到开启与终止迭代过程的目的.
在推导LP-BLS的过程中, 采取分情况讨论的方式.首先考虑C=1的情况, 这实质上对应一般的回归问题.对于C> 1且C为整数的情形, 直接利用C=1时求得的结果.这意味着分类问题的求解是建立在对一般回归问题的求解基础之上.因此, 有必要先行评估它在回归问题中的表现.
本节使用常见的sinc函数曲线[24]拟合任务测试LP-BLS的回归性能, 描述如下:
y(x)=
其中x的取值服从[-10, 10]上的均匀分布.在仿真实验中, 借助上式产生500个训练样本和500个测试样本, 并在训练样本的输出上加入不同的噪声干扰, 包括:1)均值为0, 方差为0.01的高斯噪声; 2)分布在[-0.4, 0.4\]上的均匀噪声; 3)脉冲噪声.这里的脉冲噪声由η iBi产生[25], η i为一个成功率为
P(η i=1)=0.03
的伯努利过程; Bi的取值服从均值为0, 方差为100
为了充分评估LP-BLS的性能, 将原始的BLS作为对比方法, 并定义测试均方根误差(Testing Root Mean Square Error, TRMSE)为
TRMSE=
其中, Nte=500为测试样本的数目,
表1为不同噪声干扰环境下, BLS和LP-BLS的TRMSE及相关参数设置.
由表可见, 通过选择p=2, p=2.5与p=1.5, LP-BLS在高斯、均匀及脉冲噪声干扰环境下总能达到一个很小TRMSE.但对于BLS, 在脉冲噪声干扰环境下, 性能出现严重退化.
这是由于在BLS中, 默认p=2, 使其难以有效抑制异常干扰带来的负面影响.实验表明, LP-BLS更适合于噪声统计特性未知情况下数据的建模任务.接下来, 结合实际的EEG分类任务, 进一步测试LP-BLS的性能.
实验数据采用第三届国际脑机接口竞赛的IVa公开数据集[28, 29], 包含从5个健康被试测得的EEG数据.每个被试都要执行280次运动想象任务, 包括右手运动想象任务(类一)和右脚运动想象任务(类二).在他(她)执行运动想象任务的过程中, 带有118个电极的脑电帽, 用于采集他(她)的脑电信号.采集到的脑电信号分为两组:一组用于训练, 另外一组作为测试.具体到每个被试aa、al、av、aw、ay, 他们对应的训练实验次数分别为168, 224, 84, 56和28.同时, 他们对应的测试实验次数分别为112, 56, 196, 224和252.
为了去除与运动想象无关的数据片段, 对于每个训练或测试试验数据, 选择性地截取在每个指令下达后的0.5 s~2.5 s数据片段作为有效样本.这些样本会通过一个起止频率为8 Hz与30 Hz的5阶巴特沃斯带通滤波器进行滤波处理.在此基础上, 使用共空间模式(CSP)[18]提取这些样本的有效特征.类似于文献[30]、文献[31], 使用6个空域滤波器构造最终的特征向量.这些得到的特征向量与相应的标签将用于训练分类器并测试分类器的分类性能.
除了LP-BLS与原始的BLS, 线性判别式分析(Linear Discriminant Analysis, LDA)[32]、k-最近邻(k-NearestNeighbor, KNN)[33]、支持向量机(Support Vector Machine, SVM)[34]、超限学习机(Extreme Learning Machine, ELM)[24]也用于执行第三届国际脑机接口竞赛IVa公开数据集上的分类任务.在这些算法中, KNN与SVM直接调用Matlab自带的工具箱.
为了得到相应算法的最佳分类精度, 同样采取网格搜索法确定它们的参数配置.具体地, 对于原始的BLS 和LP-BLS, 正则化参数设置为2-30, 网络节点参数的搜索范围为1∶ 1∶ 10, 1∶ 1∶ 10和1∶ 2∶ 100, 同时LP-BLS中p的取值在{1.5, 2.0, 2.5, 3.0} 中选取.对于ELM, 默认选用sigmoid激活函数, 正则化参数设置为 2-30, 节点参数的搜索范围为1∶ 2∶ 300 .对于KNN, k的搜索范围为1∶ 1∶ 20.对于SVM, 选用高斯核函数, 核参数的取值在{2-7, 2-6, …, 26, 27}中选取.
表2给出不同算法在第三届国际脑机接口竞赛公开数据集IVa上取得的最佳分类精度.表中每个被试对应的分类精度都是在10个蒙特卡洛运行的基础上求平均得到.由表可见, LP-BLS在除了aa和ay以外的其它3个被试上都能取得最高的分类精度, LP-BLS在5个被试上取得的平均分类精度也是最高的.对于BLS, 虽然整体上表现出比LDA、KNN、SVM、ELM更强的分类能力, 但是分类精度依然低于LP-BLS.
在宽度学习系统(BLS)的基础上, 本文以误差矢量的p-范数为损失函数, 结合固定点迭代策略, 提出基于最小p-范数的宽度学习系统(LP-BLS).数值实验表明, p-范数的引入大幅增强BLS应对复杂噪声干扰的能力.在第三届国际脑机接口竞赛IVa公开数据集上, LP-BLS的EEG分类能力优于LDA、KNN、SVM、ELM、BLS.后续研究工作将重点放在推导LP-BLS的增量学习范式上, 并考虑在更多EEG数据集上测试其分类性能.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|