模式识别与人工智能

Select

自动驾驶安全挑战:行为决策与运动规划

关鑫, 史佳敏, 陈仕韬, 刘剑毅, 郑南宁

模式识别与人工智能. 2023, 36(3): 191-210. https://doi.org/10.16451/j.cnki.issn1003-6059.202303001

PDF全文 ( )

HTML ( )

可视化

在自动驾驶技术发展中,安全性一直作为首要因素被业界重视.行为决策与运动规划系统作为该技术的关键环节,对智慧属性具有更高要求,需要不断地随着环境变化做出当前的最优策略与行为,确保车辆行驶过程中的安全.文中分别对行为决策和运动规划系统进行深层次阐述,首先,介绍行为决策中基于规则的决策算法、基于监督学习的决策算法、基于强化学习的决策算法的算法理论及其在实车中的应用.然后,介绍运动规划中基于采样的规划算法、基于图搜索的规划算法、基于数值优化的规划算法和基于交互性的规划算法,并对算法的设计展开讨论,从安全角度分析行为决策和运动规划,对比各类方法的优缺点.最后,展望自动驾驶领域未来的安全研究方向及挑战.

Select

面向不平衡数据的深度TSK模糊分类器

卞则康, 张进, 王士同

模式识别与人工智能. 2023, 36(3): 211-224. https://doi.org/10.16451/j.cnki.issn1003-6059.202303002

PDF全文 ( )

HTML ( )

可视化

为了进一步提升Takagi-Sugeno-Kang(TSK)模糊分类器在不平衡数据集上的泛化能力和保持其较好的语义可解释性,受集成学习的启发,提出面向不平衡数据的深度TSK模糊分类器(A Deep TSK Fuzzy Classifier for Imbalanced Data, ID-TSK-FC).ID-TSK-FC主要由一个不平衡全局线性回归子分类器(Imbalanced Global Linear Regression Sub-Classifier, IGLRc)和多个不平衡TSK模糊子分类器(Imbalanced TSK Fuzzy Sub-Classifier, I-TSK-FC)组成.根据人类“从全局粗糙到局部精细”的认知行为和栈式叠加泛化原理,ID-TSK-FC首先在所有原始训练样本上训练一个IGLRc,获得全局粗糙的分类结果.然后根据IGLRc的输出,识别原始训练样本中的非线性分布训练样本.在非线性分布训练样本上,以栈式深度结构生成多个局部I-TSK-FC,获得局部精细的结果.最后,对于栈式堆叠IGLRc和所有I-TSK-FC的输出,使用基于最小距离投票原理,得到ID-TSK-FC的最终输出.实验表明,ID-TSK-FC不仅具有基于特征重要性的可解释性,而且具有至少相当的泛化性能和语义可解释性.

Select

结合高斯混合模型与多通道双边滤波的RGBD场景流计算方法

王梓歌, 李盈盈, 葛利跃, 陈震, 张聪炫

模式识别与人工智能. 2023, 36(3): 225-241. https://doi.org/10.16451/j.cnki.issn1003-6059.202303003

PDF全文 ( )

HTML ( )

可视化

针对现有RGBD场景流计算方法在大位移、运动遮挡等复杂运动场景中存在计算准确性与可靠性较低的问题,文中提出结合高斯混合模型与多通道双边滤波的RGBD场景流计算方法.首先,构造基于高斯混合模型的光流聚类分割模型,从光流中提取目标运动信息,逐层优化深度图分层分割结果,获取高置信度的深度运动分层分割信息.然后,在场景流计算中引入多通道双边滤波优化,建立结合高斯混合模型与多通道双边滤波的RGBD场景流计算模型,克服场景流计算边缘模糊问题.最后,在Middlebury、MPI-Sintel数据集上的实验表明,文中方法在大位移、运动遮挡等复杂运动场景下具有较高的场景流计算准确性和鲁棒性,特别在边缘区域具有较好的保护效果.

Select

纹理和深度特征增强的双流人脸呈现攻击检测方法

孙锐, 冯惠东, 孙琦景, 单晓全, 张旭东

模式识别与人工智能. 2023, 36(3): 242-251. https://doi.org/10.16451/j.cnki.issn1003-6059.202303004

PDF全文 ( )

HTML ( )

可视化

人脸呈现攻击是一种利用照片、视频等将人脸通过媒介呈现在摄像头前欺骗人脸识别系统的技术.现有的人脸呈现攻击检测方法大多采用深度特征辅助监督分类,忽略有效的细粒度信息以及深度信息与纹理信息的相互联系.因此,文中提出纹理和深度特征增强的双流人脸呈现攻击检测方法.一端网络通过中心差分卷积网络提取比原始卷积网络更鲁棒的欺骗人脸纹理模式.另一端网络通过生成对抗网络生成深度图的深度线索,提高对外观变化和图像质量差异的稳定性.在特征增强模块中,设计中心边缘损失,对两类互补特征进行融合和增强.在4个数据集上的实验表明,文中方法在数据集内以及跨数据集的测试中都取得较优性能.

Select

双分支多注意力机制的锐度感知分类网络

姜文涛, 赵琳琳, 涂潮

模式识别与人工智能. 2023, 36(3): 252-267. https://doi.org/10.16451/j.cnki.issn1003-6059.202303005

PDF全文 ( )

HTML ( )

可视化

基于卷积神经网络的图像分类方法的关键是提取有区分性的重点特征.为了提高重点特征的关注度,增强网络泛化能力,文中提出双分支多注意力机制的锐度感知分类网络(Double-Branch Multi-attention Mechanism Based Sharpness-Aware Classification Network, DAMSNet).该网络以ResNet-34残差网络为基础,首先,修改ResNet-34残差网络输入层卷积核尺寸,删除最大池化层,减小原始图像特征的损失.再者,提出双分支多注意力机制模块,嵌入残差分支中,从全局特征和局部特征上提取图像在通道域和空间域的上下文信息.然后,引入锐度感知最小化算法,结合随机梯度下降优化器,同时最小化损失值和损失锐度,寻找具有一致低损失的邻域参数,提高网络泛化能力.在CIFAR-10、CIFAR-100、SVHN数据集上的实验表明,文中网络不仅具有较高的分类精度,而且有效提升泛化能力.

Select

用于流式语音识别的轻量化端到端声学架构

杨淑莹, 李欣

模式识别与人工智能. 2023, 36(3): 268-279. https://doi.org/10.16451/j.cnki.issn1003-6059.202303006

PDF全文 ( )

HTML ( )

可视化

在流式识别方法中,分块识别破坏并行性且消耗资源较大,而限制自注意力机制的上下文识别很难获得所有信息.由此,文中提出轻量化端到端声学架构(CFLASH-Transducer).为了获取细腻的局部特征,采用轻量化的FLASH(Fast Linear Attention with a Single Head)与卷积神经网络块结合.卷积块中采用Inception V2网络,提取语音信号多尺度的局部特征.再通过Coordinate Attention机制捕获特征的位置信息和多通道之间的相互关联.此外,采用深度可分离卷积,用于特征增强和层间平滑过渡.为了使其可流式化处理音频,采用RNN-T(Recurrent Neural Network Transducer)架构进行训练与解码.将当前块已经计算的全局注意力作为隐变量,传入后续块中,串联各块信息,保留训练的并行性和相关性,并且不会随着序列的增长而消耗计算资源.在开源数据集THCHS30上进行训练与测试,CFLASH-Transducer取得较高的识别率.并且相比离线识别,流式识别精度损失不超过1%.

选择文件类型/文献管理软件名称

选择包含的内容

本期目录

2023年, 第36卷, 第3期　刊出日期：2023-03-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

本期目录

2023年, 第36卷, 第3期 刊出日期：2023-03-25

2023年, 第36卷, 第3期　刊出日期：2023-03-25