模式识别与人工智能
   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能
22 学术不端论文认定及处理办法
22 版权转让协议
22 保密证明
22 录用稿件电子版要求
22 修改说明格式
更多....
22 中国自动化学会
22 国家智能计算机研发中心
22 中科院合肥智能机械所
更多....
 
 
2024年 37卷 11期 刊出日期 2024-11-25

面向视觉的目标识别与追踪
研究与应用
 
面向视觉的目标识别与追踪
947 基于场景图知识的文本到图像行人重识别
王晋溪, 鲁鸣鸣
现有的大多数文本到图像的行人重识别方法对CLIP(Contrastive Language-Image Pretraining)等视觉语言模型进行微调以适应行人重识别任务,并获得预训练模型的强大视觉语言联合表征能力,然而,这些方法通常只考虑对下游重识别任务的任务适应,却忽视由于数据差异所需的数据域适应,难以有效捕获结构化知识(理解对象属性及对象间关系).针对这些问题,基于CLIP-ReID,文中提出基于场景图知识的文本到图像行人重识别方法,采用两阶段训练策略.在第一阶段,冻结CLIP的图像编码器和文本编码器,利用提示学习优化可学习提示词,实现下游数据域与CLIP原始训练数据域的适配,解决数据域适应的问题.在第二阶段,微调CLIP的同时引入语义负采样和场景图编码器模块,先通过场景图生成语义相近的难样本,并引入三元组损失作为额外优化目标,再引入场景图编码器,将场景图作为输入,增强CLIP在第二阶段对结构化知识的获取能力.在3个广泛使用的数据集上验证文中方法的有效性.
2024 Vol. 37 (11): 947-959 [摘要] ( 6 ) [HTML 1KB] [PDF 1137KB] ( 2 )
960 基于文本图像互学习的换衣行人重识别方法
葛斌, 卢洋, 夏晨星, 官骏鸣
针对行人重识别在换衣场景下的小数据集样本中识别精度较低的问题,结合大模型CLIP(Contrastive Language-Image Pre-training)生成伪文本的功能,提出基于文本图像互学习的换衣行人重识别方法.在训练第一阶段,设计伪文本生成器,交换同批次中的样本像素,生成多样性文本,增强文本差异性,并通过语义对齐损失约束文本特征的一致性.在第二阶段,设计局部全局融合网络,融合局部特征和全局特征,在第一阶段文本信息的指导下,增强视觉特征的判别性.在PRCC、Celeb-ReID、Celeb-Light、VC-Clothes数据集上的实验表明,文中方法可提升在小数据集样本中的性能.
2024 Vol. 37 (11): 960-973 [摘要] ( 2 ) [HTML 1KB] [PDF 4141KB] ( 1 )
974 无锚框关键点与注意力机制结合的自适应孪生网络目标追踪方法
袁帅, 窦慧泽, 耿金玉, 栾方军
目前孪生网络目标追踪算法在目标候选框的生成阶段计算复杂度较高,导致算法存在实时性较差以及在复杂场景中目标追踪精准度较低等缺陷.针对这些问题,文中提出无锚框关键点与注意力机制结合的自适应孪生网络目标追踪方法.首先,在孪生子网络的主干网络中设计大核卷积注意力模块,提取目标全局特征, 提升方法的精准度和泛化能力.然后,设计无锚框多关键点模块,学习目标的多关键点,采用自适应学习权重系数模块,筛选准确的目标关键点,进一步提升方法的精准度和鲁棒性.最后,将关键点转换成预测框,无需生成预定义的目标候选框,可减少计算复杂度,提升目标追踪的实时性.在4个数据集上的实验表明,文中方法在精准度和成功率上都有所提升.
2024 Vol. 37 (11): 974-985 [摘要] ( 4 ) [HTML 1KB] [PDF 1679KB] ( 4 )
986 面向皮肤镜图像识别的内卷胶囊网络
王凌翔, 张莉
皮肤镜图像识别能区分皮肤病变,有助于皮肤癌的早期诊断.为了提高皮肤镜图像识别效率,文中提出面向皮肤镜图像识别的内卷胶囊网络(Involutional Capsule Network, InvCNet),融合内卷操作和全局注意力机制(Global Attention Mechanism, GAM),并去除重构部分.内卷操作融合特征图在通道上的信息,提供丰富的细节,增强皮肤镜图像特征.GAM减轻卷积和池化操作引起的空间信息损失,放大跨维度交互.在4个皮肤镜图像数据集上的实验表明,InvCNet大幅减少网络参数量,并在多数数据集上性能较优.
2024 Vol. 37 (11): 986-998 [摘要] ( 2 ) [HTML 1KB] [PDF 968KB] ( 1 )
研究与应用
999 动态融入k近邻知识的领域机器翻译方法
黄于欣, 申涛, 江姝婷, 曾豪, 赖华
基于k近邻检索的领域机器翻译方法通过解码器预测分布与k近邻知识的融合提升翻译性能,但检索知识的不准确性可能会对模型预测产生干扰.为此,文中提出动态融入k近邻知识的领域机器翻译方法.首先,通过评估解码器输出分布的置信度,结合门控机制,动态判断是否融合k近邻结果,灵活调整k近邻知识的融合程度.然后,引入自适应k值模块,减少错误知识干扰.同时,设计分布引导损失,引导模型输出逐步逼近目标分布,提高翻译的准确性.最后,在四个德语-英语领域机器翻译数据集上的实验表明文中方法的性能具有一定提升.
2024 Vol. 37 (11): 999-1009 [摘要] ( 5 ) [HTML 1KB] [PDF 909KB] ( 4 )
1010 基于扩散模型的无条件反事实解释生成方法
仲智, 王宇, 祝子烨, 李云
反事实解释通过对输入数据实施最小且具解释性的改动改变模型输出,揭示影响模型决策的关键因素.现有基于扩散模型的反事实解释方法依赖条件生成,需要额外获取与分类相关的语义信息,难以保证语义信息质量并增加计算成本.针对上述问题,文中基于生成扩散模型中的DDIMs(Denoising Diffusion Implicit Models),提出基于扩散模型的无条件反事实解释生成方法.首先,利用隐式去噪扩散模型在反向去噪过程中展现的一致性,将噪声图像视为隐变量以控制输出生成,从而使扩散模型适用于无条件的反事实解释生成流程.然后,充分利用隐式去噪扩散模型在过滤高频噪声和分布外扰动方面的优势,重塑无条件的反事实解释生成流程,生成具有解释性的语义改动.在不同数据集上的实验表明,文中方法的多项指标值较优.
2024 Vol. 37 (11): 1010-1021 [摘要] ( 5 ) [HTML 1KB] [PDF 4222KB] ( 6 )
1022 基于优质样本筛选的离线强化学习算法
侯永宏, 丁旺, 任懿, 董洪伟, 杨松领
针对离线强化学习算法过度依赖数据集样本质量的问题,提出基于优质样本筛选的离线强化学习算法.首先,在策略评估阶段,赋予优势值的样本更高的更新权重,并添加策略熵项,快速识别高质量且在数据分布内概率较高的动作样本,从而筛选更有价值的动作样本.在策略优化阶段,最大化归一化优势函数的同时,保持对数据集上动作的策略约束,使算法在数据集样本质量较低时也可高效利用优质样本,提升策略的学习效率和性能.实验表明,文中算法在MuJoCo-Gym环境的D4RL离线数据集上表现出色,并且可成功筛选更有价值的样本,由此验证其有效性.
2024 Vol. 37 (11): 1022-1032 [摘要] ( 4 ) [HTML 1KB] [PDF 1530KB] ( 5 )
模式识别与人工智能
 

主管:中国科学技术协会
主办:中国自动化学会
   国家智能计算机研究开发中心
   中国科学院合肥智能机械研究所
出版:科学出版社
 
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn