现有的部分处理三维数据的网络缺乏旋转等变性,难以处理经过未知旋转后的三维物体并估计其姿态变化.为了解决此问题,文中提出结合扩散模型的三维旋转等变自监督学习矢量网络,用于学习三维物体的旋转信息,估计三维物体的姿态变化.对于等变矢量网络,使用矢量神经元将标量数据提升为矢量表示,利用自监督学习的方式在无需标注数据的情况下学习三维目标的矢量信息,实现对三维数据的旋转重建和姿态变化估计.同时,针对姿态估计结果局部偏差的问题,构建用于优化整体姿态变化估计结果的扩散模型,在局部姿态信息的加噪去噪过程中,较好地去除局部姿态中的噪声,并使用去噪后的局部姿态信息优化整体姿态信息.实验表明,文中网络在测试数据随机旋转时,能估计数据在三维空间中的姿态变化.提出的扩散模型在重组任务上也可通过局部姿态信息优化整体姿态信息.
针对图像分类网络主要依赖空域特征、忽略频域特征的作用,从而导致性能提升受限的问题,文中提出面向图像分类的双域特征联合网络(Two-Domain Feature Association Networks for Image Classification, TANet).首先,设计频域特征提取模块(Frequency Domain Feature Extraction, FDFE),利用快速傅里叶变换有效捕捉图像中的频域细节信息及全局特征,减少关键特征流失,增强图像细节信息的表示能力,提高网络对图像特征的提取能力.再者,设计频域注意力机制模块(Frequency Domain Attention Mechanism, FDAM),考虑多尺度空域特征的同时结合快速傅里叶变换提取频域信息,加强对图像细节的敏感度,提高关键区域贡献度.然后,设计双域特征联合机制(Two-Domain Feature Association Mechanism, TFAM),融合频域特征与空域特征,在保证拥有空域特征的前提下,利用频域特征补充图像细节信息及全局特征,提升特征的表达能力.最后,在残差分支中嵌入FDAM,有效学习输入数据的双域特征,平衡局部信息与全局信息的关注度,增强关键特征的可利用性,提高网络的图像分类能力.在5个公共数据集上的实验表明,TUNet通过联合频域特征可提取图像细节信息及全局特征,减少关键特征流失,加强重要区域的感知能力,提高特征的表达能力,提升网络的图像分类性能.
在现代数据分析与机器学习应用中,如何对新采样数据提取关键信息以进行高效分组、标注,是聚类算法面临的核心挑战之一.传统无监督聚类算法缺乏先验信息指导,难以满足复杂任务(如大模型预训练)对高质量数据的需求.主动学习方法可有效提升聚类精度,但高昂的人机交互成本和计算开销限制其实际应用.为此,文中提出基于改进最近邻图的主动聚类方法(Active Clustering with Tailored Nearest Neighbor Graph, ACNNG).ACNNG构造稀疏的最近邻图结构,刻画数据之间的关联.在该图的基础上,综合计算节点拓扑结构中心性和分组不确定性,有效识别关键数据点,并向用户寻求少量成对约束标注,显著提升聚类准确性.此外,ACNNG使用与最近邻图结构协作的高效标签传播机制,利用稀疏图结构实现低成本的标签扩展,大幅降低方法的时空复杂度,提升其在大规模数据处理中的可扩展性.在真实世界数据集与合成数据集上的实验表明,ACNNG不仅能利用较少的成对约束提高聚类准确性,而且运行时间较短,内存消耗较少,在实际场景中具有一定的应用潜力.
稳定扩散模型(Stable Diffusion Model, SD)在面对包含多个对象的文本提示时,不能保证输入文本与其生成的图像完全对齐,而完全重新训练SD花费的资源是巨大的.因此,文中提出基于双重优化稳定扩散模型的文本生成图像方法(Text-to-Image Generation via Dual Optimization Stable Diffusion Model, DualOpt-SD).首先,基于预训练的SD,将布局生成图像模型(Layout-to-Image Generation, L2I)通过生成框架引入文本生成图像模型(Text-to-Image Generation, T2I)中.然后,设计双重优化策略(Dual Optimization, DualOpt),优化推理过程中输出的噪声.DualOpt由两部分组成:一部分结合注意力分数,动态调整L2I和T2I学习的先验知识;另一部分针对不同去噪阶段的需求,对L2I和T2I进行差异化关注度处理.实验表明,当文本提示包含多个对象时,DualOpt-SD在保留SD强理解力的同时,可提高构图准确性,并且生成图像的综合能力较优,能够生成高真实性和对象位置合理的图像.
联合文本模态和图像模态中的语义信息是图像描述任务的关键点之一,但现有的图像描述方法往往只将文本信息作为解码阶段的约束条件或是简单地将文本特征与图像特征进行拼接融合,导致文本和图像之间的跨模态交互不足,产生模态鸿沟,使方法在编码阶段无法充分利用文本含有的语义信息.针对此问题,文中提出基于跨模态先验注入(Cross-Modal Prior Injection, CMPI)的图像描述方法.首先,通过CLIP(Contrastive Language-Image Pre-training)提取文本先验知识.然后,将文本先验知识与模态介质进行第一次模态交互,得到同时含有文本语义信息和图像语义信息的跨模态特征.最后,将跨模态特征与图像的网格特征进行第二次模态交互,以跨模态特征作为媒介,将文本先验知识注入图像特征中,从而在不破坏图像特征结构的前提下,融入文本的语义信息,缓解模态鸿沟问题.在MSCOCO数据集上的Karpathy划分实验表明,CMPI在一阶段训练的CIDEr(Consensus-Based Image Description Evaluation)分数为128.0,二阶段训练的CIDEr分数为140.5,具有一定优势.