“面向开放环境的自适应感知研究进展”专辑序言

模式识别和人工智能领域60多年来的研究取得了巨大进展。尤其是近年来快速发展的深度学习(深度神经网络)方法, 在视觉模式识别、语音识别、自然语言处理、博弈等智能感知和认知问题上都取得了超过传统的基于人工特征和知识规则的方法的性能, 甚至超过人类水平。深度学习相比传统模式识别方法的最大特点是从数据自动学习具有很强判别性和表示能力的特征, 从而得到很高的分类性能。然而, 这些成功大多依赖于传统机器学习的三个基本假设:封闭世界假设(类别集固定)、独立同分布假设(测试数据和训练数据的分布一致且样本间相互独立)、大数据假设(需要大量样本估计模型参数)。在实际开放环境下, 这些条件假设往往不满足, 实际应用中存在许多不利因素, 如类别集开放且动态变化, 样本间相关且分布随场景或时间变化, 标记样本不足且存在噪声样本等。因此, 针对三个基本假设不满足的情况, 分别产生了大量的研究工作和成果, 如开放集识别和类别增量学习、分布外检测、结构化预测、领域自适应和领域泛化、测试时自适应、小样本学习、半监督学习、自监督学习、噪声容错学习等。关于开放环境模式识别研究问题和进展的详细介绍见综述(ZHANG X Y, LIU C L, SUEN C Y. Towards Robust Pattern Recognition: A Review. Proceedings of the IEEE, 2020, 108(6): 894-922.)

在开放环境下, 上述针对三个基本假设不满足的研究问题也在逐渐扩展和融合, 因为在实际应用中, 往往多个不利因素同时存在, 例如:开放集的类别增量学习中样本标记不足, 可能还有标记噪声, 引出开放集小样本增量学习、半监督增量学习、开放集噪声标签学习等研究问题; 开放集识别中同时伴随领域变化(数据分布变化); 类别增量学习中同时伴随分布外数据和领域变化等。总之, 面向开放场景应用需求, 这些问题和方法技术还需要进一步深入研究, 也正在不断向前发展。

除了上述类别集、数据集相关的因素对模型的分类性能的影响之外, 开放环境下的模式识别和智能感知对模型的鲁棒性(噪声干扰情况下模型性能的稳定性)和可解释性(对模型结构和机理的解释、感知结果的解释)也有更高的要求。这就需要从模型的结构设计和特征表示、知识表示的角度开展研究。例如:层次化、模块化、结构化的深度神经网络模型具有更好的结构和机理可解释性; 提取符合人类视觉感知特性的目标属性特征(如形状基元、关键点、显著性特征)能使模型具有更好的感知结果可解释性; 学习固有维度(Intrinsic Dimensionality)更高的特征空间能增强模型对新类别和分布变化场景的泛化能力、对分布外(Out-of-Distribution)样本和对抗样本的检测能力; 利用跨模态数据(比如多模态成像数据和自然语言文本)学习能使模型具有更强的表达能力和泛化能力, 特别是, 自然语言表示能增强视觉感知模型的零样本学习能力和语言解释能力等。目前, 这些关于模型的鲁棒性、可解释性、结构设计、表示学习、知识表示与推理、跨模态学习等研究已成为人工智能领域的研究热点, 产生了大量研究进展。

2019年12月以来, 中国科学院自动化研究所牵头承担了国家科技创新2030-新一代人工智能重大项目“ 面向开放环境的自适应感知” , 针对开放环境智能感知面临的一系列问题, 开展基础理论、感知模型和学习算法研究, 推动该领域的理论技术发展和开放环境中智能感知应用。项目的主要研究内容包括:自适应感知的基础理论和效能度量、知识表示框架和网络结构自适应、知识引导的自适应感知与结构理解、变化环境下的自适应感知与学习、多模态自适应感知模型与算法及验证。项目主要针对开放环境中的视觉感知(图像表示学习、知识表示、目标检测、视觉场景理解、分类器模型设计和自适应学习、多模态感知与学习等)面临的问题开展研究, 几年来取得了一些进展, 与国际学术界同仁一起共同推动了该领域理论技术的发展。为了给读者提供相关研究方向的全面概要性介绍, 我们组织项目组成员从开放环境自适应感知的不同技术角度(学习理论、自适应学习算法、神经网络结构自适应、知识驱动的视觉感知和多模态理解)撰写了五篇综述, 在本刊专辑发表。五篇综述的内容简介如下。

《面向开放环境的机器学习理论研究进展》主要介绍了开放环境机器学习理论的研究现状和重要进展, 涵盖泛化理论(开放类别集检测泛化理论、迁移学习与元学习泛化理论、高维稀疏学习泛化理论), 优化理论(随机与稀疏学习优化理论、在线与持续学习优化理论、分布式与异构联邦学习优化理论), 鲁棒性理论(对抗样本鲁棒学习理论、随机噪声干扰鲁棒学习理论、噪声标签学习理论), 总结了开放环境学习任务的效能度量准则(包括性能度量准则和学习目标函数)等内容, 并讨论未来研究趋势。特别是开放场景学习任务呈现出的多源异构、噪声干扰、少样本、弱监督、跨领域等问题值得更加深入的研究解决。同时, 加强对人工智能其它应用领域及与科学交叉(AI for Science)等新兴领域方面的关注, 拓展开放环境机器学习方法在自然科学领域(如物理学、大气科学、地理遥感等)的学科交叉新理论与新应用研究。

《变化环境自适应感知与学习研究进展》针对从封闭环境扩展到开放环境智能感知任务面临的各种变化性因素给感知模型和学习算法带来的挑战, 从三个方面介绍了相关的最新研究进展:针对类别集变化, 介绍了开放集识别与分布外样本检测、新类别自主发现、类别增量学习等问题; 针对数据分布变化, 介绍了领域自适应、领域泛化、测试时自适应等问题; 针对数据质量变化, 介绍了弱监督学习和标签噪声学习等问题。 最后对未来研究趋势进行分析, 提出了一些值得研究的方向, 包括变化环境自适应感知和学习的理论分析与建模、鲁棒性和自适应性更强的模型与算法、变化环境多模态感知和学习、知识和数据双重驱动的变化环境学习方法、开放环境感知和学习算法与科学研究结合。

《神经网络结构自适应研究综述》针对开放环境自适应感知中深度神经网络结构设计和自适应问题, 对网络结构自适应方法进行全面综述。首先, 阐述并分析神经架构搜索(搜索空间和搜索算法)的主要方法; 然后, 分别从轻量化神经架构搜索、智能感知任务、连续学习三个方面呈现网络结构自适应的研究进展。在此基础上, 建立一套面向开放环境应用的深度神经网络组件与结构的自适应评价指标体系, 提出一种网络结构自适应方法, 并与现有方法进行对比分析。最后, 探讨当前网络结构自适应方法存在的问题与挑战, 并展望未来的研究方向, 包括自适应搜索空间、神经架构搜索的可解释性、合适的基线和理论分析等。

《属性知识引导的自适应视觉感知与结构理解研究进展》首先回顾了属性知识引导的感知方法进展, 分析其适用场景。接下来, 总结三个方面的代表性工作:属性知识提取方法, 涵盖底层几何属性和高层认知属性; 属性知识引导的开放场景数据学习方法, 包括数据标签受限情况下的弱监督学习与无监督学习; 基于属性知识学习的结构化图像表示、理解及其应用。最后, 讨论目前研究存在的不足以及有价值的潜在研究方向, 如大规模多属性基准数据集构建、多模态属性知识提取、属性知识感知模型场景泛化、轻量级属性知识引导的模型开发、场景图像表示的实际应用等。随着领域专家知识的不断扩充、深度感知模型的快速发展, 属性知识引导的自适应感知会在今后很长时间内保持活跃, 作为计算机视觉与人工智能领域的前沿方向与研究热点。

《知识驱动的多模态语义理解研究综述》面向开放环境下的多模态感知, 在对相关方法(最具有代表性的多模态融合、多模态对齐、多模态生成这三类方法)进行系统调研与分析的基础上, 归纳总结了两类主要的多模态知识表示框架(关系型知识表示框架、对齐型知识表示框架), 并且选择了多个代表性应用(图文匹配、目标检测、语义分割、视觉-语言导航)进行具体介绍。最后总结了当前相关方法的优缺点, 针对目前面临着知识来源单一、推理模型简单、难以适应动态事件等挑战性难题, 展望了未来可能的发展趋势, 包括:探索更细粒度的对象级别连接, 以及在句子中单词与知识图谱节点之间的关系; 将知识推理应用于新的多模态场景下游任务, 模拟人类知识推理, 从而提高鲁棒性和泛化能力; 提高这些模型的可解释性以更好地理解和改进其决策过程。

本专辑文章的撰写和修改得到了《模式识别与人工智能》编辑部的大力支持和帮助, 在此表示诚挚的感谢!