2022年11月 26日, 由中国自动化学会主办, 中国自动化学会模式识别与机器智能(CAA-PRMI)专业委员会和《模式识别与人工智能》编辑部联合组织的2022中国自动化大会专题论坛“ 模式识别与计算机视觉前沿” 成功举办。本次论坛邀请了北京大学教授查红彬、南京理工大学教授杨健、天津大学教授胡清华、清华大学副教授鲁继文、中国科学院沈阳自动化研究所研究员丛杨以及中国科学院自动化研究所研究员赫然六位专家学者作特邀报告。中国自动化学会理事、CAA-PRMI专业委员会主任、中国科学院自动化研究所研究员刘成林担任本次论坛主席并致辞, CAA-PRMI专业委员会主任研究员刘成林与CAA-PRMI专业委员会秘书长樊彬共同主持了论坛。会议采用线上直播的形式举办, 吸引了超过6 500人次观看。
首先, 论坛主席刘成林研究员进行了开幕致辞, 他介绍了组织本次论坛的初衷, 接着, 对六位报告嘉宾表示热烈的欢迎和衷心的感谢, 希望借此机会能够和各位专家及同行加强学术交流与合作, 拓展师生科研视野, 促进学科进步发展, 之后简要介绍了模式识别的发展历史和CAA-PRMI专业委员会。
各位报告嘉宾在开幕合影后, 依次进行了精彩的报告。
北京大学教授查红彬报告的题目是“ 动态视觉与SLAM:在线学习的方法” 。查教授首先介绍了什么是动态视觉和SLAM, 并以移动传感器的变化为切入点, 阐述了动态视觉中SLAM要解决的问题, 用现有监督学习的缺点引出了在线学习方法。为了提高动态视觉系统在真实复杂场景中的应用能力, 视觉系统需要有很强的泛化能力, 而在线学习可以很好地解决系统学习过程中的灾难性遗忘问题。查教授进一步简要介绍了其团队基于在线学习开展的一系列研究, 如基于流数据的动力学模型构建、具有在线自适应能力的自监督SLAM学习等。
南京理工大学教授杨健的报告题目是“ 单目深度估计与深度复原” 。杨教授首先介绍了他们团队针对单目深度估计任务提出的渐进困难挖掘网络等方法, 之后介绍了他们在单目深度复原上开展的工作, 包括基于解耦尺度一致学习框架和多模态掩码预训练的深度图补全方法, 以及真实环境下基于结构流引导网络的深度超分辨分析方法。
天津大学教授胡清华的报告题目是“ 低质多模态数据动态可信融合” 。胡教授首先介绍了多模态信息融合问题以及发展现状, 并分析了现有方法存在的问题, 之后介绍了他们团队提出的典型解决方法, 包括利用退化神经网络和三元对抗学习来应对模态缺失问题的方法, 以及基于非负神经网络的证据估计、基于狄利克雷分布的意见生成、基于约减证据理论的多源融合等方法对决策的不确定性进行建模以实现可信融合, 最后介绍了联合约减噪声属性和标记的模型处理高噪声问题。
清华大学副教授鲁继文报告的题目是“ 视觉基础模型及应用” 。鲁教授首先介绍了视觉基础模型的研究背景与意义。其次, 围绕图像基础模型、点云基础模型和多模态基础模型三个方面介绍了他们团队近年所做的相关工作, 包括针对图像感知提出的高阶交互网络HorNet、动态稀疏化视觉Transformer模型、全局滤波网络GFNet等模型, 针对点云分析提出的Point-BERT、PointTr、SFCNN等以及OrdianICLIP、P2P等多模态基础模型。最后, 鲁教授对视觉基础模型的未来进行了展望, 表示模型架构和通用模型将是未来两个重要研究方向。
中国科学院沈阳自动化研究所机器人学国家重点实验室研究员丛杨报告的题目是“ 深海精细化感知技术及展望” 。丛老师首先介绍了深海探测的意义、水下精细化感知技术涉及的信息获取和信息处理关键问题。其次, 他展示了团队研发的基于物理机制的深海高清成像技术、中国首套深海精细化3D感知系统、大型水下人造设施自主巡检技术等深海精细化感知技术。最后, 他针对水下感知技术应用的不同对象, 进一步介绍了技术未来的研究方向。
中国科学院自动化研究所模式识别国家重点实验室研究员赫然报告的题目是“ 视觉内容生成与鉴别” 。赫老师介绍了深度合成、深度伪造和对抗样本的概念和联系, 表示深度合成可分为无中生有、身份替换和人脸重演等方面, 并介绍了其团队在视觉内容生成与鉴别的近期进展, 包括基础表示和生成模型、表观最优传输生成模型和信息瓶颈解耦生成模型, 以及语音驱动说话人、人脸表情驱动和人物换脸等内容生成方法, 同时也介绍了生成虚拟视觉内容的鉴别方法, 最后简要讨论了该领域的未来发展方向及趋势。
本次论坛的圆满召开有利于推动国内模式识别与计算机视觉的研究, 邀请的6位权威专家与参会人员对模式识别与计算机视觉领域的学术前沿和发展趋势进行深入交流和探讨, 对推动该领域相关研究的发展和促进产业应用起到了积极作用。
(摘自中国自动化学会微信公众号)