模式识别与人工智能
2025年4月5日 星期六   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2023, Vol. 36 Issue (12): 1127-1138    DOI: 10.16451/j.cnki.issn1003-6059.202312005
面向开放环境的自适应感知研究进展 最新目录| 下期目录| 过刊浏览| 高级检索 |
知识驱动的多模态语义理解研究综述
郑祎豪1, 郭奕君2, 毋立芳1, 黄岩3
1.北京工业大学 信息学部 北京 100124;
2.中国科学院自动化研究所 智能感知与计算研究中心 北京 100191;
3.中国科学院自动化研究所 多模态人工智能系统全国重点实验室 北京 100191
A Survey on Knowledge-Driven Multimodal Semantic Understanding
ZHENG Yihao1, GUO Yijun2, WU Lifang1, HUANG Yan3
1. Faculty of Information Technology, Beijing University of Technology, Beijing 100124;
2. Center for Research on Intelligent Perception and Computing, Institute of Automation, Chinese Academy of Sciences, Beijing 100191;
3. State Key Laboratory for Multi-modal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100191

全文: PDF (1101 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 基于深度学习模型的多模态学习方法已在静态、可控等简单场景下取得较优的语义理解性能,但在动态、开放等复杂场景下的泛化性仍然较低.近期已有不少研究工作尝试将类人知识引入多模态语义理解方法中,并取得不错效果.为了更深入了解当前知识驱动的多模态语义理解研究进展,文中在对相关方法进行系统调研与分析的基础上,归纳总结关系型和对齐型这两类主要的多模态知识表示框架.然后选择多个代表性应用进行具体介绍,包括图文匹配、目标检测、语义分割、视觉-语言导航等.此外,文中总结当前相关方法的优缺点并展望未来可能的发展趋势.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
郑祎豪
郭奕君
毋立芳
黄岩
关键词 机器学习深度学习多模态语义理解多模态知识表示多模态语义分析知识驱动    
Abstract:Multimodal learning methods based on deep learning model achieve excellent semantic understanding performance in static, controllable and simple scenarios. However, their generalization ability in dynamic, open and other complex scenarios is still unsatisfactory. Human-like knowledge is introduced into multimodal semantic understanding methods in recent research, yielding impressive results. To gain deeper understanding of the current research progress in knowledge-driven multimodal semantic understanding, two main types of multimodal knowledge representation frameworks are summarized based on systematic investigation and analysis of relevant methods in this paper. The two main types of multimodal knowledge representation frameworks are relational and aligned, respectively. Several representative applications are discussed, including image-text matching, object detection, semantic segmentation, and vision-and-language navigation. In addition, the advantages and disadvan-tages of the current methods and the possible development trend in the future are concluded.
Key wordsMachine Learning    Deep Learning    Multimodal Semantic Understanding    Multimodal Knowledge Representation    Multimodal Semantic Analysis    Knowledge-Driven   
收稿日期: 2023-10-10     
ZTFLH: TP 391  
基金资助:科技创新2030-“新一代人工智能”重大项目(No.2018AAA0100400); 国家自然科学基金项目(No.62236010)资助; 国家自然科学基金项目(No.62276261)资助
通讯作者: 黄岩,博士,副研究员,主要研究方向为计算机视觉.E-mail:huangyan2012@ia.ac.cn.   
作者简介: 郑祎豪,博士研究生,主要研究方向为人工智能.E-mail:zhengyh@emails.bjut.edu.cn.
郭奕君,硕士,工程师,主要研究方向为计算机视觉.E-mail:yijun.guo@cripac.ia.ac.cn.
毋立芳,博士,教授,主要研究方向为人工智能.E-mail:lfwu@bjut.edu.cn.
引用本文:   
郑祎豪, 郭奕君, 毋立芳, 黄岩. 知识驱动的多模态语义理解研究综述[J]. 模式识别与人工智能, 2023, 36(12): 1127-1138. ZHENG Yihao, GUO Yijun, WU Lifang, HUANG Yan. A Survey on Knowledge-Driven Multimodal Semantic Understanding. Pattern Recognition and Artificial Intelligence, 2023, 36(12): 1127-1138.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202312005      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2023/V36/I12/1127
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn