模式识别与人工智能
2025年1月12日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2017, Vol. 30 Issue (12): 1130-1137    DOI: 10.16451/j.cnki.issn1003-6059.201712009
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
融合词向量和主题模型的领域实体消歧*
马晓军1,郭剑毅1,2,王红斌1,2,张志坤1,2,线岩团1,2,余正涛1,2
1.昆明理工大学 信息工程与自动化学院 昆明 650500
2.昆明理工大学 智能信息处理重点实验室 昆明 650500
Entity Disambiguation in Specific Domains Combining Word Vector and Topic Models
MA Xiaojun1, GUO Jianyi1,2, WANG Hongbin1,2, ZHANG Zhikun1,2, XIAN Yantuan1,2, YU Zhengtao1,2
1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500
2.Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology, Kunming 650500

全文: PDF (920 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
马晓军
郭剑毅
王红斌
张志坤
线岩团
余正涛
关键词 实体消歧词向量模型领域知识库潜在狄利克雷分布(LDA)主题模型    
Abstract:When the Skip-gram word vector model deals with the polysemous words, only one word vector with mixed multiple semantics can be computed and different meanings of polysemous words can not be distinguished. In this paper, an entity disambiguation method combining the word vector and the topic model in specific domains is proposed. The word vector method is used to obtain the vector form of the reference term and the candidate entity from the background text and the knowledge base, respectively. The similarities of the context and the category reference are calculated, and the LDA topic model and the Skip-gram word vector models are used to obtain the word vector representation of different meanings of the polysemous words. Meanwhile, the domain keywords are extracted and then the domain topic keyword similarity are calculated. Finally, three types of features are combined, and the candidate entity with the highest similarity is selected as the final target entity. Experiments show that the proposed method has better disambiguation results than the existing disambiguation methods.
Key wordsEntity Disambiguation    Word Vector Model    Domain Knowledge Base    Latent Dirichlet Allocations(LDA) Topic Model   
收稿日期: 2017-09-15     
ZTFLH: TP 391  
基金资助:国家自然科学基金项目(No.61562052,61462054,61363044)资助
作者简介: 马晓军,男,1991年生,硕士研究生,主要研究方向为自然语言处理、知识表示.E-mail:851010624@qq.com
郭剑毅,女,1964年生,硕士,教授,主要研究方向为模式识别、自然语言处理、信息抽取、知识获取.E-mail:giade86@hotmail.com.
王红斌,男,1983年生,博士,讲师,主要研究方向为智能信息系统、自然语言处理、信息检索.E-mail:whbin2007@126.com.
张志坤,男,1977年生,硕士,讲师,主要研究方向为机器翻译、信息检索、信息抽取.E-mail:303053509@qq.com.
线岩团,男,1981年生,博士研究生,讲师,主要研究方向为机器翻译、信息检索、信息抽取.E-mail:yantuan.xian@gmail.com.
余正涛,男,1970年生,博士,教授,主要研究方向为机器翻译、自然语言处理、信息检索.E-mail:ztyu@hotmail.com.
引用本文:   
马晓军,郭剑毅,王红斌,张志坤,线岩团,余正涛. 融合词向量和主题模型的领域实体消歧*[J]. 模式识别与人工智能, 2017, 30(12): 1130-1137. MA Xiaojun, GUO Jianyi, WANG Hongbin, ZHANG Zhikun, XIAN Yantuan, YU Zhengtao. Entity Disambiguation in Specific Domains Combining Word Vector and Topic Models. , 2017, 30(12): 1130-1137.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201712009      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2017/V30/I12/1130
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn