模式识别与人工智能
2025年4月16日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2021, Vol. 34 Issue (6): 485-496    DOI: 10.16451/j.cnki.issn1003-6059.202106001
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于异质网络表示学习的姓名消歧
唐正正1,2, 洪学海2,3, 汪洋1,2, 李玉轩1,2
1.中国科学院计算机网络信息中心 信息化发展战略与评估中心 北京 100190
2.中国科学院大学 计算机科学与技术学院 北京 100049
3.中国科学院计算技术研究所 信息技术战略研究中心 北京 100190
Name Disambiguation Based on Heterogeneous Network Representation Learning
TANG Zhengzheng1,2, HONG Xuehai2,3, WANG Yang1,2, LI Yuxuan1,2
1. Center of Information Development Strategy and Evaluation, Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190
2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049
3. Strategy Research Center of Information Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190

全文: PDF (1147 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 在系统中搜索某一姓名时,会返回该同名作者的所有文档(如论文、网页),严重影响用户体验,姓名消歧可提高检索精度.因此,文中提出基于异质网络表示学习的姓名消歧方法.首先为每个歧义姓名构造一个论文异质网络.然后使用异质网络表示学习并结合词向量化语义表征学习方法,获取网络中每个论文节点的表征向量.最后使用具有噪声的基于密度的聚类方法与规则匹配结合的聚类方法将论文划分给不同的作者实体.文中方法在OAG-WholsWho比赛数据集上的性能较优,结果验证方法的有效性.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
唐正正
洪学海
汪洋
李玉轩
关键词 姓名消歧异质网络词向量化(Word2Vec)分类算法    
Abstract:During the search for the name of an author in the system, the return of all documents of the author deteriorates the user experience. Name disambiguation can improve the retrieval accuracy. Therefore, a name disambiguation method based on heterogeneous network representation learning is proposed. Firstly, a paper heterogeneous network is constructed for each ambiguous name. Then, the representation vector of each paper node in the network is obtained based on the heterogeneous network and the Word2Vec. Finally, papers are divided up and assigned to different author entities via rule matching and a clustering method based on density with noise. The proposed method generates better performance on OAG-WholsWho competition dataset, and its effectiveness is verified.
Key wordsName Disambiguation    Heterogeneous Network    Word to Vector(Word2Vec)    Classification Algorithm   
收稿日期: 2021-03-08     
ZTFLH: TP 391.41  
基金资助:国家自然科学基金项目(No.92046017)、中国科学院信息化工程项目(No.XXH13504-03)资助
通讯作者: 洪学海,博士,研究员,主要研究方向为高性能计算、大数据与云计算、人工智能.E-mail:hxh@ict.ac.cn.   
作者简介: 唐正正,博士研究生,主要研究方向为机器学习、数据挖掘、图表示学习.E-mail:tangzhengzheng@cnic.cn.
汪 洋,博士,高级工程师,主要研究方向为信息化发展战略研究、大数据分析、态势感知系统等.E-mail:wangyang@cnic.cn.
李玉轩,硕士研究生,主要研究方向为机器学习、信息检索等.E-mail:liyuxuan@cnic.cn.
引用本文:   
唐正正, 洪学海, 汪洋, 李玉轩. 基于异质网络表示学习的姓名消歧[J]. 模式识别与人工智能, 2021, 34(6): 485-496. TANG Zhengzheng, HONG Xuehai, WANG Yang, LI Yuxuan. Name Disambiguation Based on Heterogeneous Network Representation Learning. , 2021, 34(6): 485-496.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202106001      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2021/V34/I6/485
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn