模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2019, Vol. 32 Issue (4): 369-375    DOI: 10.16451/j.cnki.issn1003-6059.201904010
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于字符级截断式循环神经网络的人名国籍识别
张钰莎1, 张礼明2, 蒋盛益2
1.湖南信息学院 电子信息学院 长沙 410151
2.广东外语外贸大学 广州市非通用语种智能处理重点实验室 广州 510006
Character-Based Disconnected Recurrent Neural Network for Name Nationality Identification
ZHANG Yusha1, ZHANG Liming2, JIANG Shengyi2
1.School of Electronic Information, Hunan Institute of Information Technology, Changsha 410151
2.Eastern Language Processing Center, Guangdong University of Foreign Studies, Guangzhou 510006

全文: PDF (697 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 人名是反映用户国籍的关键信息,不同国籍的人名在结构和组成成分方面存在差异性和关联性.目前,基于人名的国籍识别研究工作大部分将人名切分成多个独立的字符单元,忽略字符间微妙的搭配和序列关系.针对上述问题,文中提出基于字符级截断式循环神经网络的人名国籍识别模型,将人名通过滑动窗口的方式截断成多个子序列,利用长短期记忆单元模型学习不同子序列内部的字符组合关系,通过平均池化操作聚合所有子序列信息,获取最终的人名向量表示.最后根据该人名向量实现用户的国籍识别.截断式的子序列有利于模型更关注人名内部的细微差异.在Olympic运动员和Aminer学者数据集上的实验表明,文中模型性能较优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张钰莎
张礼明
蒋盛益
关键词 国籍识别用户画像字符级表示模型循环神经网络    
Abstract:Personal name is viewed as a strong indicator of inferring the nationality of the user. Generally, personal names reveal the differentiation and correlation of naming conventions among different nationalities. In the current research, personal name features are extracted by cutting off name strings into a set of independent n-gram units, while subtle relationships between characters are not explored. Therefore, a character-based disconnected recurrent neural network is proposed to capture subtle features among personal names in this paper. Concretely, a set of fragments is derived from name strings by order using a slice window. Then, long short-term memory units are utilized to learn information of each fragment, and they are aggregated via mean-pooling operation to obtain the whole name representation for nationalities prediction of users. Disconnected fragments enable model to focus on subtle features among different personal names. Experiments on Olympic dataset and Aminer dataset show that the proposed model outperforms the existing models and the performance is satisfactory.


Key wordsNationality Identification    User Profiling    Character Modeling    Recurrent Neural Network   
收稿日期: 2019-01-24     
ZTFLH: TP 391  
基金资助:国家自然科学基金项目(No.61572145)、湖南省教育科学“十三五”规划课题(No.XJK18CGD044)资助
作者简介: 张钰莎,硕士,副教授,主要研究方向为数据挖掘、自然语言处理.E-mail:zys1982xx@163.com.张礼明(通讯作者),硕士研究生,主要研究方向为自然语言处理.E-mail:zhangliming134@foxmail.com.蒋盛益,博士,教授,主要研究方向为数据挖掘、自然语言处理.E-mail:jiangshengyi@163.com.
引用本文:   
张钰莎, 张礼明, 蒋盛益. 基于字符级截断式循环神经网络的人名国籍识别[J]. 模式识别与人工智能, 2019, 32(4): 369-375. ZHANG Yusha, ZHANG Liming, JIANG Shengyi. Character-Based Disconnected Recurrent Neural Network for Name Nationality Identification. , 2019, 32(4): 369-375.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201904010      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2019/V32/I4/369
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn