模式识别与人工智能
2025年8月7日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2014, Vol. 27 Issue (2): 141-145    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于微博内容的新词发现方法*
霍帅,张敏,刘奕群,马少平
智能技术与系统国家重点实验室 北京 100084
清华信息科学与技术国家实验室筹 北京 100084
清华大学 计算机科学与技术系 北京 100084
New Words Discovery in Microblog Content
HUO Shuai, ZHANG Min, LIU Yi-Qun, MA Shao-Ping
State Key Laboratory of Intelligent Technology and Systems, Beijing 100084
Tsinghua National Laboratory for Information Science and Technology, Beijing 100084
Department of Computer Science and Technology, Tsinghua University, Beijing 100084

全文: PDF (388 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难。文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤。为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法。与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
霍帅
张敏
刘奕群
马少平
关键词 新词发现上下文熵未登录词提取    
Abstract:New words discovery is of great significance in the field of natural language processing. It is more difficult to find new words in microblog than in other corpus. In this paper, an algorithm based on context entropy is proposed, and the new word candidates are filtered based on the context. To improve the precision, lexical features are introduced and an algorithm combining them with term frequency is put forward. Thus, the precision rate and the recall rate are greatly improved, and the F-measure value is up to 89.6%.
Key wordsNew Word Discovery    Context Entropy    Unknown Words Extraction   
收稿日期: 2013-05-13     
ZTFLH: TP 391.1  
基金资助:国家自然科学基金项目(No.60903107,61073071)、国家863计划项目(No.2011AA01A205)资助
作者简介: 霍帅(通讯作者),男,1989年生,硕士研究生,主要研究方向为信息检索.E-mail:huoshuai303@163.com.张敏,女,1977年生,博士,副教授,主要研究方向为信息检索.刘奕群,男,1981年生,博士,副教授,主要研究方向为信息检索.马少平,男,1961年生,教授,博士生导师,主要研究方向为智能信息处理、信息检索.
引用本文:   
霍帅,张敏,刘奕群,马少平. 基于微博内容的新词发现方法*[J]. 模式识别与人工智能, 2014, 27(2): 141-145. HUO Shuai, ZHANG Min, LIU Yi-Qun, MA Shao-Ping. New Words Discovery in Microblog Content. , 2014, 27(2): 141-145.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2014/V27/I2/141
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn