模式识别与人工智能
2025年3月17日 星期一   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2010, Vol. 23 Issue (1): 45-51    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于词汇链的中文新闻网页关键词抽取方法
胡学钢1,李星华1,谢飞1,3,吴信东1,2
1.合肥工业大学 计算机与信息学院 合肥 230009
2.Department of Computer Science, University of Vermont, Burlington, VT 50405, USA
3.合肥师范学院 计算机科学与技术系 合肥 230061
Keyword Extraction Based on Lexical Chains for Chinese News Web Pages
HU Xue-Gang1, LI Xing-Hua1, XIE Fei1,3, WU Xin-Dong1,2
1.School of Computer and Information,Hefei University of Technology,Hefei 230009
2.Department of Computer Science,University of Vermont,Burlington,VT 50405,USA
3.Department of Computer Science and Technology,Hefei Normal University,Hefei 230061

全文: PDF (515 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 词汇链关键词抽取歧义消解语义相似度    
Abstract:A lexical chain is an external performance consistency by semantically related words of a text, and it is the representation of the semantic content of a text. Based on the word ambiguity resolution, a method for keyword extraction from Chinese news web pages is proposed by using lexical chains combined with frequency features, location features and cohesion features. The document is represented as lexical chains by the relationship between phrases and the key phrases are extracted from the lexical chains. The proposed method is tested on the corpus of Chinese news web pages and journal articles. The experimental results show that the proposed method improves the quality of the keywords extraction.
Key wordsLexical Chain    Keyword Extraction    Ambiguity Resolution    Semantic Similarity   
收稿日期: 2008-06-06     
ZTFLH: TP181  
基金资助:国家自然科学基金资助项目(No.60573174)
作者简介: 胡学钢,男,1961年生,教授,博士,主要研究方向为数据挖掘、机器学习、知识工程.E-mail:jsjxhuxg@hfut.edu.cn.李星华,男,1984年生,硕士,主要研究方向为数据挖掘.谢飞,男,1980年生,讲师,博士研究生,主要研究方向为文本挖掘.吴信东,男,1963年生,教授,博士生导师,主要研究方向为人工智能、数据挖掘研究.
引用本文:   
胡学钢,李星华,谢飞,吴信东. 基于词汇链的中文新闻网页关键词抽取方法[J]. 模式识别与人工智能, 2010, 23(1): 45-51. HU Xue-Gang, LI Xing-Hua, XIE Fei, WU Xin-Dong. Keyword Extraction Based on Lexical Chains for Chinese News Web Pages. , 2010, 23(1): 45-51.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2010/V23/I1/45
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn