模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2014, Vol. 27 Issue (3): 226-234    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于子树匹配的文本相似度算法
张佩云1,2,陈传明1,黄波3
1安徽师范大学 数学计算机科学学院 芜湖 214003
2中国科学技术大学 计算机科学与技术学院 合肥 230027
3 南京理工大学 计算机科学与技术学院 南京 210094
Texts Similarity Algorithm Based on Subtrees Matching
ZHANG Pei-Yun1,2,CHEN Chuan-Ming1,HUANG Bo3
1.School of Mathematics and Computer Science,Anhui Normal University,Wuhu 241003
2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027
3 .School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094

全文: PDF (0 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张佩云
陈传明
黄波
关键词 元数据子树匹配语义文本相似度    
Abstract:To reduce the dimensionality of text vectors and improve the performance of semantic similarity measurement,an algorithm for texts similarity computation is proposed,which combines the advantages of the statistical methods and semantic dictionary. The texts are utilized to generate metadata feature vectors,so that it reduces the dimensionality of text vectors space. The algorithm for computing texts similarity is designed based on subtrees matching and the speed of computing texts similarity is improved. The accuracy of texts semantic similarity measurement is improved by utilizing the semantic matching of metadata feature vectors and subtrees. The synonyms widely existing in metadata are processed by the proposed method,and the semantic coverage ability for similarity computation of texts is also enhanced. The experimental results show that the proposed method is feasible and effective.
收稿日期: 2013-05-06     
ZTFLH: TP 311  
基金资助:国家自然科学基金项目(No.61201252,61203173)、中国博士后科学基金项目(No.2013M531528)、安徽省自然科学基金项目(No.1308085MF100)、安徽省高校省级自然科学研究重点项目(No.KJ2011A128)、安徽省科技厅软科学研究计划项目(No.11020503009)资助。
作者简介: 张佩云(通讯作者),女,1974年生,博士,副教授,主要研究方向为智能信息处理、服务计算、语义网等.E-mail:zpyustc@ustc.edu.cn.陈传明,男,1981年生,讲师,博士研究生,主要研究方向为数据挖掘.黄波,男,1980年生,博士,副教授,主要研究方向为计算机网络技术、智能信息处理等.
引用本文:   
张佩云,陈传明,黄波. 基于子树匹配的文本相似度算法[J]. 模式识别与人工智能, 2014, 27(3): 226-234. ZHANG Pei-Yun,CHEN Chuan-Ming,HUANG Bo. Texts Similarity Algorithm Based on Subtrees Matching. , 2014, 27(3): 226-234.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2014/V27/I3/226
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn