模式识别与人工智能
2025年4月10日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2011, Vol. 24 Issue (6): 816-824    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
有向标记根树之间的语义编辑距离
康琪,马军
山东大学计算机科学与技术学院济南250101
Semantic Edit Distance between Two Directed Labeled and Rooted Trees
KANG Qi, MA Jun
School of Computer Science and Technology, Shandong University, Jinan 250101

全文: PDF (507 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 有向标记根树之间的编辑距离(TED)被广泛应用在文档的结构化相似度计算上。文中提出有向标记根树之间的语义编辑距离(TSED)的概念,并给出计算公式。组合TED和TSED形成距离测度,并应用在XML文档的结构聚类上。实验表明该距离模型在结构化聚类的准确率和召回率上明显优于单纯利用TED算法的聚类结果。该算法在时间复杂性上也等同于利用动态规划计算TED的最好算法。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
康琪
马军
关键词 树编辑距离文档聚类结构相似度语义相似性    
Abstract:In graph theory, the tree edit distance (TED) between two directed labeled and rooted trees is a popular research issue. As a combination optimization problem, calculating TED is widely used in the detection of the structural similarity of semi-structural documents. In this paper, a concept named tree semantic edit distance (TSED) with the corresponding formula is proposed. Then a distance measure based on both TED and TSED is presented. The proposed distance is applied in clustering the document object model (DOM) trees of extensible markup language (XML) documents. Experimental results show the proposed measure is better than those used TED only in terms of clustering precision and recall. The time complexity of the proposed algorithm is the same as those of algorithms for TED based on dynamic programming.
Key wordsTree Edit Distance    Document Clustering    Structural Similarity    Semantic Similarity   
收稿日期: 2010-06-17     
ZTFLH: TP391.4  
基金资助:国家自然科学基金项目(No.60970047)、中国博士后科学基金项目(No.20100471503)、山东省自然科学基金项目(No.Y2008G19)和山东省科技攻关项目(No.2007GG10001002,2008GG10001026)资助
作者简介: 康琪,男,1986年生,硕士,主要研究方向为结构化信息检索.E-mail:kangqi_sdu@hotmail.com.马军,男,1956年生,教授,博士生导师,主要研究方向为信息检索和并行计算.E-mail:majun@sdu.edu.cn.
引用本文:   
康琪,马军. 有向标记根树之间的语义编辑距离[J]. 模式识别与人工智能, 2011, 24(6): 816-824. KANG Qi, MA Jun. Semantic Edit Distance between Two Directed Labeled and Rooted Trees. , 2011, 24(6): 816-824.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2011/V24/I6/816
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn