模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2010, Vol. 23 Issue (4): 456-463    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于阻塞先验知识的文本层次分类模型
李文1,2,苗夺谦1,卫志华1,王炜立1,2
1.同济大学 计算机科学与技术系 上海 201804
2.南昌大学 信息工程学院 南昌 330031
Hierarchical Text Classification Model Based on Blocking Priori Knowledge
LI Wen1,2,MIAO Duo-Qian1,WEI Zhi-Hua1,WANG Wei-Li1,2
1.Department of Computer Science and Technology,Tongji University,Shanghai 201804
2.Information Engineering School,Nanchang University,Nanchang 330031

全文: PDF (516 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 文本层次分类中阻塞现象是影响层次分类器性能的重要原因。针对这一问题,提出基于阻塞先验知识的文本层次分类模型。该模型包括两部分:首先对阻塞分布进行估计,提出“阻塞对”识别技术,重点在于获取严重的阻塞方向;其次,把分析出的阻塞先验知识融合到分类过程中,利用层次拓扑结构修正算法,引导阻塞文本“回归”正确分类路径。在中文语料TanCorp上的实验表明,该算法在没有额外增加分类器数目的前提下,能有效改善层次分类性能,是解决层次分类阻塞问题的一种方法。另外,与平面分类算法比较后,该算法更稳定。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 阻塞文本分类层次结构先验知识动态修正    
Abstract:Blocking exerts negative effect on the performance of text hierarchical classification. In this paper, a two-step hierarchical text classification model based on blocking priori knowledge is proposed to address the problem. Firstly, blocking distribution is estimated and blocking pair recognition technique focusing on mining the serious blocking direction is presented. Secondly, the hierarchy topology structure is actively refined which attempts to correct misclassification and reduce blocking errors by using blocking priori knowledge. The experimental results on TanCorp, which is a new corpus special for Chinese text classification, show that the model can improve the performance significantly without increasing the extra number of classifiers and is a method of solving the hierarchical classification blocking problem. In addition, compared with flat text classification algorithm, this method has stable performance.
Key wordsBlocking    Text Classification    Hierarchical Structure    Priori Knowledge    Dynamic Refinement   
收稿日期: 2009-06-25     
ZTFLH: TP391  
  TP181  
基金资助:国家自然科学基金(No.60475019,60775036,60970061)、教育部博士点专项基金(No.20060247039)资助项目
作者简介: 李文,女,1980年生,博士研究生,主要研究方向为文本信息处理、粗糙集、粒计算.E-mail:jx_wenli@yahoo.com.cn.苗夺谦,男,1964年生,教授,博士生导师,主要研究方向为智能信息处理、模式识别、数据挖掘、粗糙集理论.卫志华,女,1979年生,博士研究生,主要研究方向为智能信息处理.王炜立,男,1980年生,博士研究生,主要研究方向为模式识别、数据挖掘、空间数据库.
引用本文:   
李文,苗夺谦,卫志华,王炜立. 基于阻塞先验知识的文本层次分类模型[J]. 模式识别与人工智能, 2010, 23(4): 456-463. LI Wen,MIAO Duo-Qian,WEI Zhi-Hua,WANG Wei-Li. Hierarchical Text Classification Model Based on Blocking Priori Knowledge. , 2010, 23(4): 456-463.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2010/V23/I4/456
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn