模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2012, Vol. 25 Issue (2): 339-345    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
统计流形扩散核的文本分类方法
李侃1,周世斌2,刘玉树1
1。北京理工大学计算机学院北京100081
2。中国矿业大学计算机科学与技术学院徐州221116
Text Classification Using Diffusion Kernel on Statistical Manifold
LI Kan1, ZHOU Shi-Bin2, LIU Yu-Shu1
School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081
School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116

全文: PDF (459 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 提出Dirichlet混合多项式(DCM)流形,并利用DCM流形可与正半球流形建立同胚和等距关系的性质,通过拉回映射将正半球流形的测地距离映射为DCM流形的测地距离,从而在DCM流形上建立距离度量,构建统计流形上的Dirichlet混合多项式扩散核和Dirichlet混合多项式倒排文档频率(DCMIDF)扩散核。利用WebKBTop4和20Newsgroups语料库上进行实验,DCM流形能比欧氏空间更能准确地描述文本。与多项式核支持向量机算法、,负测地距离核支持向量机算法相比,实验结果显示文中基于DCM扩散核和DCMIDF扩散核的支持向量机算法可取得良好的文本分类效果。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
李侃
周世斌
刘玉树
关键词 统计流形扩散核Dirichlet分布文本分类    
Abstract:Dirichlet compound multinomial manifold (DCM manifold) is proposed. DCM manifold with positive sphere manifold is homeomorphic and isometric, so the geodesic distance of positive sphere manifold can be mapped as the geodesic distance of DCM manifold through pullback mapping. Then the distance metric is built on DCM manifold. DCM diffusion kernel function and DCMIDF diffusion kernel function are built on DCM manifold. The performance of the proposed algorithms for text classification are tested on the corpuses of WebKB Top 4 and 20 Newsgroups, and the experimental results show that DCM manifold is more desirable than that of Euclidean space in modeling texts on the corpuses. Compared with polynomial kernel based support vector machine and NGD kernel based support vector machine, the proposed DCM diffusion kernel and DCMIDF diffusion kernel based support vector machine algorithms show better computational accuracy for text classification.
Key wordsStatistical Manifold    Diffusion Kernel    Dirichlet Distribution    Text Classification   
收稿日期: 2010-12-10     
ZTFLH: TP391  
基金资助:国家自然科学基金(No.60903071)、北京市重点学科基金(No.xk100070427)资助项目
作者简介: 李侃,男,1975年生,副教授,博士生导师,主要研究方向为机器学习。E-mail:likan@bit。edu。cn。周世斌,男,1970年生,博士,讲师,主要研究方向为人工智能。刘玉树,男,1941年生,教授,博士生导师,主要研究方向为人工智能。
引用本文:   
李侃,周世斌,刘玉树. 统计流形扩散核的文本分类方法[J]. 模式识别与人工智能, 2012, 25(2): 339-345. LI Kan, ZHOU Shi-Bin, LIU Yu-Shu. Text Classification Using Diffusion Kernel on Statistical Manifold. , 2012, 25(2): 339-345.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2012/V25/I2/339
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn