模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (3): 270-275    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于约束主成份分析的文本聚类算法
王明文1,叶浩2,左家莉3
1.江西师范大学计算机信息工程学院南昌330022
2.复旦大学计算机科学技术学院上海201203
3.江西师范大学初等教育学院南昌330027
Document Clustering Based on Constrained Principal Component Analysis
WANG Ming-Wen1,YE Hao2,ZUO Jia-Li3
1.School of Computer and Information Engineering,Jiangxi Normal University,Nanchang 330022
2.School of Computer Science,Fudan University,Shanghai 201203
3.School of Elementary Education,Jiangxi Normal University,Nanchang 330027

全文: PDF (369 KB)   HTML (0 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 主成份分析对高维数据进行维数约简可有效提高聚类算法的性能,但这种方法容易丢失部分对聚类具有贡献的成份.为在维数约简的同时保留对聚类具有贡献的成份,提出一种维数约简与聚类交互进行的迭代算法.每次迭代可表示为约束优化问题,并可求解此优化问题的解析解,进而给出相应的迭代聚类算法,称之为基于约束主成份分析的本文聚类.在Reuter21578、WebKB文档集上的实验结果表明,文中方法与k-均值聚类、非负矩阵分解聚类和谱聚类相比具有较好的性能.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
王明文
叶浩
左家莉
关键词 约束主成份分析约束优化聚类迭代    
Abstract:Principal component analysis is an effective method to improve the performance of clustering in high dimension. On the other hand,principal component analysis is easy to lose the components which benefits for clustering. In order to preserve these beneficial components,an iteration algorithm of dimensionality reduction and clustering,named constrained principal component clustering,is proposed. Each iteration step can be represented as a constrained optimization problem which has a analytical solution. This iterative clustering algorithm is called document clustering based on constrained principal component analysis. The experimental results on Reuter21578 and WebKB show that the proposed algorithm outperforms to k-means,Non-Negative Matrix Decomposition and Spectral Clustering.
Key wordsConstrained Principal Component Analysis    Constrained Optimization    Clustering    Iteration   
收稿日期: 2012-02-13     
ZTFLH: TP391.4  
基金资助:国家自然科学基金资助项目(No.60963014,61163006)
作者简介: 王明文(通讯作者),男,1964年生,博士,教授,主要研究方向为信息检索、文本分类、机器学习.E-mail:mwwang@jxnu.edu.cn.叶浩,男,1978年生,讲师,博士研究生,主要研究方向为信息检索、文本分类、机器学习.左家莉,女,1982年生,博士,讲师,主要研究方向为信息检索、文本分类、机器学习.
引用本文:   
王明文,叶浩,左家莉. 基于约束主成份分析的文本聚类算法[J]. 模式识别与人工智能, 2013, 26(3): 270-275. WANG Ming-Wen,YE Hao,ZUO Jia-Li. Document Clustering Based on Constrained Principal Component Analysis. , 2013, 26(3): 270-275.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I3/270
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn