模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2009, Vol. 22 Issue (5): 780-786    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于矩阵谱分析的文本聚类集成算法*
徐森1,卢志茂2,顾国昌1
1.哈尔滨工程大学 计算机科学与技术学院 哈尔滨 150001
2.哈尔滨工程大学 信息与通信工程学院 哈尔滨 150001
Document Cluster Ensemble Algorithms Based on Matrix Spectral Analysis
XU Sen1, LU Zhi-Mao2, GU Guo-Chang1
1.College of Computer Science and Technology, Harbin Engineering University, Harbin 150001
2.College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001

全文: PDF (410 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 聚类集成技术可有效提高单聚类算法的精度和稳定性,其中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.文中引入谱聚类算法解决文本聚类集成问题,设计基于正则化拉普拉斯矩阵的谱算法(NLMSA).该算法基于代数变换,通过求解小规模矩阵的特征值和特征向量间接获得正则化拉普拉斯矩阵的特征向量,并用于后续聚类.进一步研究谱聚类算法的关键思想,设计基于超边转移概率矩阵的谱算法(HTMSA).该算法通过求解超边的低维嵌入间接获得文本的低维嵌入,并用于后续K均值算法.在TREC和Reuters文本集上的实验结果验证NLMSA和HTMSA的有效性,它们都获得比其它基于图划分的集成算法更为优越的结果.HTMSA获得的结果比NLMSA略差,而时间和空间需求则比NLMSA低得多.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐森
卢志茂
顾国昌
关键词 聚类分析聚类集成谱聚类文本聚类矩阵低秩近似    
Abstract:Cluster ensemble techniques are effective in improving both the robustness and the stability of the single clustering algorithm. How to combine multiple clusters to yield a final superior clustering result is critical in cluster ensemble. Spectral clustering algorithm is introduced to solve document cluster ensemble problem. Normalized Laplacian matrix-based spectral algorithm (NLMSA) is proposed. According to algebraic transformation, it computes eigenvalues and eigenvectors of a small matrix to obtain the eigenvectors of normalized Laplacian matrix. The key idea of spectral clustering algorithm is further investigated, and hyperedge transition matrix-based spectral algorithm (HTMSA) is proposed. It attains the low dimensional embeddings of documents by those of hyperedges and then the K-means algorithm is used to cluster according to those embedding results of documents. Experimental results on TREC and Reuters document sets demonstrate the effectiveness of the proposed algorithms. Both NLMSA and HTMSA outperform other cluster ensemble techniques based on graph partitioning. NLMSA obtains better results than HTMSA while the computational cost of HTMSA is much lower than that of NLMSA.
Key wordsClustering Analysis    Cluster Ensemble    Spectral Clustering    Document Clustering    Low Rank Approximation of Matrix   
收稿日期: 2008-09-04     
ZTFLH: TP391  
基金资助:国家自然科学基金(No.60603092)、国家教育部博士点基金(No.20070217043)资助项目
作者简介: 徐森,男,1983年生,博士研究生,主要研究方向为人工智能、机器学习、文本挖掘.E-mail: xusen@hrbeu.edu.cn.卢志茂,男,1972年生,教授,博士生导师,主要研究方向为人工智能、智能信息处理、文本挖掘.顾国昌,男,1946年生,教授,博士生导师,主要研究方向为人工智能、智能机器人.
引用本文:   
徐森,卢志茂,顾国昌. 基于矩阵谱分析的文本聚类集成算法*[J]. 模式识别与人工智能, 2009, 22(5): 780-786. XU Sen, LU Zhi-Mao, GU Guo-Chang. Document Cluster Ensemble Algorithms Based on Matrix Spectral Analysis. , 2009, 22(5): 780-786.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2009/V22/I5/780
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn