模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2014, Vol. 27 Issue (7): 646-654    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于强类别特征近邻传播的半监督文本聚类*
文翰1,2,肖南峰1
1华南理工大学 计算机科学与工程学院 广州 510006
2佛山大学 理学院 佛山 528000
A Semi-Supervised Text Clustering Based on Strong Classification Features Affinity Propagation
WEN Han1,2, XIAO Nan-Feng1
1School of Computer Science and Engineering, South China University of Technology, Guangzhou 510006
2School of Science, Foshan University, Foshan 528000

全文: PDF (639 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 为处理高维稀疏的大规模文档数据,提出一种基于强类别特征近邻传播(SCFAP)的半监督文本聚类算法.聚类过程中,利用少量带类别标签的监督数据,提取具有强类别区分能力的特征项以构建更有效的样本间相似性测度.并在每轮迭代完成后将类别确定性程度最高的未标记样本转移到已标注集,使算法执行效率提高.实验结果表明,这种改进对于近邻传播算法的性能和准确度的提升有较大帮助,在Reuter-21578和20Newsgroups两个相异数据集上,SCFAP算法表现较好的适用性.综合考察聚类微平均Fμ指标和类簇纯度Pt指标,该算法在少量监督信息辅助下能快速获得较好的聚类结果.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract:A semi-supervised text clustering based on strong classification features affinity propagation (SCFAP) is proposed to handle spare document data with large scale and high dimensions. In the clustering process, strong classification features are extracted to construct a reasonable similarity measure by using a small amount of labeled samples. Moreover, in order to improve the execution efficiency of the algorithm, the unlabeled documents with maximum category certainty are transferred from unlabeled collection to labeled collection in each round of iteration. The experimental results show that the improvement is greatly helpful to upgrade the performance and accuracy of the classical affinity propagation algorithm. The SCFAP algorithm shows better applicability on Reuter-21578 and 20 Newsgroups. The micro average Fμ index and the clustering purity index are synthetically observed, the semi-supervised text clustering algorithm based on SCFAP can get better clustering results rapidly.
收稿日期: 2013-03-11     
ZTFLH: TP181  
基金资助:国家自然科学基金项目(No.61171141)、国家自然科学基金青年科学基金项目(No.11201070)资助
作者简介: 文翰(通讯作者),男,1977年生,博士,讲师,主要研究方向为Web挖掘、机器学习.E-mail:wenhan_csu1@163.com.肖南峰,男,1962年生,教授,博士生导师,主要研究方向为智能机器、机器学习.
引用本文:   
文翰,肖南峰. 基于强类别特征近邻传播的半监督文本聚类*[J]. 模式识别与人工智能, 2014, 27(7): 646-654. WEN Han, XIAO Nan-Feng. A Semi-Supervised Text Clustering Based on Strong Classification Features Affinity Propagation. , 2014, 27(7): 646-654.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2014/V27/I7/646
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn