模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2008, Vol. 21 Issue (3): 417-422    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
一种优化的顺序IB文本聚类算法*
叶阳东,张洁,刘东
郑州大学 信息工程学院 郑州 450052
An Improved Sequential IB Algorithm for Document Clustering
YE Yang-Dong, ZHANG Jie, LIU Dong
School of Information Engineering, Zhengzhou University, Zhengzhou 450052

全文: PDF (473 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对顺序IB(sIB)算法在文本聚类上存在的诸如易陷入局部优解、效率较低等问题,基于模拟退火方法,提出一种优化的顺序文本聚类算法(SA-isIB).该算法根据一个合理的退火序列, 从基本sIB算法产生的初始聚类结果中随机选取一定比例的文本, 对其类标记进行随机修改并重新对解进行优化,经过退火过程后,得到比sIB算法精度更高的文本聚类结果.文本数据集上的实验结果表明,SA-isIB能有效提高sIB算法用于文本聚类的精度.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
叶阳东
张洁
刘东
关键词 文本聚类信息瓶颈理论模拟退火基于模拟退火的迭代顺序IB(SA-isIB)算法    
Abstract:To solve the problems of local optima and low efficiency in sequential information bottleneck (sIB) algorithm for document clustering, an improved sIB algorithm is proposed, namely SA-isIB. By a reasonable annealing sequence, a certain proportional of documents are selected randomly from the initial clustering solution of basic sIB algorithm. Then the clustering labels of selected documents are revised and the solution is optimized iteratively. After the process of simulated annealing, higher accuracy document clustering solutions are obtained. Experimental results on document datasets show that by using SA-isIB algorithm the accuracy of sIB algorithm for document clustering is improved efficiently.
Key wordsDocument Clustering    Information Bottleneck (IB) Theory    Simulated Annealing    Simulated Annealing-Iterative Sequential Information Bottleneck (SA-isIB) Algorithm   
收稿日期: 2007-03-06     
ZTFLH: TP391  
基金资助:国家自然科学基金资助项目(No.60674001,60773048)
作者简介: 叶阳东,男,1962年生,教授,博士生导师,主要研究方向为知识工程、机器学习、数据库.E-mail:yeyd@zzu.edu.cn.张洁,女,1977年生,硕士,主要研究方向为机器学习与数据挖掘.刘东,男,1981年生,硕士,主要研究方向为机器学习与数据挖掘.
引用本文:   
叶阳东,张洁,刘东. 一种优化的顺序IB文本聚类算法*[J]. 模式识别与人工智能, 2008, 21(3): 417-422. YE Yang-Dong, ZHANG Jie, LIU Dong. An Improved Sequential IB Algorithm for Document Clustering. , 2008, 21(3): 417-422.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2008/V21/I3/417
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn