模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2017, Vol. 30 Issue (6): 559-568    DOI: 10.16451/j.cnki.issn1003-6059.201706009
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于并行信息瓶颈的多语种文本聚类算法*
闫小强,卢耀恩,娄铮铮,叶阳东
郑州大学 信息工程学院 郑州 450052
Multilingual Documents Clustering Algorithm Based on Parallel Information Bottleneck
YAN Xiaoqiang, LU Yaoen, LOU Zhengzheng, YE Yangdong
School of Information Engineering, Zhengzhou University, Zhengzhou 450052

全文: PDF (640 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 聚类算法在抽取文本数据中的模式结构时,忽略多个语种信息之间潜在的互补作用,得到的模式结构不能充分反映数据的内在信息.针对此问题,文中提出基于并行信息瓶颈的多语种文本聚类算法.首先使用词袋模型为文本数据的不同语种信息构建相应的相关变量.然后将多种相关变量引入并行信息瓶颈方法,通过最大化地保存模式结构与多个相关变量之间的信息,使得到的模式结构能够反映数据的多个语种信息.最后提出基于信息论的抽取合并方法优化文中算法的目标函数,保证其收敛到局部最优解.实验表明,文中算法能有效处理文本数据的多个语种信息,性能优于单语种聚类算法和现有的两类能够处理文本多语种信息的聚类算法.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
闫小强
卢耀恩
娄铮铮
叶阳东
关键词 并行信息瓶颈 多语种 文本聚类 信息最大化    
Abstract:The potential complementation between different languages is ignored while traditional clustering algorithms discover the hidden structures in document collection. Thus, the latent information in the collection can not be reflected by the obtained patterns. Aiming at this problem, multilingual document clustering algorithm based on parallel information bottleneck(ML-IB) is proposed. Firstly, the relevant variables of multiple language information are constructed according to the bag-of-words model. Then,the multiple relevant variables are incorporated into the parallel information bottleneck, and the relevant information between data patterns and multiple relevant variables is preserved maximally. Finally, to optimize the objective function of ML-IB, a draw and merge method based on information theory is proposed to guarantee the convergence of ML-IB to a local optimal solution. Extensive experimental results on multilingual document datasets show that the proposed algorithm significantly outperform the state-of-the-art single and multilingual clustering methods.
Key wordsParallel Information Bottleneck    Multilingual    Document Clustering    Information   
收稿日期: 2016-09-26     
ZTFLH: TP 391.4  
基金资助:国家自然科学基金项目(No.61502434,61502432,61170223)资助
作者简介: 闫小强,男,1989年生,博士研究生,主要研究方向为机器学习、模式识别、计算机视觉.E-mail:iexqyan@zzu.edu.cn.
卢耀恩,男,1989年生,硕士研究生,主要研究方向为模式识别、数据挖掘.E-mail:ieyelu@zzu.edu.cn.
娄铮铮,男,1984年生,博士,副教授,主要研究方向为机器学习、模式识别、数据挖掘.E-mail:iezzlou@zzu.edu.cn.
叶阳东(通讯作者),男,1962年生,博士,教授,主要研究方向为智能系统、数据库、机器学习.E-mail:yeyd@zzu.edu.cn.
引用本文:   
闫小强,卢耀恩,娄铮铮,叶阳东. 基于并行信息瓶颈的多语种文本聚类算法*[J]. 模式识别与人工智能, 2017, 30(6): 559-568. YAN Xiaoqiang, LU Yaoen, LOU Zhengzheng, YE Yangdong. Multilingual Documents Clustering Algorithm Based on Parallel Information Bottleneck. , 2017, 30(6): 559-568.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201706009      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2017/V30/I6/559
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn