模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2014, Vol. 27 Issue (7): 663-672    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于群体智能的半结构化藏文文本聚类算法*
康健1,乔少杰1,格桑多吉2,韩楠3,洪西进1,尼玛扎西2,范小刚1
1西南交通大学 信息科学与技术学院 成都 610031
2西藏大学 工学院 拉萨 850000
3西南交通大学 生命科学与工程学院 成都 610031
A Semi-Structured Tibetan Text Clustering Algorithm Based on Swarm Intelligence
KANG Jian1, QIAO Shao-Jie1, GESANG Duoji2, HAN Nan3, HONG Xi-Jin1, NIMA Zhaxi2, FAN Xiao-Gang1
1School of Information Science and Technology, Southwest Jiaotong University, Chengdu 610031
2College of Engineering, Tibet University, Lhasa 850000
3School of Life Science and Engineering, Southwest Jiaotong University, Chengdu 610031

全文: PDF (1001 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

将群体智能技术应用于半结构化的藏文Web文本聚类,提出基于群体智能的半结构化藏文Web文本聚类算法 (SCAST).充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响,SCAST算法首先运用向量空间模型表示藏文文本信息,将藏文文本和智能蚁群随机放置于一个文本向量空间中.然后智能蚂蚁随机选择藏文文本,计算藏文文本在当前局部区域内的相似性,获得拾起或者放下文本的概率,进而决定是否“拾起”,“移动”,“放下”藏文文本.最后通过多次迭代训练,将藏文文本按其相似性聚集在一起,得到最终聚类结果.大量真实藏文Web文本数据上的实验结果表明,相较于传统的k-means聚类算法,基于群体智能的藏文文本聚类算法在聚类准确率上平均提高约8.0%.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
康健
乔少杰
格桑多吉
韩楠
洪西进
尼玛扎西
范小刚
关键词 群体智能藏文聚类分析群体相似度    
Abstract

To apply swarm intelligence techniques to cluster semi-structured Tibetan Web texts, a semi-structured Tibetan text clustering algorithm based on swarm Intelligence (SCAST) is proposed. Taking into a full consideration of accuracy and efficiency of Tibetan text clustering, a vector space model is used to express Tibetan texts, and the Tibetan texts and intelligent ants are randomly put in a two dimensional text vector space. Then, intelligent ants randomly select a Tibetan text, calculate the similarity between this text and others in the local area,and compute the probability of pick-up operation or drop-down operation to determine whether to pick up, move, or drop down the text. Finally, Tibetan texts are accurately clustered according to their similarities by iterative training of the proposed algorithm. The experimental results on real Tibetan Web text datasets show that the proposed algorithm is more accurate than the traditional k-means clustering algorithm with average increase of 8.0%.

Key wordsSwarm Intelligence    Tibetan Text    Clustering Analysis    Swarm Similarity   
收稿日期: 2013-06-26     
ZTFLH: TP311  
基金资助:

国家自然科学基金项目(No.61165013, 61100045)、教育部人文社会科学研究青年基金项目(No.14YJCZH046)、高等学校博士学科点专项科研基金项目(No.20110184120008)、中国博士后科学基金特别项目(No.201104697)、中央高校基本科研业务费专项资金项目(No.2682013BR023)、四川省科技创新苗子工程项目(No.2012ZZ059)资助

作者简介: 康健,男,1986年生,硕士,主要研究方向为群体智能涌现、藏文信息处理.E-mail:kangjian_0123@163.com.乔少杰,男,1981年生,博士后,副教授,主要研究方向为数据库、群体智能涌现、移动社交网络.格桑多吉,男,1972年生,硕士,副教授,主要研究方向为藏文信息处理.韩楠(通讯作者),女,1984年生,博士,工程师,主要研究方向为数据库、生物信息学.E-mail:hannan@swtju.edu.cn.洪西进,男,1957年生,教授,博士生导师,主要研究方向为生物统计学、信息安全和图像处理.尼玛扎西,男,1972年生,副教授,主要研究方向为藏文信息处理.范小刚,男,1991年生,硕士,主要研究方向为藏文信息处理.
引用本文:   
康健,乔少杰,格桑多吉,韩楠,洪西进,尼玛扎西,范小刚. 基于群体智能的半结构化藏文文本聚类算法*[J]. 模式识别与人工智能, 2014, 27(7): 663-672. KANG Jian, QIAO Shao-Jie, GESANG Duoji, HAN Nan, HONG Xi-Jin, NIMA Zhaxi, FAN Xiao-Gang. A Semi-Structured Tibetan Text Clustering Algorithm Based on Swarm Intelligence. , 2014, 27(7): 663-672.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2014/V27/I7/663
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn