模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2012, Vol. 25 Issue (6): 996-1001    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于词性和中心点改进的文本聚类方法
施侃晟,刘海涛,宋文涛
上海交通大学电子信息与电气工程学院上海200040
A Text Clustering Method Based on Speech to Text and Improved Center Selection
SHI Kan-Sheng, LIU Hai-Tao, SONG Wen-Tao
School of Electronic Information and Electrical Engineering,Shanghai Jiaotong University,Shanghai 200040

全文: PDF (410 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对k-均值算法对初始点敏感、易陷入局部最优的问题,提出一种基于词性和中心点改进的文本聚类方法(STICS)。通过改进文本的语义型表示,优化中心点的选取,并消除孤立点的负面影响,从而获得较好的聚类效果。STICS考虑不同词性特征对文本的贡献,采用加权的向量空间模型来表示文本。对于中心点的选取,首先度量每个样本的样本平均相似度,其次选取样本平均相似度最大的样本作为第一个聚类中心。此外,STICS消除孤立点的负面影响,以此提高聚类效果。实验结果表明文中方法确实具有更好的聚类效果。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
施侃晟
刘海涛
宋文涛
关键词 文本聚类k-均值词性特征样本平均相似度孤立点    
Abstract:The traditional k-means algorithm is sensitive to the initial point and easy to fall into local optimum. An improved speech to text and improved center selection (STICS) based text clustering method is proposed. Taking into account the speech to text, the optimal selection of centers and treatment of outliers concurrently, STICS has three aspects of improvement. The weighted vector space model (VSM) is used to represent text according to the speech to text. For the selection of the center, the sample average similarity is measured for each sample, and the sample with the largest sample average similarity is selected as the first center. In addition, STICS method eliminates the negative influences of isolated points or outliers. Both theoretical analysis and experimental results prove that the proposed algorithm has better clustering results.
Key wordsText Clustering    k-means    Speech to Text    Sample Average Similarity    Outlier   
收稿日期: 2011-08-25     
ZTFLH: TP3  
基金资助:国家自然科学基金资助项目(No.60970107)
作者简介: 施侃晟,男,1966年生,博士,教授,主要研究方向为云计算、智能挖掘领域。E-mail:steve@joinvc。com。刘海涛,男,1974年生,博士,副教授,主要研究方向为海量数据处理、物联网领域。宋文涛,男,1936年生,教授,博士生导师,主要研究方向为网络通讯、海量数据处理。
引用本文:   
施侃晟,刘海涛,宋文涛. 基于词性和中心点改进的文本聚类方法[J]. 模式识别与人工智能, 2012, 25(6): 996-1001. SHI Kan-Sheng, LIU Hai-Tao, SONG Wen-Tao. A Text Clustering Method Based on Speech to Text and Improved Center Selection. , 2012, 25(6): 996-1001.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2012/V25/I6/996
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn