模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2017, Vol. 30 Issue (1): 1-10    DOI: 10.16451/j.cnki.issn1003-6059.201701001
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于聚类假设的数据流分类算法*
李南
福建农林大学 计算机与信息学院 福州 350002
Clustering Assumption Based Classification Algorithm for Stream Data
LI Nan
College of Computer and Information Sciences, Fujian Agriculture and Forestry University, Fuzhou 350002

全文: PDF (530 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 获取数据流上样本的真实类别的代价很高,因此标记所有样本的方式缺乏实用性,而随机标记部分样本又会导致模型的不稳定.针对上述问题,文中提出基于聚类假设的数据流分类算法.基于通过聚类算法分到同类中的样本可能具有相同类别这一聚类假设,利用训练数据集上的聚类结果拟合样本的分布情况,在分类阶段有目的性地选取很难分类或潜在概念漂移的样本更新模型.为了训练数据集上每个类别的样本,建立各自对应的基础分类器,当数据流中样本的类别消失或重现时,只需要冻结或激活与之对应的基础分类器,而无需再重新学习之前已经掌握的知识.实验表明,文中算法能够在适应概念漂移的前提下,减少更新模型需要的样本数量,并且取得和当前数据流上的分类算法相当或更好的分类效果.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
李南
关键词 概念漂移数据流分类聚类    
Abstract:Labeling all the instances is unpractical due to the high cost of acquiring labeled data in a real streaming environment. However, labeling part of the instances leads to model instability. Aiming at these problem, a clustering assumption based classification algorithm for stream data(CASD) is proposed. It is assumed that the instances divided into the same cluster may come from the same class. Based on the clustering assumption, the clustering result is utilized to fit the distribution of each class. The instances difficult to be classified or from concept drift class are selected to update the current model. Maintaining several base learners for each class and dynamical updating them is another innovation of the proposed algorithm. When instances from a specific class disappear or reappear, the corresponding base learners are frozen or activated instead of relearning the prior knowledge. Experimental results show that with a few labeled instances, the accuracy of CASD is comparable to that of state-of-the-art algorithms and the model can adapt to concept drift rapidly.
Key wordsConcept Drift    Stream Data    Classification    Clustering   
收稿日期: 2016-05-30     
ZTFLH: TP 311  
基金资助:福建省自然科学基金项目(No.2016J01280)资助
作者简介: 李 南,男,1987年生,硕士,助教,主要研究方向为模式识别、人工智能.E-mail:binbanbiniban@163.com.
引用本文:   
李南. 基于聚类假设的数据流分类算法*[J]. 模式识别与人工智能, 2017, 30(1): 1-10. LI Nan. Clustering Assumption Based Classification Algorithm for Stream Data. , 2017, 30(1): 1-10.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201701001      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2017/V30/I1/1
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn