模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2012, Vol. 25 Issue (2): 292-299    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于半监督学习的数据流集成分类算法
徐文华1,覃征1,2,常扬2
1。清华大学信息科学技术学院计算机系北京100084
2。清华大学信息科学技术学院软件学院北京100084
Semi-Supervised Learning Based Ensemble Classifier for Stream Data
XU Wen-Hua 1, QIN Zheng 1, 2, CHANG Yang 2
1.Department of Computer Science and Technology,School of Information Science and Technology,Tsinghua University,Beijing 100084
2.School of Software,School of Information Science and Technology,Tsinghua University,Beijing 100084

全文: PDF (563 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 已有的数据流分类算法多采用有监督学习,需要使用大量已标记数据训练分类器,而获取已标记数据的成本很高,算法缺乏实用性。针对此问题,文中提出基于半监督学习的集成分类算法SEClass,能利用少量已标记数据和大量未标记数据,训练和更新集成分类器,并使用多数投票方式对测试数据进行分类。实验结果表明,使用同样数量的已标记训练数据,SEClass算法与最新的有监督集成分类算法相比,其准确率平均高5。33%。且运算时间随属性维度和类标签数量的增加呈线性增长,能够适用于高维、高速数据流分类问题。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
徐文华
覃征
常扬
关键词 属性权值概念漂移集成分类器同质性K均值聚类半监督学习数据流分类    
Abstract:Stream data classification algorithms are mainly based on supervised learning strategy, and they need massive labeled data for training. These approaches are unpractical due to the high cost of acquiring labeled data in a real streaming environment. A semi-supervised learning based ensemble classifier (SEClass) is presented for stream data classification. SEClass utilizes both a small number of labeled data and a great number of unlabeled data to train an ensemble classifier, and unlabeled instances are classified using the majority voting strategy. The experimental results show that the accuracy of SEClass is 5.33% higher in average than that of the state-of-the-art supervised method using the same number of labeled data for training. And SEClass is suitable for high-dimensional high-speed massive stream data classification.
Key wordsAttribute Weighting    Concept Drift    Ensemble Classifier    Homogeneity    K-means Clustering    Semi-Supervised Learning    Stream Data Classification   
收稿日期: 2011-04-11     
ZTFLH: TP311.13  
基金资助:国家自然科学基金资助项目(No.60673024)
作者简介: 徐文华,男,1978年生,博士研究生,主要研究方向为机器学习、数据挖掘。E-mail:xwh07@mails。tsinghua。edu。cn。覃征,男,1956年生,教授,博士生导师,主要研究方向为信息处理、信息融合。常扬,女,1986年生,硕士研究生,主要研究方向为电子商务、数据挖掘。
引用本文:   
徐文华,覃征,常扬. 基于半监督学习的数据流集成分类算法[J]. 模式识别与人工智能, 2012, 25(2): 292-299. XU Wen-Hua , QIN Zheng , CHANG Yang. Semi-Supervised Learning Based Ensemble Classifier for Stream Data. , 2012, 25(2): 292-299.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2012/V25/I2/292
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn