模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2018, Vol. 31 Issue (7): 634-642    DOI: 10.16451/j.cnki.issn1003-6059.201807006
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于向量表示和标签传播的半监督短文本数据流分类算法
王海燕1, 胡学钢1,2, 李培培1,2
1.合肥工业大学 计算机与信息学院 合肥 230601
2.合肥工业大学 工业安全与应急技术安徽省重点实验室 合肥 230009
Semi-supervised Short Text Stream Classification Based on Vector Representation and Label Propagation
WANG Haiyan1 , HU Xuegang1,2 , LI Peipei1,2
1.School of Computer and Information, Hefei University of Technology, Hefei 230601
2.Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei University of Technology, Hefei 230009

全文: PDF (0 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 社交网络平台产生海量的短文本数据流,具有快速、海量、概念漂移、文本长度短小、类标签大量缺失等特点.为此,文中提出基于向量表示和标签传播的半监督短文本数据流分类算法,可对仅含少量有标记数据的数据集进行有效分类.同时,为了适应概念漂移,提出基于聚类簇的概念漂移检测算法.在实际短文本数据流上的实验表明,相比半监督分类算法和半监督数据流分类算法,文中算法不仅提高分类精度和宏平均,还能快速适应数据流中的概念漂移.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
王海燕
胡学钢
李培培
关键词 短文本数据流半监督分类标签传播概念漂移    
Abstract:The huge volume of short text streams produced by social Network is fast, high-volume and it contains concept drift, short length of texts and massive unlabeled data. Therefore, a semi-supervised short text stream classification algorithm based on vector representation and label propagation is proposed in this paper to classify short text stream with a few labeled data. Besides, to adapt to the concept drift, a concept drift detection algorithm based on clusters is proposed. Experimental results on real short text streams show that the proposed algorithm improves the classification accuracy and the macro average compared with classical semi-supervised classification algorithms and semi-supervised data stream classification algorithms, and it adapts to the concept drift quickly in data stream.
Key wordsShort Text Stream    Semi-supervised Classification    Label Propagation    Concept Drift   
收稿日期: 2018-04-11     
ZTFLH: TP 391.1  
基金资助:国家重点研发计划项目(No.2016YFC0801406)、国家自然科学基金项目(No.61503112,61673152)资助
通讯作者: 李培培(通讯作者),博士,副教授,主要研究方向为数据流挖掘、知识工程.E-mail:peipeili@hfut.edu.cn.   
作者简介: 王海燕,硕士研究生,主要研究方向为短文本数据流分类.E-mail:haiyanwang@mail.hfut.edu.cn.胡学钢,博士,教授,主要研究方向为数据挖掘、知识工程.E-mail:jsjxhuxg@hfut.edu.cn.
引用本文:   
王海燕, 胡学钢, 李培培. 基于向量表示和标签传播的半监督短文本数据流分类算法[J]. 模式识别与人工智能, 2018, 31(7): 634-642. WANG Haiyan , HU Xuegang , LI Peipei. Semi-supervised Short Text Stream Classification Based on Vector Representation and Label Propagation. , 2018, 31(7): 634-642.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201807006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2018/V31/I7/634
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn