模式识别与人工智能
2025年3月16日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2019, Vol. 32 Issue (6): 569-576    DOI: 10.16451/j.cnki.issn1003-6059.201906009
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于识别关键样本点的非平衡数据核SVM算法
郭婷1, 王杰1, 刘全明1, 梁吉业1,2
1.山西大学 计算机与信息技术学院 太原 030006;
2.山西大学 计算智能与中文信息处理教育部重点实验室 太原 030006
Kernel SVM Algorithm Based on Identifying Key Samples for Imbalanced Data
GUO Ting1, WANG Jie1, LIU Quanming1, LIANG Jiye1,2
1.School of Computer and Information Technology, Shanxi University, Taiyuan 030006;
2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006

全文: PDF (805 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核SVM算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核SVM分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10∶1的数据集上,文中算法优势明显.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
郭婷
王杰
刘全明
梁吉业
关键词 非平衡数据集核支持向量机划分欠采样    
Abstract

Under-sampling is often employed in imbalanced data processing. However, the characteristics of support vector machine(SVM) are seldom taken into account in the existing under-sampling methods,and the problem of losing some key information of the majority class is caused by the sampling in the original space. To solve these problems, a kernel SVM algorithm based on identifying key samples for imbalanced data(IK-KSVM) is proposed in this paper. Firstly, the majority class is divided effectively based on the initial hyperplane. Then, kernel heterogeneous nearest neighbor sampling is conducted on each partition to obtain the key samples of the majority class in the high-dimensional space. Finally, the final SVM classifier is trained by the key samples and the minority class samples. Experiments on several datasets show that IK-KSVM is feasible and effective and its advantages are evident while the imbalance degree of the dataset is higher than 10∶1.

Key wordsImbalanced Data    Kernel Support Vector Machine    Partition    Under-Sampling   
收稿日期: 2019-03-05     
ZTFLH: TP 18  
基金资助:

国家自然科学基金项目(No.61876103)、山西省重点研发计划重点项目(No.201603D111014)、山西省1331工程项目资助

作者简介: 郭 婷,硕士研究生,主要研究方向为数据挖掘、机器学习.E-mail:876067312@qq.com.王 杰,博士研究生,主要研究方向为数据挖掘、机器学习.E-mail:812849431@qq.com.刘全明,博士,副教授,主要研究方向为云存储与云安全、网络行为分析、数据挖掘.E-mail:liuqm@sxu.edu.cn.梁吉业(通讯作者),博士,教授,主要研究方向为粒计算、数据挖掘、机器学习.E-mail:ljy@sxu.edu.cn.
引用本文:   
郭婷, 王杰, 刘全明, 梁吉业. 基于识别关键样本点的非平衡数据核SVM算法[J]. 模式识别与人工智能, 2019, 32(6): 569-576. GUO Ting, WANG Jie, LIU Quanming, LIANG Jiye. Kernel SVM Algorithm Based on Identifying Key Samples for Imbalanced Data. , 2019, 32(6): 569-576.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201906009      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2019/V32/I6/569
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn