模式识别与人工智能
2025年1月12日 星期日   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2019, Vol. 32 Issue (6): 545-556    DOI: 10.16451/j.cnki.issn1003-6059.201906007
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于安全样本筛选的不平衡数据抽样方法
石洪波1, 刘焱昕1, 冀素琴1
1.山西财经大学 信息学院 太原 030006
Safe Sample Screening Based Sampling Method for Imbalanced Data
SHI Hongbo1, LIU Yanxin1, JI Suqin1
1.College of Information, Shanxi University of Finance and Economics, Taiyuan 030006

全文: PDF (890 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

针对欠抽样可能导致有用信息的丢失,以及合成小类的过抽样技术(SMOTE)可能使大类和小类间类重叠更严重的问题,文中提出基于安全样本筛选的欠抽样和SMOTE结合的抽样方法(Screening_SMOTE).利用安全筛选规则,识别并丢弃大类中部分对确定决策边界无价值的实例和噪音实例,采用SMOTE对筛选后数据集进行过抽样.基于安全样本筛选的欠抽样既避免原始数据中有价值信息的丢失,又丢弃大类中的噪音实例,缓减过抽样数据集类重叠的问题.实验表明在处理不平衡数据集,特别是维数较高的不平衡数据集时Screening_SMOTE的有效性.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
石洪波
刘焱昕
冀素琴
关键词 不平衡数据安全样本筛选欠抽样不平衡比率合成小类的过抽样技术(SMOTE)    
Abstract

The loss of valuable information may be caused by undersampling, and the class overlapping between the majority class and the minority class may be aggravated by the synthetic minority oversampling technique(SMOTE). A sampling method, Screening_SMOTE, is proposed in this paper, combining safe sample screening based undersampling with SMOTE. Parts of non-informative instances and noise instances in the majority class are identified and discarded by the undersampling method using safe screening rules. Then, the minority class instances generated by SMOTE are added into the screened dataset. The loss of informative information is avoided and the noise instances in the majority class are discarded using safe sample screening based undersampling, relieving the class overlapping. The experimental results show that Screening_SMOTE is an effective method of rebalancing imbalanced datasets, especially for high dimensional imbalanced datasets.

Key wordsImbalanced Data    Safe Sample Screening    Undersampling    Imbalance Ratio    Synthetic Minority Oversampling Technique(SMOTE)   
收稿日期: 2019-01-29     
ZTFLH: TP 391  
基金资助:

国家自然科学基金项目(No.61801279)、山西省自然科学基金项目(No.2014011022-2,201801D121115)资助

作者简介: 石洪波(通讯作者),博士,教授,主要研究方向为机器学习、人工智能.E-mail:shb710@163.com.刘焱昕,硕士研究生,主要研究方向为机器学习.E-mail:312464821@qq.com.冀素琴,硕士,副教授,主要研究方向为机器学习、数据挖掘.E-mail:jsq58@sina.com.
引用本文:   
石洪波, 刘焱昕, 冀素琴. 基于安全样本筛选的不平衡数据抽样方法[J]. 模式识别与人工智能, 2019, 32(6): 545-556. SHI Hongbo, LIU Yanxin, JI Suqin. Safe Sample Screening Based Sampling Method for Imbalanced Data. , 2019, 32(6): 545-556.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201906007      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2019/V32/I6/545
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn