模式识别与人工智能
2025年3月17日 星期一   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2020, Vol. 33 Issue (9): 811-819    DOI: 10.16451/j.cnki.issn1003-6059.202009005
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于密度峰值聚类的自适应欠采样方法
崔彩霞1,2, 曹付元1,3, 梁吉业1,3
1.山西大学 计算机与信息技术学院 太原 030006
2.太原师范学院 计算机科学与技术系 晋中 030619
3.山西大学 计算智能与中文信息处理教育部重点实验室 太原 030006
Adaptive Undersampling Based on Density Peak Clustering
CUI Caixia1,2, CAO Fuyuan1,3 , LIANG Jiye1,3
1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006
2. Computer Science and Technology Department, Taiyuan Normal University, Jinzhong 030619
3. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006

全文: PDF (724 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
崔彩霞
曹付元
梁吉业
关键词 不平衡数据分类欠采样密度峰值聚类重叠区    
Abstract:Undersampling based on K-means clustering is only suitable for hypersphere shape data, the impact of overlapping regions on classification is not taken into account, and the density of samples in the clusters is neglected. Therefore, an adaptive undersampling method based on density peak clustering is proposed. Firstly, the samples of the majority class in the overlapping region are identified by the nearest neighbor search algorithm and deleted. Secondly, a number of clusters of different shapes, sizes and densities are automatically obtained by improved density peaks clustering. Then, undersampling is performed according to the sampling weights calculated by the density of the samples in the subclusters, and bagging ensemble classification is conducted on the obtained balanced dataset. Experiments indicate that the performance of the proposed method is better on most datasets.
Key wordsImbalanced Data    Classification    Undersampling    Density Peak Clustering    Overlapping region   
收稿日期: 2020-06-15     
ZTFLH: TP 391  
基金资助:国家自然科学基金项目(No.61876103)、山西省重点研发计划项目(No.201903D121162)资助
通讯作者: 梁吉业,博士,教授,主要研究方向为人工智能、粒计算、数据挖掘、机器学习.E-mail:ljy@sxu.edu.cn.   
作者简介: 崔彩霞,博士研究生,主要研究方向为数据挖掘、机器学习.E-mail:cuicaixia@tynu.edu.cn.曹付元,博士,教授,主要研究方向为数据挖掘、机器学习.E-mail:cfy@sxu.edu.cn.
引用本文:   
崔彩霞, 曹付元, 梁吉业. 基于密度峰值聚类的自适应欠采样方法[J]. 模式识别与人工智能, 2020, 33(9): 811-819. CUI Caixia, CAO Fuyuan , LIANG Jiye. Adaptive Undersampling Based on Density Peak Clustering. , 2020, 33(9): 811-819.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202009005      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2020/V33/I9/811
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn