模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2020, Vol. 33 Issue (9): 820-829    DOI: 10.16451/j.cnki.issn1003-6059.202009006
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于最大决策边界的高维类不平衡数据在线流特征选择
林耀进1,2, 陈祥焰1,2, 白盛兴1,2, 王晨曦1,2
1.闽南师范大学 计算机学院 漳州 363000
2.闽南师范大学 数据科学与智能应用福建省高等学校重点实验室 漳州 363000
Online Streaming Feature Selection for High-Dimensional and Class-Imbalanced Data Based on Max-Decision Boundary
LIN Yaojin1,2, CHEN Xiangyan1,2, BAI Shengxing1,2, WANG Chenxi1,2
1. School of Computer Science and Engineering, Minnan Normal University, Zhangzhou 363000
2. Key Laboratory of Data Science and Intelligence Application, The Education Department of Fujian Province, Minnan Normal University, Zhangzhou 363000

全文: PDF (732 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 数据的特征空间常随时间动态变化,而训练样本的数量固定不变,数据的特征空间在呈现超高维特点的同时通常伴随决策空间的类别不平衡问题.对此,文中提出基于最大决策边界的高维类不平衡数据在线流特征选择算法.借助邻域粗糙集模型,在充分考虑边界样本影响的基础上, 定义自适应邻域关系,设计基于最大决策边界的粗糙依赖度计算公式.同时,提出三种在线特征子集评估指标,用于选择在大类和小类之间具有强区分能力的特征.在 11 个高维类不平衡数据集上的实验表明,在相同的实验环境及特征数量下,文中算法综合性能较优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
林耀进
陈祥焰
白盛兴
王晨曦
关键词 在线特征选择高维类不平衡数据自适应邻域邻域粗糙集    
Abstract:The feature space of data changes with time dynamically. The number of features on training data is high-dimensional and fixed, and the label space is imbalanced. Motivated by the above, an online streaming feature selection algorithm for high-dimensional and class-imbalanced data based on max-decision boundary is proposed. An adaptive neighborhood relation is defined with consideration of the effect of boundary samples based on neighborhood rough set, and then a rough dependency calculation formula with respect to max-decision boundary is designed. Meanwhile, three online feature subset evaluation metrics are proposed to select features with great discriminability in majority and minority classes. Experiments on eleven high-dimensional and class-imbalanced datasets indicate that the proposed method achieves better performance than some state-of-the-art online streaming feature selection algorithms.
Key wordsOnline Feature Selection    High-Dimensional and Class-Imbalanced Data    Adaptive Neighborhood    Neighborhood Rough Set   
收稿日期: 2020-07-01     
ZTFLH: TP 18  
基金资助:国家自然科学基金项目(No.61672272)、福建省自然科学基金项目(No.2018J01548,2018J01547)、福建省教育厅科技项目(No.JAT180318)资助
通讯作者: 林耀进,博士,教授,主要研究方向为数据挖掘、机器学习.E-mail:zzlinyaojin@163.com.   
作者简介: 陈祥焰,硕士研究生,主要研究方向为数据挖掘.E-mail:1053214451@qq.com.白盛兴,硕士研究生,主要研究方向为数据挖掘.E-mail:bsxing813@gmail.com.王晨曦,硕士,讲师,主要研究方向为数据挖掘.E-mail:wangSTBZ5@sina.com.
引用本文:   
林耀进, 陈祥焰, 白盛兴, 王晨曦. 基于最大决策边界的高维类不平衡数据在线流特征选择[J]. 模式识别与人工智能, 2020, 33(9): 820-829. LIN Yaojin, CHEN Xiangyan, BAI Shengxing, WANG Chenxi. Online Streaming Feature Selection for High-Dimensional and Class-Imbalanced Data Based on Max-Decision Boundary. , 2020, 33(9): 820-829.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202009006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2020/V33/I9/820
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn