模式识别与人工智能
2025年1月11日 星期六   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2019, Vol. 32 Issue (8): 726-735    DOI: 10.16451/j.cnki.issn1003-6059.201908006
“粒计算理论与应用研究”专栏 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于邻域粗糙集的高维类不平衡数据在线流特征选择
陈祥焰1,2, 林耀进1,2, 王晨曦1,2
1.闽南师范大学 计算机学院 漳州 363000
2.数据科学与智能应用福建省高等学校重点实验室 漳州 363000
Online Streaming Feature Selection for High-Dimensional and Class-Imbalanced Data Based on Neighborhood Rough Set
CHEN Xiangyan1,2, LIN Yaojin1,2, WANG Chenxi1,2
1.School of Computer Science and Engineering, Minnan Normal University, Zhangzhou 363000
2.Key Laboratory of Data Science and Intelligence Application, Fujian Province University, Zhangzhou 363000

全文: PDF (726 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈祥焰
林耀进
王晨曦
关键词 在线特征选择高维不平衡数据邻域粗糙集粗糙依赖度    
Abstract

In many real world applications, data is dynamically generated at different time periods in addition to high-dimensional imbalanced features. An high-dimensional class-imbalanced online feature selection algorithm based on neighborhood rough set is proposed. The algorithm design is based on rough dependency calculation formula of small class significance. Meanwhile, three evaluation criteria of online relevance analysis, online redundancy analysis and online significance analysis, are presented to select features with high separability between majority and minority classes. Experimental results on seven high-dimensional and class-imbalanced datasets show that the proposed method can effectively select a better feature subset with better performance.

Key wordsOnline Feature Selection    High-Dimensional and Class-Imbalance Data    Neighborhood Rough Set    Rough Dependence   
收稿日期: 2019-03-01     
ZTFLH: TP 18  
基金资助:

国家自然科学基金项目(No.61672272)、福建省自然科学基金项目(No.2018J01548,2018J01547)、福建省教育厅科技项目(No.JT180318)资助

通讯作者: 林耀进(通讯作者),博士,教授,主要研究方向为数据挖掘、机器学习.E-mail:zzlinyaojin@163.com.   
作者简介: 陈祥焰,硕士研究生,主要研究方向为数据挖掘.E-mail:1053214451@qq.com.王晨曦,硕士,讲师,主要研究方向为数据挖掘.E-mail:wangcx5@sina.com.
引用本文:   
陈祥焰, 林耀进, 王晨曦. 基于邻域粗糙集的高维类不平衡数据在线流特征选择[J]. 模式识别与人工智能, 2019, 32(8): 726-735. CHEN Xiangyan, LIN Yaojin, WANG Chenxi. Online Streaming Feature Selection for High-Dimensional and Class-Imbalanced Data Based on Neighborhood Rough Set. , 2019, 32(8): 726-735.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201908006      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2019/V32/I8/726
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn