模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2009, Vol. 22 Issue (5): 709-717    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于特征选择及Condensing技术的文本取样*
郝秀兰1,2,陶晓鹏1,王述云1,徐和祥1,3,胡运发1
1.复旦大学 计算机科学与技术学院 上海 200433
2.湖州师范学院 信息工程学院 湖州 313000
3.上海远程教育集团 上海 200092
Documents Sampling Based on Feature Selection and Condensing Techniques
HAO Xiu-Lan1,2, TAO Xiao-Peng1, WANG Shu-Yun1, XU He-Xiang1,3, HU Yun-Fa1
1.School of Computer Science and Technology, Fudan University, Shanghai 200433
2.School of Information Engineering, Huzhou Teachers College, Huzhou 313000
3.Shanghai Tele-Education Group, Shanghai 200092

全文: PDF (612 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 作为一种基于实例的方法,k-近邻(kNN)分类器有大量的计算及存储需求.同时,训练数据分布的不均衡,也会导致kNN分类器的性能下降.针对这些缺陷,文中提出特征选择与Condensing技术相结合的取样方法,以达到下述目的.在减少kNN分类的计算量及存储量的同时,保证分类器的性能.首先由传统的特征选择方法产生训练集里每类训练数据的特征.再根据文档自身的类特征,结合Condensing策略移去多余的训练实例.大量实验表明,用该方法所取得的样本作为训练集,不仅极大减少kNN方法的时空开销,而且降低噪声,提高分类器性能.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
郝秀兰
陶晓鹏
王述云
徐和祥
胡运发
关键词 文本分类k-近邻(kNN)取样特征选择Condensing算法    
Abstract:As an instance based classifier, kNN has many computational and store requirements. Meanwhile, the poor performance of kNN classifier is caused by the imbalance distribution of training data. Aiming at these defects of kNN classifier, a technique, combining feature selection and condensing, is proposed to reduce the time cost and the space of kNN classifier. The proposed algorithm is divided into two steps. Firstly, several traditional methods of feature selection are combined to form features for each class. Then, redundant cases are removed by combination of class features contained in samples with Condensing algorithm. Experimental results indicate when the sample set acquired by the proposed method is used as training set, the classifier saves the time cost and the space dramatically, and the performance of the kNN classifier is improved because noisy data are removed from the training set.
Key wordsText Categorization    k-Nearest Neighbor (kNN)    Sampling    Feature Selection    Condensing Algorithm   
收稿日期: 2007-12-18     
ZTFLH: TP391  
基金资助:国家自然科学基金资助项目(No. 60736016)
作者简介: 郝秀兰,女,1970年生,博士,主要研究方向为全文数据库、自然语言处理.E-mail: xiulanhao@fudan.edu.cn.陶晓鹏,男,1970年生,副教授,博士后,主要研究方向为文本管理、自然语言处理.王述云,女,1976年生,博士,主要研究方向为数据挖掘.徐和祥,男,1972年生,博士,主要研究方向为Deep Web、数据挖掘.胡运发,男,1940年生,教授,博士生导师,主要研究方向为数据工程、知识工程.
引用本文:   
郝秀兰,陶晓鹏,王述云,徐和祥,胡运发. 基于特征选择及Condensing技术的文本取样*[J]. 模式识别与人工智能, 2009, 22(5): 709-717. HAO Xiu-Lan, TAO Xiao-Peng, WANG Shu-Yun, XU He-Xiang, HU Yun-Fa. Documents Sampling Based on Feature Selection and Condensing Techniques. , 2009, 22(5): 709-717.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2009/V22/I5/709
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn