模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2006, Vol. 19 Issue (4): 531-537    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于最小词频阈值的文档特征选择*
陈晓云1,2,李荣陆1,胡运发1
1.复旦大学 计算机与信息技术系 上海 200433
2.福州大学 数学与计算机科学学院 福州 350002
Document Feature Selection Based on the Minimum Term Frequency Threshold
CHEN XiaoYun1,2, LI RongLu1, HU YunFa1
1.Department of Computer and Information Technology, Fudan University, Shanghai 200433
2.School of Mathematics and Computer Science, Fuzhou University, Fuzhou 350002

全文: PDF (431 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量.为此,提出基于最小词频阈值的文档频评估函数.利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量.实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F1值比词频方法提高40%,比普通文档频方法提高15%~30%.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈晓云
李荣陆
胡运发
关键词 文本分类特征选择信息增益互信息χ2统计    
Abstract:In this paper, a novel method of feature evaluation function based on document frequency with the minimum term frequency threshold (DFn) is presented. To decrease the influence of the unrelated features on the system of text categorization, the attribute of the unrelated features is analyzed and the term frequency of the unrelated feature is commonly low. By applying minimum term frequency to filter the low frequency features, the unrelated features are obviously decreased. The experimental results validate the proposed method greatly reduces the number of the unrelated features and effectively improves the accuracy of the text categorization. The improvement to Mutual Information(MI) is very obvious, the Macroaverage F1 value based on DFn is 40% higher than that of Term Frequency, and 15~30% higher than that of Document Frequency(DF).
Key wordsText Classification    Feature Selection    Information Gain    Mutual Information    χ2 Statistic   
收稿日期: 2004-11-15     
ZTFLH: TP311  
基金资助:国家自然科学基金项目(No.60173027, 60373077)、福建省科技三项重点项目(No.K04005)资助
作者简介: 陈晓云,女,1970年生,博士研究生,副教授,主要研究方向为数据挖掘、信息检索.E-mail: c_xiaoyun@21cn.com.李荣陆,男,1976年生,博士研究生,主要研究方向为自然语言处理和机器学习.胡运发,男,1940年生,教授,博士生导师,主要研究方向为数据工程和知识工程.
引用本文:   
陈晓云,李荣陆,胡运发. 基于最小词频阈值的文档特征选择*[J]. 模式识别与人工智能, 2006, 19(4): 531-537. CHEN XiaoYun, LI RongLu, HU YunFa. Document Feature Selection Based on the Minimum Term Frequency Threshold. , 2006, 19(4): 531-537.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2006/V19/I4/531
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn