模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2008, Vol. 21 Issue (1): 12-17    DOI:
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
对文本分类评测方法稳定性的研究*
龚笔宏,彭波
北京大学 网络与分布式系统实验室 北京 100871
Study of Stability of Text Classification Evaluation
GONG BiHong, PENG Bo
Laboratory of Computer Networks and Distributed System, Peking University, Beijing 100871

全文: PDF (606 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题,本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标newmacroF1.这一评测指标将数据集的因素从评测过程中独立出来,使得newmacroF1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集上的分类质量.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
龚笔宏
彭波
关键词 分类技术评测方法数据挖掘    
Abstract:Macro average precision, macro average recall and macro average F1 are usually used to evaluate classification technique. But those measures are sensitive to the datasets which means the measures are only valid for specific dataset but invalid for the others. To solve this problem, three factors are proposed to describe how datasets affect the classification result. Then a new evaluation method of categorization called newmacroF1 is presented according to the three factors. Experimental results show that the new measure remains stable on different datasets and through the performance of an algorithm on one dataset, the precision of other datasets could be estimated with the help of new measure.
Key wordsClassification Technique    Evaluation Method    Data Mining   
收稿日期: 2007-03-06     
ZTFLH: TP391  
基金资助:国家自然科学基金重点项目(No.60435020)、国家自然科学基金项目( No.60573166,60603056)资助
作者简介: 龚笔宏,女,1979年生,博士研究生,主要研究方向为网页分类、个性化搜索.E-mail:bihong.gong@yahoo.com.cn.彭波,男,1976年生,教授,博士,主要研究方向为搜索引擎.
引用本文:   
龚笔宏,彭波. 对文本分类评测方法稳定性的研究*[J]. 模式识别与人工智能, 2008, 21(1): 12-17. GONG BiHong, PENG Bo. Study of Stability of Text Classification Evaluation. , 2008, 21(1): 12-17.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2008/V21/I1/12
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn