模式识别与人工智能
2025年8月11日 星期一   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2015, Vol. 28 Issue (2): 187-192    DOI: 10.16451/j.cnki.issn1003-6059.201502012
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于特征选择和点互信息剪枝的产品属性提取方法*
高磊,戴新宇,黄书剑,陈家骏
南京大学 计算机软件新技术国家重点实验室 南京 210023
Product Attribute Extraction Based on Feature Selection and Pointwise Mutual Information Pruning
GAO Lei, DAI Xin-Yu, HUANG Shu-Jian, CHEN Jia-Jun
State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023

全文: PDF (420 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

产品属性的自动抽取是情感分析中的重要研究内容.文中提出一种基于特征选择和词频及点互信息剪枝的产品属性提取方法.首先引入在分类任务中常用的l1-norm正则化(Lasso)方法,将产品属性抽取问题转换为分类中的特征选择问题,利用Lasso生成稀疏模型的特性,将模型中少量的特征作为产品特征属性候选集.然后根据候选特征属性集中的特征属性在文本中出现的频率进行排序并剪枝.最后经过进一步合并和点互信息剪枝处理,得到最终的产品属性集.在中文产品评论集上的实验证实文中方法的有效性.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
高磊
戴新宇
黄书剑
陈家骏
关键词 情感分析产品属性提取l1-norm正则化点互信息剪枝    
Abstract

Product attribute extraction is a key point in sentiment analysis. In this paper, a product attribute extraction method based on feature selection and pointwise mutual information pruning strategies is proposed. Firstly, the extraction task is transferred to a feature selection task in a classifier. The classification model with l1-norm regularization, such as Lasso, can encourage a sparse model with fewer important selected features. Secondly, some extracted features are selected through a frequency threshold. The features as the product attributes are finally generated with point mutual information pruning. The experiments on the product reviews in Chinese demonstrate the effectiveness of the proposed method.

Key wordsSentiment Analysis    Product Attribute Extraction    l1-norm Regularization    Pointwise Mutual Information Pruning   
收稿日期: 2013-08-30     
ZTFLH: TP391.1  
基金资助:

国家自然科学基金项目(No.61003112,61170181)、国家社会科学基金重点项目(No.11AZD121)、江苏省自然科学基金项目(No.BK2011192)资助

作者简介: 高磊,男,1984年生,硕士,主要研究方向为情感分析.E-mail:gaol@nlp.nju.edu.cn.戴新宇(通讯作者),男,1979年生,博士,副教授,主要研究方向为自然语言处理.E-mail:daixinyu@nju.edu.cn.黄书剑,男,1984年生,博士,助理研究员,主要研究方向为机器翻译.陈家骏,男,1963年生,博士,教授,主要研究方向为自然语言处理.
引用本文:   
高磊,戴新宇,黄书剑,陈家骏. 基于特征选择和点互信息剪枝的产品属性提取方法*[J]. 模式识别与人工智能, 2015, 28(2): 187-192. GAO Lei, DAI Xin-Yu, HUANG Shu-Jian, CHEN Jia-Jun. Product Attribute Extraction Based on Feature Selection and Pointwise Mutual Information Pruning. , 2015, 28(2): 187-192.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201502012      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2015/V28/I2/187
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn