模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2016, Vol. 29 Issue (8): 673-681    DOI: 10.16451/j.cnki.issn1003-6059.201608001
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
结合主动学习的多记录网页属性抽取方法*
魏晶晶1,2,廖祥文3,4,陈巧灵3,4,马飞翔3,4,陈国龙3,4
1.福州大学 物理与信息工程学院 福州 350116
2. 福建江夏学院 电子信息科学学院 福州 350108
3.福州大学 数学与计算机科学学院 福州 350116
4.福州大学 福建省网络计算与智能信息处理重点实验室 福州 350116
A Multi-record Webpage Attribute Extraction Method Combining Active Learning
WEI Jingjing1,2, LIAO Xiangwen3,4, CHEN Qiaoling3,4, MA Feixiang3,4, CHEN Guolong3,4
1.College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116
2.College of Electronics and Information Science, Fujian Jiangxia University, Fuzhou 350108
3.College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116
4.Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing,Fuzhou University, Fuzhou 350116

全文: PDF (603 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
魏晶晶
廖祥文
陈巧灵
马飞翔
陈国龙
关键词 属性抽取 语义分类 主动学习    
Abstract:The attribute extraction process can be separated into two phases, alignment and annotation. In the existing alignment methods, different semantic attributes are mistakenly aligned into the same group. Furthermore, to improve the accuracy of semantic annotation, time-consuming manual annotation is often introduced to construct training set. To solve this problem, a multi-record webpage attribute extraction method combining active learning is presented. As for the problem of wrong attribute alignment, shallow semantic is integrated into the alignment approach to relieve the influence of same tags with different semantics. In the semantic annotation phase, textual, visual and global features are extracted for semantic classification and an active learning based SVM classifier is applied to extract structural data. Moreover, a new sample selection strategy is proposed by introducing the global sample information, and more informative samples with lower confidences are selected to be labeled. The experimental results on BBS and microblog datasets confirm the superiority the proposed method.
Key wordsAttribute Extraction    Semantic Classification    Active Learning   
收稿日期: 2015-02-02     
ZTFLH: TP 391  
基金资助:国家自然科学基金青年基金项目(No.61300105)、教育部博士点基金联合项目(No.2012351410010)、福建省科技重大专项项目(No.2013H6012)、福州市科技计划项目(No.2013-PT-45,2012-G-113)资助
作者简介: 魏晶晶,女,1984年生,博士研究生,主要研究方向为智能信息处理.E-mail:weijj517@163.com. 廖祥文(通讯作者),男,1980年生,博士,副教授,主要研究方向为文本倾向性检索与挖掘.E-mail:liaoxw@fzu.edu.cn. 陈巧灵,女,1989年生,硕士研究生,主要研究方向为Web数据挖掘.E-mail:chenql.fz@gmail.com. 马飞翔,男,1991年生,硕士研究生,主要研究方向为情感分析.E-mail:asoar907@gmail.com. 陈国龙,男,1965年生,博士,教授,主要研究方向为智能信息处理.E-mail:cgl@fzu.edu.cn.
引用本文:   
魏晶晶,廖祥文,陈巧灵,马飞翔,陈国龙. 结合主动学习的多记录网页属性抽取方法*[J]. 模式识别与人工智能, 2016, 29(8): 673-681. WEI Jingjing, LIAO Xiangwen, CHEN Qiaoling, MA Feixiang, CHEN Guolong. A Multi-record Webpage Attribute Extraction Method Combining Active Learning. , 2016, 29(8): 673-681.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201608001      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2016/V29/I8/673
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn