模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2010, Vol. 23 Issue (6): 847-855    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于概率模型的Web信息抽取
王静,刘志镜
西安电子科技大学 计算机学院 西安 710071
Web Information Extraction Based on Probabilistic Model
WANG Jing,LIU Zhi-Jing
School of Computer Science and Engineering,Xidian University,Xian 710071

全文: PDF (575 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取。首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率。通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
王静
刘志镜
关键词 Web对象条件随机场(CRFs)信息抽取(IE)    
Abstract:According to the structure and the content features of web pages, a model named tree-structured hierarchical conditional random fields (TH-CRFs) is proposed. Firstly, a multi-feature vector space model is proposed to represent the features of the web pages from the facets of the page structure and the content. Secondly, the Boolean model and multi-rules are introduced to denote the features for a better representation of the web objects. Thirdly, an optimal web objects information extraction based on the TH-CRFs is performed to find out the recruitment knowledge and optimize the efficiency of the training. Finally, the proposed model is compared with the existing approaches for web objects information extraction. The experimental results show that the accuracy of the TH-CRFs for the web objects information extraction is significantly improved, and the time complexity is decreased.
Key wordsWeb Object    Conditional Random Fields (CRFs)    Information Extraction (IE)   
收稿日期: 2009-08-17     
ZTFLH: TP391  
基金资助:国家科技支撑计划项目资助(No.2007BAH08B02)
作者简介: 王静,女,1981年生,博士研究生,主要研究方向为数据挖掘、自然语言处理.E-mail:wangjing@mail.xidian.edu.cn.刘志镜,男,1957年生,教授,博士生导师,主要研究方向为视觉计算、数据挖掘、机器学习。
引用本文:   
王静,刘志镜. 基于概率模型的Web信息抽取[J]. 模式识别与人工智能, 2010, 23(6): 847-855. WANG Jing,LIU Zhi-Jing. Web Information Extraction Based on Probabilistic Model. , 2010, 23(6): 847-855.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2010/V23/I6/847
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn