模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2014, Vol. 27 Issue (8): 758-768    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于模式匹配的结构化信息抽取*
邵堃,杨春磊,钱立宾,方帅
合肥工业大学 计算机与信息学院 合肥 230009
Structured Information Extraction Based on Pattern Matching
SHAO Kun, YANG Chun-Lei, QIAN Li-Bin, FANG Shuai
School of Computer and Information, Hefei University of Technology, Hefei 230009

全文: PDF (711 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 

针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果.

服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
邵堃
杨春磊
钱立宾
方帅
关键词 半结构化文本 模式匹配 结构化信息 粗粒度抽取结果 领域识别    
Abstract

The information extraction results extracted from the semi-structured texts are coarse-grained, which results in ineffective semantic analysis. A structured information extraction method based on pattern matching is proposed. The proposed method is targeted at the web-presented semi-structured texts, and the suitable lexicon is loaded through domain recognition of the coarse-grained extraction results. Roles are mapped to the corresponding words in the word sequence according to the part of speech of the role in the patterns. Thus, the structured information can be extracted and it provides support for the accurate semantic analysis. Experiments show more accurate extraction results can be achieved by the proposed method.

Key wordsSemi-structured Text    Pattern Matching    Structured Information    Coarse-Grained Extraction Result    Domain Recognition   
收稿日期: 2013-02-27     
ZTFLH: TP391.1  
基金资助:

国家自然科学基金项目(No.60975033,60575035,60275022)资助

作者简介: 邵堃,男,1967年生,博士,副教授,主要研究方向为Agent技术、软件工程.E-mail:shaokun@hfut.edu.cn.杨春磊,男,1988年生,硕士研究生,主要研究方向为智能计算理论与软件.钱立宾,男,1988年生,硕士研究生,主要研究方向为需求工程.方帅(通讯作者),女,1978年生,博士,副教授,主要研究方向为图像处理、机器视觉.E-mail:fangshuai@163.com.
引用本文:   
邵堃,杨春磊,钱立宾,方帅. 基于模式匹配的结构化信息抽取*[J]. 模式识别与人工智能, 2014, 27(8): 758-768. SHAO Kun, YANG Chun-Lei, QIAN Li-Bin, FANG Shuai. Structured Information Extraction Based on Pattern Matching. , 2014, 27(8): 758-768.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2014/V27/I8/758
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn