模式识别与人工智能
2025年4月4日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (7): 667-672    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于文本密度模型的Web正文抽取
朱泽德1,2,李淼2,张健2,陈雷2,曾新华2
1.中国科学技术大学自动化系合肥230026
2.中国科学院合肥智能机械研究所合肥230031
Web Content Extraction Based on Text Density Model
ZHU Ze-De1,2,LI Miao2,ZHANG Jian2,CHEN Lei2,ZENG Xin-Hua2
1.Department of Automation,University of Science and Technology of China,Hefei 230026
2.Institute of Intelligent Machines,Chinese Academy of Sciences,Hefei 230031

全文: PDF (417 KB)   HTML (0 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分。文中提出一种基于文本密度模型的新闻网页正文抽取方法。主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容。该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练。实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
朱泽德
李淼
张健
陈雷
曾新华
关键词 Web挖掘正文抽取文本密度高斯平滑最大子序列    
Abstract:In order to obtain useful content encompassed by a large number of irrelevant information,the content extraction becomes indispensable for web data application. An approach of web content extraction based on the text density model is proposed,which integrates page structure features with language features to convert text lines of page document into a positive or negative density sequence. Additionally,the Gaussian smoothing technique is used to revise the density sequence,which takes the content continuity of adjacent lines into consideration. Finally,the improved maximum sequence segmentation is adopted to split the sequence and extract web content. Without any human intervention or repeated trainings,this approach maintains the integrity of content and eliminates noise disturbance. The experimental results indicate that the web content extraction based on the text density model is widely adapted to different data sources,and both accuracy and recall rate of the proposed approach are better than those existing statistical models.
Key wordsWeb Mining    Content Extraction    Text Density    Gaussian Smoothing    Maximum Subsequence   
收稿日期: 2012-08-30     
ZTFLH: TP391  
基金资助:国家自然科学基金项目(No.61070099)、国家科技支撑计划项目(No.2009BAH41B06)资助
作者简介: 朱泽德,男,1985年生,博士研究生,主要研究方向为自然语言处理、Web信息挖掘.E-mail:zhuzede@mail.ustc.edu.cn.李淼(通讯作者),女,1955年生,研究员,博士生导师,主要研究方向为人工智能、农业知识工程.E-mail:mli@iim.ac.cn.张健,男,1954年生,研究员,博士生导师,主要研究方向为人工智能、农业知识工程.陈雷,男,1981年生,助理研究员,主要研究方向为自然语言处理.曾新华,男,1976年生,副研究员,主要研究方向为数据挖掘.
引用本文:   
朱泽德,李淼,张健,陈雷,曾新华. 基于文本密度模型的Web正文抽取[J]. 模式识别与人工智能, 2013, 26(7): 667-672. ZHU Ze-De,LI Miao,ZHANG Jian,CHEN Lei,ZENG Xin-Hua. Web Content Extraction Based on Text Density Model. , 2013, 26(7): 667-672.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I7/667
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn