模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2017, Vol. 30 Issue (1): 43-53    DOI: 10.16451/j.cnki.issn1003-6059.201701005
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于Top-k查询约束的深网增量爬取*
江俊彦1,2,彭智勇1,2,吴小莹1
1.武汉大学 软件工程国家重点实验室 武汉 430072
2. 武汉大学 计算机学院 武汉 430072
Incremental Deep Web Crawling with Top-k Query Constraint
JIANG Junyan1,2, PENG Zhiyong1,2, WU Xiaoying1
1. State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072
2. School of Computer, Wuhan University, Wuhan 430072

全文: PDF (892 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
江俊彦
彭智勇
吴小莹
关键词 Top-k查询Web数据库爬取 数据质量查询代价查询选择    
Abstract:Crawling all deep web data is difficult for third party applications due to dynamicity, autonomy and quantity of deep web data sources. To tackle the deep web crawling problem under the query type restriction(only top-k queries are allowed) and limited query resources, an approach for incremental web crawling with top-k query constraint is proposed. Historical data and domain knowledge are combined to maximize total repository data quality. Firstly, valid queries are generated using a query tree, and changes and corresponding cost of the query are estimated by historical data and domain knowledge. Next, grounded on the query cost and data quality of the estimation, the optimal subset is selected approximately to globally maximize total data quality under limited query resources. The experimental results on real datasets show the proposed approach improves the efficiency of crawling dynamic web database.
Key wordsTop-k Query    Web Database Crawling    Data Quality    Query Cost    Query Selection   
收稿日期: 2016-09-10     
ZTFLH: TP 311  
基金资助:国家自然科学基金项目(No.61232002,61202035)、武汉创新团队计划项目(No.2014070504020237)资助
作者简介: 江俊彦,男,1987年生,博士研究生,主要研究方向为Web数据管理.E-mail:jiangjy@whu.edu.cn.彭智勇,男,1963年生,博士,教授,主要研究方向为复杂数据管理、可信数据管理、Web数据管理.E-mail:peng@whu.edu.cn.吴小莹(通讯作者),女,1973年生,博士,副教授,主要研究方向为数据管理、查询处理和优化、关键字查询、模式挖掘、语义网、数据集成.E-mail:xiaoying.wu@whu.edu.cn.
引用本文:   
江俊彦,彭智勇,吴小莹. 基于Top-k查询约束的深网增量爬取*[J]. 模式识别与人工智能, 2017, 30(1): 43-53. JIANG Junyan, PENG Zhiyong, WU Xiaoying. Incremental Deep Web Crawling with Top-k Query Constraint. , 2017, 30(1): 43-53.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201701005      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2017/V30/I1/43
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn