模式识别与人工智能
2025年4月2日 星期三   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2007, Vol. 20 Issue (4): 519-524    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于链接划分的分布式WEB信息检索*
张刚1,2,王斌1,吴丽辉1
1.中国科学院计算技术研究所 软件室 北京 100080
2.中国科学院研究生院 北京 100039
Distributed WEB Information Retrieval Based on Link Partition
ZHANG Gang1,2, WANG Bin1, WU LiHui1
1.Software Division, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080
2.Graduate School of Chinese Academy of Sciences, Beijing 100039

全文: PDF (350 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 分布式信息检索是面向海量WEB信息检索的一种有效手段.本文采用一种基于链接的聚类方法(LIBCA)来对网页数据进行划分,并采用BloomFilter优化LIBCA算法的计算效率,在检索过程中采用CORI集合选择算法和OKAPIBM25检索算法.基于最近3年的TRECWEB实验数据集,对比集中式检索、基于随机划分的分布式检索,实验结果表明,本文方法在P@10的指标上可达到甚至超过集中式检索的效果.效率方面的实验表明利用BloomFilter的LIBCA算法具有较高的划分效率,适合海量数据的处理.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
张刚
王斌
吴丽辉
关键词 网页链接聚类分布式信息检索    
Abstract:Distributed information retrieval is an effective way for large scale WEB information retrieval. A link based clustering algorithm ( LIBCA) is proposed for document partition. The BloomFilter Algorithm is selected to improve the efficiency of LIBCA. CORI collection selection algorithm and OKAPI BM25 are used in the process of distributed information retrieval. Based on TREC WEB dataset for the recent three years, a performance comparison is performed among the methods of link based distributed information retrieval, centralized retrieval, and random based distributed information retrieval. The experiment indicates that at P@10 the results of link partition based distributed WEB information retrieval are equal or even better than that of centralized retrieval. The efficiency experimental results indicate that the LIBCA plus BloomFiltern achieves a high system performance and it can deal with large dataset.
Key wordsWEB Link    Clustering    Distributed Information Retrieval   
收稿日期: 2005-07-26     
ZTFLH: TP391  
基金资助:国家973计划资助项目(No.2004CB318109)
作者简介: 张刚,男,1977年生,助理研究员,主要研究方向为信息检索、自然语言处理.Email:gangzhang@ict.ac.cn.王斌,男,1972年生,副研究员,主要研究方向为信息检索、自然语言处理.吴丽辉,女,1974年生,助理研究员,主要研究方向为信息检索、信息采集.
引用本文:   
张刚,王斌,吴丽辉. 基于链接划分的分布式WEB信息检索*[J]. 模式识别与人工智能, 2007, 20(4): 519-524. ZHANG Gang , WANG Bin , WU LiHui. Distributed WEB Information Retrieval Based on Link Partition. , 2007, 20(4): 519-524.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2007/V20/I4/519
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn