模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2014, Vol. 27 Issue (7): 631-637    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
Web语料抓取中基于相似度的URL过滤规则生成算法*
陈荟慧1,舒云星1,林丽2
1洛阳理工学院 计算机与信息工程系 洛阳 471023
2解放军外国语学院 亚非语系 洛阳 471003
A URL Filtering Generation Algorithm Based on Similarity Degree for Web Crawling
CHEN Hui-Hui1, SHU Yun-Xing1, LIN Li2
1Department of Computer and Information Engineering, Luoyang Institute of Science and Technology, Luoyang 471023
2Department of Asian African Languages, PLA University of Foreign Languages, Luoyang 471003

全文: PDF (717 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈荟慧
舒云星
林丽
关键词 URL相似度Web语料爬取URL过滤语料分类    
Abstract:Web text is an important component of the corpus, however, unnecessary time consumption for visiting redundant URLs influences the quality and efficiency of the large scale web crawling. The quality and efficiency of Web crawling can be promoted by using high effective URL filtering rules. The distribution of files in the virtual directories of a website is uneven and a URL filtering rule generation method is introduced to discover the clustering region of target files. Firstly, URLs are transformed into regular expressions and they are divided into many groups by clustering same regular expressions. Then, the similarity degrees between URLs in one group are calculated and the virtual path tree is constructed by using URLs with higher similarity degrees. Finally, the virtual path tree is utilized to generate URL filtering rules and classification rules for Web crawling. The algorithms for generating virtual path tree are introduced in detail and the experimental results of the generated virtual path trees and the filtered URLs are compared by using different similarity degree thresholds.
Key wordsURL Similarity Degree    Web Text Crawling    URL Filtering    Text Classification   
收稿日期: 2013-05-20     
ZTFLH: TP391.1  
基金资助:教育部哲学社会科学研究重大课题攻关项目(No.12JZD014)资助
作者简介: 陈荟慧(通讯作者),女,1978年生,硕士,讲师,主要研究方向为普适计算.E-mail:ddchh@163.com.舒云星,男,1962年生,博士,教授,主要研究方向为数据挖掘.林丽,女,1979年生,讲师,博士研究生,主要研究方向为语言信息处理.
引用本文:   
陈荟慧,舒云星,林丽. Web语料抓取中基于相似度的URL过滤规则生成算法*[J]. 模式识别与人工智能, 2014, 27(7): 631-637. CHEN Hui-Hui, SHU Yun-Xing, LIN Li. A URL Filtering Generation Algorithm Based on Similarity Degree for Web Crawling. , 2014, 27(7): 631-637.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2014/V27/I7/631
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn