模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2020, Vol. 33 Issue (11): 1004-1012    DOI: 10.16451/j.cnki.issn1003-6059.202011005
论文与报告 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于视觉的网页重要变化检测方法
史存会1,2, 俞晓明1, 刘悦1, 靳小龙1,2, 程学旗1,2
1.中国科学院计算技术研究所 网络数据科学与技术重点实验室 北京 100190;
2.中国科学院大学 计算机科学与技术学院 北京 100049
Vision Based Important Change Detection Method for Web Pages
SHI Cunhui1,2, YU Xiaoming1, LIU Yue1, JIN Xiaolong1,2, CHENG Xueqi1,2
1. Key Laboratory of Network Data Science and Technology,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;
2. School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049

全文: PDF (1265 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向量.从用户视觉的角度,理解页面不同区块语义重要度的差异.相比现有方法,文中方法独立于基于HTML类基础文档的分析方法,在新媒体,如移动互联网上,也有一定的适用性.实验也验证文中方法的有效性.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
史存会
俞晓明
刘悦
靳小龙
程学旗
关键词 Web内容变化检测视觉特征低维向量    
Abstract:Duplicate Web indexes of Web crawling can be reduced effectively by detecting important changes and determining changes of essential content in Web pages.Therefore,a vision based detection method is proposed to detect changes in different semantic regions of the page and compress the page into a low dimensional vector representation.The proposed method is utilized to understand the difference of semantic importance in different regions from the perspective of users.Compared with the existing methods,the proposed method is independent of the analysis of HTML,and thus it is suitable for new media,such as mobile Internet.Experiments show the effectiveness of the proposed method.
Key wordsWeb Content    Change Detection    Visual Feature    Low Dimensional Vector   
收稿日期: 2020-08-12     
ZTFLH: TP391  
基金资助:国家重点研究计划项目(No.2017YFC0820404)、国家杰出青年科学基金项目(No.61425016)、国家自然科学基金重大研究计划项目(No.91746301)资助
通讯作者: 史存会,博士研究生,工程师,主要研究方向为网络科学、信息推荐、事件抽取.E-mail:shicunhui@ict.ac.cn.   
作者简介: 俞晓明,博士,高级工程师,主要研究方向为互联网搜索与挖掘.E-mail:yuxiaoming@ict.ac.cn.刘悦,博士,副研究员,主要研究方向为文本挖掘、Web搜索、复杂网络分析、社会计算.E-mail:liuyue@ict.ac.cn.靳小龙,博士,教授,主要研究方向为知识图谱、知识工程.E-mail:jinxiaolong@ict.ac.cn.程学旗,博士,研究员,主要研究方向为大数据分析与挖掘.E-mail:cxq@ict.ac.cn.
引用本文:   
史存会, 俞晓明, 刘悦, 靳小龙, 程学旗. 基于视觉的网页重要变化检测方法[J]. 模式识别与人工智能, 2020, 33(11): 1004-1012. SHI Cunhui, YU Xiaoming, LIU Yue, JIN Xiaolong, CHENG Xueqi. Vision Based Important Change Detection Method for Web Pages. , 2020, 33(11): 1004-1012.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202011005      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2020/V33/I11/1004
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn