模式识别与人工智能
2025年4月11日 星期五   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2015, Vol. 28 Issue (5): 472-480    DOI: 10.16451/j.cnki.issn1003-6059.201505011
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
BMGSJoin:一种基于MapReduce的图相似度连接算法*
陈一帆,赵翔,何培俊,张维明,唐九阳
国防科学技术大学 信息系统工程重点实验室 长沙 410073
BMGSJoin: A MapReduce Based Graph Similarity Join Algorithm
CHEN Yi-Fan, ZHAO Xiang, HE Pei-Jun, ZHANG Wei-Ming, TANG Jiu-Yang
Science and Technology on Information System and Engineering Laboratory, National University of Defense Technology, Changsha 410073

全文: PDF (551 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 图相似度连接在数据挖掘领域应用广泛,尤其是在数据预处理阶段,可用于数据清理、近复本检测等,其研究具有十分重要的意义.针对基于编辑距离约束的图相似度连接问题进行研究,返回两个图集合中所有编辑距离不超过给定阈值的图对.基于分布式编程框架MapReduce,设计采用“过滤-验证”框架的MGSJoin算法,利用基于路径的q-gram签名实现非解候选对的过滤,计数过滤.鉴于该算法键值对数量庞大的潜在问题,引入Bloom Filter技术对算法进行改进并设计BMGSJoin算法.实验结果表明,提出的两种图相似度连接算法能较大地改善现有算法的效率和可扩展性,并能较好地应对当前大数据挖掘分析的需求.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
陈一帆
赵翔
何培俊
张维明
唐九阳
关键词 图相似度连接MapReduce布隆过滤器    
Abstract:Graph similarity join has extensive use in the field of data mining, especially in data pre-processing, it could be applied to data cleaning, near duplicate detection, etc. Thus, it is of great importance to study graph similarity join. Graph similarit join based on edit distance constraints is studied, that is, all the edit distances in the return pair of graphs are no larger than a given threshold. Based on MapReduce programming model, an algorithm named MGSJoin is proposed with the ″filtering-verification″ framework, and it relies on graph signatures of path-based q-grams for filtering out non-promising candidates, i.e. count filtering.With the potential issue of too many key-value pairs, Bloom Filter is introduced to improve the algorithm and BMGSJoin is designed. The improvement of efficiency and scalability by the proposed algorithm is demonstrated by extensive experimental results, and it may meet the current challenges of big data mining and analysis.
Key wordsGraph Similarity Join    MapReduce    Bloom Filter   
收稿日期: 2014-03-25     
ZTFLH: TP 391.4  
基金资助:国家自然科学基金项目(No.61402494)、湖南省自然科学基金项目(No.2015JJ4009)资助
作者简介: 陈一帆,男,1991年生,硕士研究生,主要研究方向为信息资源管理.赵翔(通讯作者),男,1986年生,博士,讲师,主要研究方向为图数据管理及社会计算.E-mail:xiangzhao@nudt.edu.cn.何培俊,男,1988年生,硕士研究生,主要研究方向为信息资源管理.张维明,男,1962年生,博士,教授,主要研究方向为军事信息系统与智能决策.唐九阳,男,1978年生,博士,副教授,主要研究方向为对等计算、传感器网络及社会计算.
引用本文:   
陈一帆,赵翔,何培俊,张维明,唐九阳. BMGSJoin:一种基于MapReduce的图相似度连接算法*[J]. 模式识别与人工智能, 2015, 28(5): 472-480. CHEN Yi-Fan, ZHAO Xiang, HE Pei-Jun, ZHANG Wei-Ming, TANG Jiu-Yang. BMGSJoin: A MapReduce Based Graph Similarity Join Algorithm. , 2015, 28(5): 472-480.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.201505011      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2015/V28/I5/472
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn