模式识别与人工智能
2025年4月3日 星期四   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2013, Vol. 26 Issue (7): 695-700    DOI:
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
MapReduce框架下的不确定数据Top-k查询计算
卢鑫,陈华辉,董一鸿,钱江波
宁波大学信息科学与工程学院宁波315211
Top-k Query Calculations on Uncertain Dataset under MapReduce Framework
LU Xin,CHEN Hua-Hui,DONG Yi-Hong,QIAN Jiang-Bo
School of Information Science and Engineering,Ningbo University,Ningbo 315211

全文: PDF (698 KB)   HTML (0 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 Top-k查询是不确定性数据管理中普遍采用的一种技术。基于参数化排名函数的Top-k查询语义是近年来提出的各种查询语义的统一。文中针对海量不确定数据,提出一种基于MapReduce框架的Top-k计算的有效方法。通过分析基于参数化排名函数的不确定数据Top-k查询语义,设计一种获得未计算元组的排名函数值上界的算法,避免计算所有元组的排名函数值,解决Top-k计算中的剪枝问题。在MapReduce计算模型中提出两种不同的策略来实现该算法。文中针对单机环境和Hadoop分布式计算平台进行两组不同的对比实验。实验表明在处理海量不确定数据时,该算法在计算时间上有较高的性能提升。
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
卢鑫
陈华辉
董一鸿
钱江波
关键词 不确定数据Top-k查询MapReduce    
Abstract:Top-k query is commonly used in the management and application on uncertain data. And the Top-k query semantics base on parameterized ranking functions (PRF) is the unified approach of various query semantics proposed in recent years. Aiming at the massive uncertain dataset,an effective method for the Top-k query based on MapReduce is proposed. Through the analysis on the Top-k query semantics of parameterized ranking functions,an algorithm is presented to get the upper bound of an un-retrieved tuple. In this way,the pruning strategy is used to get the Top-k tuples without retrieving every tuple in the dataset. Furthermore,two different strategies are presented to implement the proposed algorithm under the MapReduce computing model in Hadoop. Finally,two groups of experiments are performed aiming at a single-machine environment and the Hadoop distributed computing platform. The experimental results show that the proposed algorithm is more effective to deal with the Top-k queries for the massive uncertain data on running time.
Key wordsUncertain Data    Top-k Query    MapReduce   
收稿日期: 2012-10-12     
ZTFLH: TP311.13  
基金资助:国家自然科学基金项目(No.60973047)、浙江省自然科学基金项目(No.Y1091189)、浙江省公益性技术应用研究计划项目(No.2011C21076)、宁波市自然科学基金项目(No.2009A610072)、宁波大学胡岚博士基金项目(No.2011277)资助
作者简介: 卢鑫(通讯作者),男,1987年生,硕士研究生,主要研究方向为数据挖掘、云计算.E-mail:koberichard@126.com.陈华辉,男,1964年生,博士,副教授,主要研究方向为数据库、数据挖掘.董一鸿,男,1970年生,博士,教授,主要研究方向为移动数据库、数据挖掘、人工智能、软计算.钱江波,男,1974年生,博士,副教授,主要研究方向为数据库、数据流.
引用本文:   
卢鑫,陈华辉,董一鸿,钱江波. MapReduce框架下的不确定数据Top-k查询计算[J]. 模式识别与人工智能, 2013, 26(7): 695-700. LU Xin,CHEN Hua-Hui,DONG Yi-Hong,QIAN Jiang-Bo. Top-k Query Calculations on Uncertain Dataset under MapReduce Framework. , 2013, 26(7): 695-700.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2013/V26/I7/695
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn