题名 海量数据上的近似连接聚集操作
被引量:3
1
作者
韩希先
杨东华
李建中
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学基础与交叉科学研究院高性能计算中心
出处
《计算机学报》
EI
CSCD
北大核心
2010年第10期1919-1933,共15页
基金
国家"九七三"重点基础研究发展规划项目基金(2006CB303005)
国家自然科学基金(60903016
+4 种基金
60533110
60773063)
新世纪优秀人才支持计划(NCET-05-0333)
黑龙江省教育厅科学技术研究项目(11531276)
NSFC-RGC of China(60831160525)资助~~
文摘
连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法——(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本(JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1~5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作.
关键词
pε-近似连接聚集
连接位置索引对表
连接随机样本
海量数据
Keywords
ρε-aja
join positional index pair table
join random sample
massive data
分类号
TP311
[自动化与计算机技术—计算机软件与理论]