期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
Graph Similarity Join with K-Hop Tree Indexing
1
作者 Yue Wang Hongzhi Wang +1 位作者 Chen Ye Hong Gao 《国际计算机前沿大会会议论文集》 2015年第1期13-14,共2页
Graph similarity join has become imperative for integrating noisy and inconsistent data from multiple data sources. The edit distance is commonly used to measure the similarity between graphs. To accelerate the simila... Graph similarity join has become imperative for integrating noisy and inconsistent data from multiple data sources. The edit distance is commonly used to measure the similarity between graphs. To accelerate the similarity join based on graph edit distance, in the paper, we make use of a preprocessing strategy to remove the mismatching graph pairs with significant differences. Then a novel method of building indexes for each graph is proposed by grouping the nodes which can be reached in k hops for each key node with structure conservation, which is the k-hop-tree based indexing method. Experiments on real and synthetic graph databases also confirm that our method can achieve good join quality in graph similarity join. Besides, the join process can be finished in polynomial time. 展开更多
关键词 GRAPH SIMILARITY join EDIT distance constraint k-hop tree based indexING structure conservation boundary filtering
下载PDF
大规模时空轨迹数据连接查询效率优化实践 被引量:1
2
作者 丁强龙 叶惠珠 +1 位作者 袁弘强 李志新 《计算机系统应用》 2024年第5期1-14,共14页
本文提出一种低集群计算资源条件下,大规模轨迹类数据同时空关系的快速连接查询算法DPCP-CROSSJOIN.该算法通过对轨迹数据时间字段进行分段交叉编码和位置网格化等方式对连续的轨迹数据离散化,并以日期和网格区域编码进行两级分区存储.... 本文提出一种低集群计算资源条件下,大规模轨迹类数据同时空关系的快速连接查询算法DPCP-CROSSJOIN.该算法通过对轨迹数据时间字段进行分段交叉编码和位置网格化等方式对连续的轨迹数据离散化,并以日期和网格区域编码进行两级分区存储.通过交叉“等值”连接查询,实现时空连接查询的三级索引、四级加速,将n·n对象间同时空关系连接查询时间复杂度从O(n^(2))降为O(nlogn).在Hadoop集群上使用Hive和TEZ等进行大规模轨迹数据连接查询时能将连接查询效率最高提升到30.66倍.该算法以时间段编码作为关联条件,巧妙绕开连接过程中复杂表达式的实时计算,以“等值”替代复杂表达式计算连接,提高MapReduce任务并行度,提升集群存储和计算资源利用率.在面对仅使用一般优化已几乎无法完成的,更大规模类似任务,仍能在数分钟内完成.实验表明,该算法具有高效和稳定等特性,尤其适用低“算力”资源条件下大规模轨迹数据的同时空关系连接查询.此方法还可作为时空轨迹伴随查找,对象间关系亲密度判定等的原子算法,可广泛应用于维护国家安全、社会治安秩序,预防和打击犯罪,辅助城乡规划统筹等领域. 展开更多
关键词 轨迹数据 三级时空索引 复杂表达式连接查询 交叉编码 同时空 低算力条件
下载PDF
一种改进的并行连接算法Diag-Join及其性能分析
3
作者 庄毅 徐海力 《计算机工程》 CAS CSCD 北大核心 2004年第2期119-120,147,共3页
介绍了一种改进的并行连接算法:Diag-Join算法,并将它运用到并行环境中。实验表明,Diag-Join算法在内存足够时可以取得最好的性能,即使在内存较小的情况下,仍能得到令人满意的效果。
关键词 关系数据库 并行数据库 连接算法 索引 查询优化
下载PDF
两类联图的PI不变边
4
作者 熊金 李怡博 《湖北大学学报(自然科学版)》 CAS 2024年第1期45-51,共7页
设G=(V(G),E(G))是一个简单连通图。图G的PI指标定义为PI(G)=∑_(e=uv∈E(G))[n_(1)^((e|G))+n_(2)^((e|G))],其中n_(1)^((e|G))是图G中到点u的距离比到点v的距离小的点的数目,n_(2)^((e|G))是图G中到点v的距离比到点u的距离小的点的数... 设G=(V(G),E(G))是一个简单连通图。图G的PI指标定义为PI(G)=∑_(e=uv∈E(G))[n_(1)^((e|G))+n_(2)^((e|G))],其中n_(1)^((e|G))是图G中到点u的距离比到点v的距离小的点的数目,n_(2)^((e|G))是图G中到点v的距离比到点u的距离小的点的数目。如果PI(G-e)=PI(G),那么边e称为图G的PI不变边。本文中分别讨论门槛图和轮图存在PI不变边的条件。 展开更多
关键词 PI指标 联图 门槛图 轮图 PI不变边
下载PDF
pgi-distance:一种高效的并行KNN-join处理方法 被引量:3
5
作者 何洪辉 王丽珍 周丽华 《计算机研究与发展》 EI CSCD 北大核心 2007年第10期1774-1781,共8页
KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用.利用KNN-join的"一次一个集合"的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行.MuX和Goreder则是两种专为KNN-join设计的算法.为了... KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用.利用KNN-join的"一次一个集合"的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行.MuX和Goreder则是两种专为KNN-join设计的算法.为了综合利用这两种方法的优点,一种新的KNN-join并行处理方法——pgi-distance(parallel grid index-distance)——被提了出来.pgi-distance使用双层结构,可以对I/O和CPU进行同时优化;基于距离的索引能够让它更好地适应数据维度和分布的变化.由于采用的是各DBMS厂商广泛支持的B+树索引,这让pgi-distance得以成为一种更为实用的KNN-join处理方法.在合成数据集和真实数据集上的测试也表明pgi-distance是实用的和高效的. 展开更多
关键词 KNN-join 数据挖掘 分类 基于距离的索引 B+树
下载PDF
Join-based算法在Matlab中的实现
6
作者 余翠兰 《电脑开发与应用》 2014年第7期24-30,共7页
Join-based算法是一种著名的空间co-location模式挖掘算法,co-location模式代表的是一组空间特征的子集,它们的实例在空间中频繁的关联。首先描述了Join-based算法的工作原理,然后以挖掘三江并流珍希植物的共生物种问题为例利用matlab... Join-based算法是一种著名的空间co-location模式挖掘算法,co-location模式代表的是一组空间特征的子集,它们的实例在空间中频繁的关联。首先描述了Join-based算法的工作原理,然后以挖掘三江并流珍希植物的共生物种问题为例利用matlab进行了程序实现,给出了运行的最优结果。 展开更多
关键词 join-based算法 CO-LOCATION模式 空间数据挖掘 参与度 MATLAB
下载PDF
基于图结构索引的分布式OLAP加速方法
7
作者 沈斯杰 陈榕 +1 位作者 陈海波 臧斌宇 《软件学报》 EI CSCD 北大核心 2023年第10期4661-4680,共20页
随着业务数据的规模增大,一些重要的应用场景需要使用分布式在线分析处理(OLAP)支持大规模数据的分析,例如商务智能(BI),企业资源计划(ERP),用户行为分析等.同时,分布式OLAP打破单机存储的限制,可以将数据放在内存中以提升OLAP的处理性... 随着业务数据的规模增大,一些重要的应用场景需要使用分布式在线分析处理(OLAP)支持大规模数据的分析,例如商务智能(BI),企业资源计划(ERP),用户行为分析等.同时,分布式OLAP打破单机存储的限制,可以将数据放在内存中以提升OLAP的处理性能.然而,基于内存的分布式OLAP在消除磁盘I/O后,性能瓶颈转移到了连接操作.连接操作是OLAP中的一种常用操作,会进行大量的数据读取与计算操作.通过对现有的几种连接操作方式进行分析,提出了一种能够加速连接操作的图结构索引以及基于图结构索引的连接操作方式LinkJoin.图结构索引通过用户所指定的连接关系,将数据在内存中的位置以图结构的形式进行存储.基于图结构索引的连接方式,不仅能够有等同于哈希连接的较低复杂度,而且在执行过程中能减少数据读取与计算操作次数.将目前先进的开源内存OLAP系统MonetDB从单机系统扩展成分布式系统,并且在该系统上设计与实现了基于图结构索引的连接操作方式.针对该系统的图索引结构,列式存储以及分布式执行引擎这3个重要方面,进行一系列设计与优化,以提升系统的分布式OLAP处理性能.测试结果表明,在TPC-H标准测试中,基于图结构索引的连接操作对于有连接操作的查询的平均性能提升达1.64倍(最多达4.1倍).对于这些查询中的连接操作,性能提升达9.8–22.1倍. 展开更多
关键词 OLAP系统 分布式系统 连接操作 索引技术 图结构
下载PDF
MapReduce优化技术综述 被引量:30
8
作者 黄山 王波涛 +2 位作者 王国仁 于戈 李佳佳 《计算机科学与探索》 CSCD 2013年第10期865-885,共21页
作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引... 作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引、连接、迭代计算、科学计算及调度算法方面的优化技术,分析了MapReduce技术研究的挑战性问题,指出了未来研究方向。 展开更多
关键词 MAPREDUCE 列存储 索引 连接 迭代 科学计算 调度算法 优化
下载PDF
一种基于向量索引的内存OLAP星型连接加速新技术 被引量:9
9
作者 张延松 张宇 王珊 《计算机学报》 EI CSCD 北大核心 2019年第8期1686-1703,共18页
星型连接是OLAP中重要的操作,事实表与维表基于星型连接执行多维分析处理.星型连接的性能取决于连接性能.当前研究主要集中在如何在不同的处理器平台上优化哈希连接性能,然而如何获得最优的哈希连接参数或实现是一个复杂的问题.哈希连... 星型连接是OLAP中重要的操作,事实表与维表基于星型连接执行多维分析处理.星型连接的性能取决于连接性能.当前研究主要集中在如何在不同的处理器平台上优化哈希连接性能,然而如何获得最优的哈希连接参数或实现是一个复杂的问题.哈希连接不依赖于模式的语义信息,然而却可以在事实表与维表之间通过维映射特征进一步优化连接性能.该文提出了一种新颖的面向OLAP负载的向量索引以提高事实表与维表之间的连接性能.从模式的角度来看,维表可以映射为向量索引,每一个事实表记录可以直接映射到向量索引上的相应位置,无须执行基于值匹配的哈希连接操作.从实现技术的角度看,向量索引是一种位图索引、字典表压缩、主外键参照完整性约束和连接索引相结合的技术.系统化的设计使向量索引可以扮演多种角色:(1)向量索引与位图索引类似起到过滤作用;(2)向量索引相对于只存储0或1的位图索引使用更多的位来表示更多的信息;(3)映射或创建自动增长的主键作为向量索引地址并且更新相应的外键,将主外键参照完整性约束转换为向量参照约束;(4)外键连接操作简化为通过外键值引用向量单元.基于向量索引,OLAP中代价大的星形连接可以抽象为向量索引计算,OLAP查询可以简化为基于向量索引的单表扫描处理.向量索引简化的设计不仅可以提升性能,而且降低了在GPU平台实现的复杂度.本文首先讨论了向量索引机制和如何在数据库中应用向量索引;然后设计向量索引更新机制,以保证在更新时向量参照约束;最后提出基于向量索引的OLAP框架来提高内存数据库OLAP性能.基于向量索引的星型连接可以用作GPU上的OLAP加速器,使CPU可以将计算密集型负载转移到高性能GPU平台来加速OLAP处理.实验结果表明向量索引更新代价较低,而向量引用性能收益较大.更重要的是,向量索引支持OLAP中的星形连接操作在内存数据库引擎之外进行加速,降低了内存数据库的CPU负载,或者将星形连接负载通过硬件级加速器,如GPU进行加速.基于向量索引的星型连接可以显著提升CPU和GPU平台上的星型连接性能,相对于内存数据库Vector,在SSB Q4.1查询可以获得最大3倍的性能提升,平均性能提升了1.2倍. 展开更多
关键词 内存OLAP 外键连接 向量索引 向量引用 星型连接加速
下载PDF
RM树:一种支持字符串相似性操作的索引 被引量:6
10
作者 王金宝 高宏 +1 位作者 李建中 杨东华 《计算机学报》 EI CSCD 北大核心 2011年第11期2142-2154,共13页
字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符... 字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树索引,消除了现有内存方法的缺点,并通过字符串聚类的方法提高了相似性操作的效率.该文通过大量实验结果证明了RM树的有效性. 展开更多
关键词 字符串 相似性 索引 查询处理 连接处理
下载PDF
数据仓库中的一种提高多表连接效率的有效方法 被引量:5
11
作者 文娟 薛永生 +1 位作者 翁伟 林子雨 《计算机研究与发展》 EI CSCD 北大核心 2005年第11期2010-2017,共8页
联机分析处理OLAP查询经常涉及多表连接,所以提高多表连接的性能就成了提高OLAP查询处理的关键性问题·针对目前直接提高多表连接效率的方法、并行多表连接算法和连接索引,提出了变形多表连接索引·该方法基于使用SQL语句表述... 联机分析处理OLAP查询经常涉及多表连接,所以提高多表连接的性能就成了提高OLAP查询处理的关键性问题·针对目前直接提高多表连接效率的方法、并行多表连接算法和连接索引,提出了变形多表连接索引·该方法基于使用SQL语句表述的查询模型库QMB建立一系列符合条件的变形多表连接事实表,并建立这些变形多表连接事实表的索引·在特定的多表连接查询中,变形多表连接事实表能替代原事实表与各维表连接,并在查询处理过程中动态更新·理论分析和实验结果表明,该方法可以有效地提高多表连接的查询效率· 展开更多
关键词 数据仓库 联机分析处理 多表连接 变形多表连接索引
下载PDF
一种基于网格索引的空间连接查询处理优化算法 被引量:5
12
作者 乔百友 邓增安 +3 位作者 王秋杰 朱红印 孔德福 王国仁 《小型微型计算机系统》 CSCD 北大核心 2014年第10期2243-2248,共6页
针对云环境下的空间数据连接查询处理问题,提出一种基于MapReduce框架的高效空间连接查询处理优化算法.该算法采用网格划分方法将数据空间划分成大小相同的网格单元,并将其中一类数据集中的每个空间对象,按照其中心点的位置划分到所在... 针对云环境下的空间数据连接查询处理问题,提出一种基于MapReduce框架的高效空间连接查询处理优化算法.该算法采用网格划分方法将数据空间划分成大小相同的网格单元,并将其中一类数据集中的每个空间对象,按照其中心点的位置划分到所在的网格单元中,从而避免了连接对象的复制,网格单元之间根据其所包含数据对象的交叠关系构建网格索引;对另一类数据集中的对象,仅将其复制到与网格单元中数据有交叠的网格单元,从而过滤掉不可能有连接结果的数据对象,大大减少了后续的连接计算代价.合成数据和真实数据集上的大量实验表明,本文提出的空间数据连接查询处理优化算法在性能上明显优于原有SJMR查询处理算法. 展开更多
关键词 连接查询 MAPREDUCE 空间数据 网格索引
下载PDF
关于评价指标集并合理论和方法的研究 被引量:4
13
作者 史本山 杨季美 吴敬业 《西南交通大学学报》 EI CSCD 北大核心 1991年第3期73-79,共7页
在评价中,评价目标相同,不同的评价者会提出不同的评价指标集。本文提出了一套解决评价指标集并合的理论及方法,主要包括任何两个评价指标集相关性的度量方法,不同评价指标集的并合规则,及并合后评价指标集权向量的确定方法等。
关键词 评价 决策 评价指标集 并合
下载PDF
模糊对象的空间Co-location模式挖掘研究 被引量:26
14
作者 欧阳志平 王丽珍 陈红梅 《计算机学报》 EI CSCD 北大核心 2011年第10期1947-1955,共9页
空间co-location模式表示的是空间对象的实例在一个相同的区域内频繁地空间并置.过去人们已经对确定及不确定数据的co-location模式挖掘问题进行了一些研究,但是针对模糊对象上进行的研究还没有.模糊对象在许多领域里都有着非常重要的应... 空间co-location模式表示的是空间对象的实例在一个相同的区域内频繁地空间并置.过去人们已经对确定及不确定数据的co-location模式挖掘问题进行了一些研究,但是针对模糊对象上进行的研究还没有.模糊对象在许多领域里都有着非常重要的应用,比如生物医学图像数据库和GIS.该文研究模糊对象的空间co-location模式挖掘问题.首先,定义模糊对象上空间co-location模式挖掘的相关概念,包括模糊参与率、模糊参与度等.其次,提出FB算法挖掘模糊对象的co-location模式.接着,提出了3种改进算法,包括剪枝对象、减少实例间连接、改进剪枝步,以提高挖掘性能、加快co-location规则的产生.最后通过大量的实验说明FB算法及其改进算法的效果和效率. 展开更多
关键词 模糊对象 CO-LOCATION模式 空间数据挖掘 模糊参与率 减少连接
下载PDF
R树的方向查询精过滤方法 被引量:7
15
作者 张泽宝 张健沛 李若愚 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2010年第11期1490-1495,共6页
针对空间连接方法中大部分的研究都是基于拓扑和距离的连接方法,而基于方向关系查询的研究则比较少,并且查询性能较低等问题.本文提出了一种新的方向关系查询精过滤方法,在传统的两步查询处理过程中,增加了一个精过滤步骤,改进后的方法... 针对空间连接方法中大部分的研究都是基于拓扑和距离的连接方法,而基于方向关系查询的研究则比较少,并且查询性能较低等问题.本文提出了一种新的方向关系查询精过滤方法,在传统的两步查询处理过程中,增加了一个精过滤步骤,改进后的方法可以达到过滤候选集的大小效果,从而进一步减少求精步骤计算的工作量.通过理论的分析和实验,验证了改进后方法需要进行精算的计算量仅为原有方法的40%左右,充分证明了该方法的有效性.实验结果表明,与传统的方向关系查询处理方法相比,本文方法在CPU的计算时间和I/O方面分别提高了40%和20%左右. 展开更多
关键词 方向关系 方向连接 空间数据库 空间数据挖掘 空间索引
下载PDF
海量数据上的近似连接聚集操作 被引量:3
16
作者 韩希先 杨东华 李建中 《计算机学报》 EI CSCD 北大核心 2010年第10期1919-1933,共15页
连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此... 连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法——(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本(JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1~5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作. 展开更多
关键词 pε-近似连接聚集 连接位置索引对表 连接随机样本 海量数据
下载PDF
面向大规模机群的可扩展OLAP查询技术 被引量:8
17
作者 王会举 覃雄派 +2 位作者 王珊 张延松 李芙蓉 《计算机学报》 EI CSCD 北大核心 2015年第1期45-58,共14页
大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,... 大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge 3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级. 展开更多
关键词 大规模可扩展 OLAP查询 无连接雪花模型 TRM执行模型 跳跃式扫描 Scan-index 大数据
下载PDF
并发内存OLAP查询优化技术研究 被引量:3
18
作者 张延松 焦敏 +1 位作者 张宇 王珊 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2836-2846,共11页
基于多核处理器硬件技术和高并发查询负载需求,近年来的研究不仅关注于一次一查询模式的查询优化技术,而且也关注于一次一组模式的查询优化技术.通过将并发查询转换为共享负载,一些低访问延迟的操作,如磁盘I?O、cache访问,可以被多个并... 基于多核处理器硬件技术和高并发查询负载需求,近年来的研究不仅关注于一次一查询模式的查询优化技术,而且也关注于一次一组模式的查询优化技术.通过将并发查询转换为共享负载,一些低访问延迟的操作,如磁盘I?O、cache访问,可以被多个并发的查询所共享.当前的研究通常基于共享查询操作符,如扫描、连接、谓词处理等,通过生成全局执行计划优化并发查询.对于复杂的分析型负载,如何创建优化的执行计划是一个具有挑战性的问题.在广泛使用的星形模型的基础上提出一种模板OLAP查询执行计划来简化查询执行计划,以达到最大化查询操作符利用率的目标.1)提出了基于代理键的连接索引技术,将传统的基于值探测的连接操作转化为内存数组索引引用(AIR),使连接操作的CPU效率更高并且支持聚集计算的后物化;2)并发查询的谓词处理简化为cache line敏感的谓词向量,在单次cache line访问中最大化并发查询谓词计算性能;3)通过多核并行实现技术在SSB基准上进行测试.实验结果表明:共享扫描和共享谓词处理能够将并发OLAP查询处理性能提升1倍. 展开更多
关键词 并发O L A P 查询处理 数组索引引用 模板O L A P查询处理 连接索引 过滤向量
下载PDF
Dtrie-allpair:高效的集合T-覆盖连接算法 被引量:2
19
作者 贾连印 奚建清 +3 位作者 李孟娟 游进国 刘勇 苗德成 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期109-117,共9页
传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie的动态索引结构——DTI结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair算法.通过该算法可以直接得到allpair连接的结果,不产生任... 传统的T-覆盖连接算法会因生成的候选集庞大而导致系统性能降低,为此,文中提出了一种基于trie的动态索引结构——DTI结构,并构建了基于该结构的相似度连接算法——Dtrie-allpair算法.通过该算法可以直接得到allpair连接的结果,不产生任何候选集,有效解决了高候选集产生的问题,克服了传统算法因生成并验证候选集而带来的开销.文中还研究了数据库中记录的顺序及记录中元素顺序对Dtrie-allpair算法性能的影响,并在msweb、msnbc两个数据集下对Dtrie-allpair算法与All-pair、PPJoin算法进行对比.结果表明:Dtrie-allpair算法具有明显的优势,覆盖阈值较小时优势更明显;对msweb数据集,阈值为2时,Dtrie-allpair算法的效率相对于All-pair、PPJoin算法提高近两个数量级;通过对数据集进行频率降序和长度升序组合预处理可大幅降低Dtrie-allpair算法访问的trie结点数量,从而显著提升性能. 展开更多
关键词 集合相似度 T-覆盖连接 覆盖阈值 基于trie的动态索引 All-pair算法 PP-join算法 频率降序 长度升序
下载PDF
DVBB:基于Dewey向量的B^+树索引结构连接算法 被引量:1
20
作者 张恩德 王国仁 +1 位作者 宁博 王斌 《计算机科学》 CSCD 北大核心 2005年第11期94-98,共5页
为解决XML数据库中的结构关系查询问题,本文以Dewey向量为基础,提出了基于Dewey向量的B^+树(Dewey Vector Based B^+ Tree,简称为 DVBB)双栈结构连接算法。该算法利用了两个栈,PublicStack和 Privat-eStack,在这两个栈的基础上,利用DVB... 为解决XML数据库中的结构关系查询问题,本文以Dewey向量为基础,提出了基于Dewey向量的B^+树(Dewey Vector Based B^+ Tree,简称为 DVBB)双栈结构连接算法。该算法利用了两个栈,PublicStack和 Privat-eStack,在这两个栈的基础上,利用DVBB索引,能够最大限度地避免那些不能产生连接结果的元素参加连接运算。一系列的实验结果表明,基于DVBB的双栈结构连接算法,无论是对于有效的跳过“祖先”还是“后代”节点,都具有很高的性能。 展开更多
关键词 XML 结构连接 Dewey向量编码 B^+树索引 连接算法 索引结构 向量 B+树 XML数据库 Vector
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部