-
题名使用MapReduce构建列存储数据的索引
被引量:6
- 1
-
-
作者
丁祥武
李清炳
乐嘉锦
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2014年第2期24-28,共5页
-
基金
国家自然科学基金项目(61070031
61070032)
+1 种基金
上海市自然科学基金项目(11ZR1401200)
核高基重大专项(2010ZX01042-001-003-004)
-
文摘
大数据的存储与分析是近年来数据库领域研究的热点,高效的索引技术是提高大数据查询分析性能的重要技术手段。在现有的数据存储模型及索引技术研究基础上,提出使用MapReduce构建列存储数据的索引。该索引技术结合MapReduce编程模型,先在Map阶段完成数据划分,然后在Reduce阶段完成数据的排序,最后在数据有序的Reduce节点上创建RB+树索引,从而减少索引创建时因为RB+树内部节点递归分裂而产生的昂贵代价和树的高度,提高数据查询的性能。通过在真实数据集上进行实验,验证了所提出方法的有效性。
-
关键词
列存储
rb+索引
-
Keywords
MapReduce
Column-store
MapReduce
rb+Index
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名有向图上的广义可达性查询处理方法
- 2
-
-
作者
富丽贞
孟小峰
-
机构
中国人民大学信息学院
-
出处
《计算机科学与探索》
CSCD
2012年第7期577-585,共9页
-
基金
国家自然科学基金Nos.61070055
91024032
+4 种基金
91124001
60833005
国家科技重大专项"核高基"项目No.2010ZX01042-002-003
中国人民大学科学研究基金Nos.11XNL010
10XNI018~~
-
文摘
随着社会网络、生物信息学、本体等应用的迅速发展,如何在图上进行高效的信息检索成为一个亟待解决的问题。两点间可达性查询是一种常见的查询方式,目前针对此类查询已经提出了许多算法。但是在一些应用中,这种查询语义并不能满足用户需求。基于此,提出了两种广义可达性查询语义。研究了如何在大图上进行高效的广义可达性查询的问题,依据Path-tree编码的特性提出了一种新的二级索引机制——RB+索引。基于RB+索引,针对不同类型查询提出了两种高效的查询处理方法。该方法充分利用Path-tree编码的特性,有效地处理广义可达性查询。通过实验对提出的索引和查询算法进行了验证。
-
关键词
广义可达性查询
Path—tree编码
rb+索引
-
Keywords
general reachability query
Path-tree encoding
rb+ indexing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-