期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于Spark的3D点云数据空间索引技术 被引量:2
1
作者 赵尔平 孟小峰 《计算机科学》 CSCD 北大核心 2018年第9期213-219,共7页
针对Spark引擎不支持多维空间查询的问题,提出基于R树的二级空间索引,即在每个Worker节点上创建R子树,并将这些子树作为孩子,在Master节点上创建R树。针对LRU算法内存替换粒度粗、结果不够精确的问题,提出基于数据使用权重的内存替换方... 针对Spark引擎不支持多维空间查询的问题,提出基于R树的二级空间索引,即在每个Worker节点上创建R子树,并将这些子树作为孩子,在Master节点上创建R树。针对LRU算法内存替换粒度粗、结果不够精确的问题,提出基于数据使用权重的内存替换方法。该方法将每次实际使用数据量与其总量的比值作为替换权重,将热点场景数据以RDD形式持久化至内存中,提高了基于内存查询的效率。根据远粗近细的视觉原理提出细节层次查询,该方法将最能代表物体特征的点云数据先传输给客户端,或者仅把简化模型点数据传给客户端,以解决网络带宽不足和数据加载延迟的问题。实验证明,文中方法能有效解决Spark多维空间的查询问题,查询效率得到了明显提高。 展开更多
关键词 spark 多维空间索引 3D点云数据 数据使用权重 细节层次 虚拟旅游
下载PDF
A hierarchical indexing strategy for optimizing Apache Spark with HDFS to efficiently query big geospatial raster data 被引量:5
2
作者 Fei Hu Chaowei Yang +5 位作者 Yongyao Jiang Yun Li Weiwei Song Daniel Q.Duffy John L.Schnase Tsengdar Lee 《International Journal of Digital Earth》 SCIE 2020年第3期410-428,共19页
Earth observations and model simulations are generating big multidimensional array-based raster data.However,it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial ras... Earth observations and model simulations are generating big multidimensional array-based raster data.However,it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial raster data model,distributed physical data storage model,and the data pipeline in distributed computing frameworks.To efficiently process big geospatial data,this paper proposes a three-layer hierarchical indexing strategy to optimize Apache Spark with Hadoop Distributed File System(HDFS)from the following aspects:(1)improve I/O efficiency by adopting the chunking data structure;(2)keep the workload balance and high data locality by building the global index(k-d tree);(3)enable Spark and HDFS to natively support geospatial raster data formats(e.g.,HDF4,NetCDF4,GeoTiff)by building the local index(hash table);(4)index the in-memory data to further improve geospatial data queries;(5)develop a data repartition strategy to tune the query parallelism while keeping high data locality.The above strategies are implemented by developing the customized RDDs,and evaluated by comparing the performance with that of Spark SQL and SciSpark.The proposed indexing strategy can be applied to other distributed frameworks or cloud-based computing systems to natively support big geospatial data query with high efficiency. 展开更多
关键词 Big data hierarchical indexing multi-dimensional Apache spark HDFS distributed computing GIS
原文传递
一种支持高效并行处理的矢量数据索引方法 被引量:4
3
作者 褚龙现 李晓英 +1 位作者 陈旭 楚纯洁 《计算机工程与应用》 CSCD 北大核心 2017年第11期79-84,共6页
分析了HBase的存储模型和Spark的并行处理机制,提出一种矢量空间数据的分布式存储、索引和并行区域查询方法。设计了基于空间对象中心点的行键存储方案,将中心点的Hilbert编码与经纬度小数位结合实现行键的唯一性,保证地理位置接近的要... 分析了HBase的存储模型和Spark的并行处理机制,提出一种矢量空间数据的分布式存储、索引和并行区域查询方法。设计了基于空间对象中心点的行键存储方案,将中心点的Hilbert编码与经纬度小数位结合实现行键的唯一性,保证地理位置接近的要素在表中存储在相邻的行。实现了基于Spark的空间索引并行构建和区域查询方法,借助空间对象中心点的Hilbert编码快速构建索引,通过多边形区域的最小外接矩形过滤查询结果。实验结果表明,索引并行构建可靠性好速度快,区域查询并行处理算法可行且效率高。 展开更多
关键词 spark HILBERT 矢量数据 空间索引 分布式存储
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部