基于Spark的空间范围查询索引研究被引量：5

RESEARCH ON RANGE QUERIES IN SPATIAL INDEX BASED ON THE SPARK

下载PDF

导出

摘要由于传统的数据处理系统的数据存储与数据处理能力有限,不能满足处理大量数据的需求。为了发挥数据的价值,高效、高性能地处理大量数据集,提出基于Spark系统结合SIMBA的思路共同建立的大数据分析处理系统,基于Spark SQL的查询方式进行检索;在Spark中嵌入索引管理机制,将其封装在RDD内,用于提高查询效率;通过建立线段树存储数据的方式提高数据检索的效率。对于数据预处理时采用Range Partitioner分区策略的方式对数据进行分区,基于全局过滤和局部索引进行查询。保证该系统在进行查询操作时能够保持高吞吐量和低延迟特性,提高查询效率。 As the traditional data processing system,the ability to save and process data is limited,can't meet the needs of dealing with large amounts of data. In order to maximize the value of data sets with high efficiency and high performance,a large data analysis and processing system based on Spark system and SIMBA is proposed,which is based on Spark SQL query method. The index management mechanism is embedded in Spark system,encapsulated in the RDD,which improve the efficiency of query. Through the establishment of line tree to store data,we improve the efficiency of data retrieval. For pre-processing data,Range Partitioner partitioning strategy is used to partition data and query based on global filtering and local index.

作者陈业斌刘娜徐宏刘敏

机构地区安徽工业大学计算机科学与技术学院

出处《计算机应用与软件》北大核心 2018年第2期96-101,共6页 Computer Applications and Software

基金安徽省高校自然科学研究重点项目(KJ2015A130)

关键词 Spark系统大数据范围查询 SparkSQL组件 Spark system Big data Range queries Components of Spark SQL

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1高官涛,郑小盈,宋应文,周星宇,吴佳明,霍雷,张嘉璐.基于Spark MapReduce框架的分布式渲染系统研究[J].软件导刊,2013,12(12):26-29. 被引量：7
2张宇,程久军.基于MapReduce的矩阵分解推荐算法研究[J].计算机科学,2013,40(1):19-21. 被引量：8
3赵宇兰,柳欣.基于连接依赖信息的分布式连接查询优化算法[J].现代电子技术,2016,39(5):28-32. 被引量：3
4金澈清,钱卫宁,周敏奇,周傲英.数据管理系统评测基准:从传统数据库到新兴大数据[J].计算机学报,2015,38(1):18-34. 被引量：68

二级参考文献24

1魏士伟,黄文明,康业娜,周娅.分布式数据库中基于半连接的查询优化算法研究[J].计算机应用,2007,27(B06):34-36. 被引量：23
2Koren Y, Bell R, Volinsky C. Matrix Factorization Techniques for Recommender Systems[J]. Computer, 2009,42 (8) : 30-37.
3Bell R M,Koren Y. Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights[C]//Proc of the 7th IEEE International Conference on Data Mining. Omaha NE, USA: IEEE, 2007: 43-52.
4Takacs G, Pilaszy I, Nemeth B, et al. Matrix Factorization and Neighbor Based Algorithms the Netflix Prize Problem [C]// Proceedings of the 2008 ACM conference on Recommender sys- tems. Lausanne, Switzerland: ACM, 2008 : 267 274.
5Zhou Y, Wilkinson D, Schreiber R, et al. Large-Scale ParallelCollaborative Filtering for the Netflix Prize[C]//Proc of the 4th international conference on Algorithmic Aspects in Information and Management. 2008.
6Dean J,Ghemawat S. MapReduee: Simplified Data Processing on Large Clusters[J]. Communication of the ACM 50: anniversary issue, 2008,51 (1) : 107d 13.
7Hadoop. Open-source software for reliable, scalable, distributed computing[-EB/OL], http://hadoop, apache, org/, 2011.
8Mahout. Scalable machine learning and data mining[EB/OL]. http://mahout, apache, org, 2011.
9Takacs G, Pliaszy I, Nemeth B, et al. Investigation of Various Matrix Factorization Methods for Large Recommender Systems [C]// Proc of the IEEE International Conference on Data Mi- ning Workshops. IEEE, 2008: 553-562.
10Pilaszy I, Zibriczky D, Tikk D. Fast AL:based Matrix Factori- zation for Explicit and Implicit Feedback Datasets[C]//'Procee: dings of the fourth ACM conference on Recommender systems. New York: ACM, 2010 : 71-78.

共引文献82

1靖永亮.“大数据”在审计信息化建设中的应用分析[J].现代国企研究,2019,0(2):71-71. 被引量：1
2戚丽丽,孙静宇,陈俊杰.基于均模型的IBCF算法研究[J].山东大学学报（理学版）,2013,48(11):105-110. 被引量：2
3顾瑞春,王静宇.一种基于MapReduce的并行聚类模型[J].计算机与现代化,2014(1):90-92. 被引量：1
4叶英平,陈海涛,陈皓.大数据时代知识管理过程、技术工具、模型与对策[J].图书情报工作,2019,63(5):5-13. 被引量：21
5钱卫宁,夏帆,周敏奇,金澈清,周傲英.大数据管理系统评测基准的挑战与研究进展[J].大数据,2015,1(1):82-96. 被引量：2
6沈慧.数据管理系统评测基准:从传统数据库到新兴大数据[J].通讯世界,2016,22(1):184-185. 被引量：2
7詹剑锋,高婉铃,王磊,李经伟,魏凯,罗纯杰,韩锐,田昕晖,姜春宇.BigDataBench:开源的大数据系统评测基准[J].计算机学报,2016,39(1):196-211. 被引量：34
8王建宇.浅谈大数据与云计算的协同发展[J].信息系统工程,2016,29(3):159-159. 被引量：2
9李芝,龙敏.基于全级C阶矩模型并行流数预测的广域大数据吞吐量优化[J].计算机工程,2016,42(4):295-300. 被引量：2
10张凯.基于最优决策树的空管信息网络安全评估方法[J].企业科技与发展,2016(2):23-26.

同被引文献36

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：78
2Zhenghui Luo,Rui Sun,Cheng Zhong,Tao Liu,Guangye Zhang,Yang Zou,Xuechen Jiao,Jie Min,Chuluo Yang.Altering alkyl-chains branching positions for boosting the performance of small-molecule acceptors for highly efficient nonfullerene organic solar cells[J].Science China Chemistry,2020,63(3):361-369. 被引量：7
3朱良,孙未未,荆一楠,杜江帆.基于Voronoi图的路网k聚集最近邻居节点查询方法[J].计算机研究与发展,2011,48(S3):155-162. 被引量：5
4王茜,王均波.一种改进的协同过滤推荐算法[J].计算机科学,2010,37(6):226-228. 被引量：42
5王毅,楼恒越.一种改进的Slope One协同过滤算法[J].计算机科学,2011,38(B10):192-194. 被引量：20
6孙金刚,艾丽蓉.基于项目属性和云填充的协同过滤推荐算法[J].计算机应用,2012,32(3):658-660. 被引量：25
7胡伟东.试析线段树及其基本操作[J].电脑编程技巧与维护,2014(8):13-13. 被引量：3
8范李平,张晓辉,苏伟.基于大数据挖掘的变电设备故障预警研究及应用[J].电力大数据,2019,22(1):1-7. 被引量：34
9禹文豪,艾廷华,周启.设施POI的局部空间同位模式挖掘及范围界定[J].地理与地理信息科学,2015,31(4):6-11. 被引量：17
10车晋强,谢红薇.基于Spark的分层协同过滤推荐算法[J].电子技术应用,2015,41(9):135-138. 被引量：12

引证文献5

1黄婕,刘长生,刘程莉.基于Spark平台并行化Slope One算法的设计与实现[J].湖南工业大学学报,2019,33(4):47-53.
2陈可心,陈业斌.基于4-叉树结构的路网数据最近邻查询算法[J].安徽工业大学学报（自然科学版）,2020,37(3):276-279.
3王逸芳,张子牛,齐庆磊.基于线段树的售票系统的设计与实现[J].现代计算机,2021,27(17):150-153.
4李偲希,白全生,舒畅,肖祥武.基于spark平台的供电煤耗并行回归预测[J].电力大数据,2021,24(11):85-92. 被引量：1
5杨泽雪,张毅,李陆,刘伟东,蒋超.基于Spark的并行反向k最近邻查询[J].计算机工程与设计,2022,43(12):3340-3347. 被引量：2

二级引证文献3

1翟小乐,任云鹏,蒋丽铭.基于Spark框架的图书馆文献信息检索方法[J].信息与电脑,2023,35(8):60-62.
2姜志锋,潘生华,顾宝,傅骏伟,宋歌,郭庆,叶欣楠,王豆,郭鼎,张震伟.基于集成学习的热电联供机组标煤耗量实时估计算法研究与应用[J].工业控制计算机,2023,36(9):148-150.
3王玲,高佳佳.基于改进聚类和spark的数据信息分析建模及可视化平台研究[J].自动化与仪器仪表,2023(9):289-292.

1李继武.继电保护故障分析处理系统在电力系统的应用[J].信息记录材料,2017,18(11):40-41. 被引量：1
2《实用药物与临床》再次被收录为“中国科技论文统计源期刊”[J].实用药物与临床,2017,20(12):1462-1462.
3《中华妇幼临床医学杂志(电子版)》权威收录机构查询方式[J].中华妇幼临床医学杂志（电子版）,2017,13(6):720-720.
4张素智,赵亚楠,杨芮.支持空间数据移动查询的索引研究[J].湖北民族学院学报（自然科学版）,2017,35(4):423-428.
5李杨.“一种流量计现场检定及数据处理系统”获得发明专利证书[J].中国计量,2017,0(12):82-83.
6申小龙,赵东辉,宋燕.基于ArcGIS的开采沉陷数据处理系统[J].陕西煤炭,2017,36(5):40-42.
7梅阳阳.基于Hadoop的海量医药电商数据存储系统设计与开发[J].电子制作,2017,25(19):47-50. 被引量：2
8曹策,王鹏,白焰,唐艳梅,付亚利.考虑共因失效的系统安全性评估[J].数学的实践与认识,2017,47(23):97-107. 被引量：4
9刘利琴,韩袁昭,肖昌水,袁瑞.新型浮式基础的海上风机系统动力响应研究[J].海洋工程,2018,36(1):19-26. 被引量：15
10中华老年病研究电子杂志[J].中华老年病研究电子杂志,2017,0(3):49-49.

计算机应用与软件

2018年第2期

浏览历史

内容加载中请稍等...

基于Spark的空间范围查询索引研究被引量：5

参考文献4

二级参考文献24

共引文献82

同被引文献36

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Spark的空间范围查询索引研究 被引量：5

参考文献4

二级参考文献24

共引文献82

同被引文献36

引证文献5

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Spark的空间范围查询索引研究被引量：5