基于Spark的时态查询扩展与时态索引优化研究被引量：3

Research on Temporal Query Expansion and Temporal Index Optimization Based on Spark

下载PDF

导出

摘要时空数据库和基于集群计算的时间分析工具大多基于外存,将其应用在大数据处理场景下系统性能将迅速降低。为此,基于Spark构建一个易用且高可扩展的时态大数据查询分析系统。通过扩展Spark SQL解析器,使其能够支持类SQL形式的时态操作,运用SIMBA开源项目的方法,引入全局过滤和局部时态索引2种优化策略,使得系统能以高吞吐量及低延迟执行时态查询操作。基于时态查询效率的评估实验结果表明,在不同影响参数下,该系统的时态查询性能优于原生的Spark SQL查询处理方案。 There exists some temporal databases and temporal analysis tools based on cluster-based computing systems.However,most of them are disk-oriented and performance degenerate rapidly when processing big data. This paper proposes a system which is based on Spark,and provides accessible and scalable temporal query scheme with large temporal data for users. Specifically,it extends Spark SQL parser to support SQL-like temporal operations. Besides,it uses the index manager based on Spark SQL which is proposed by SIMBA,and embeds optimization strategies in two aspects：global filtering and local temporal index. Depending on these optimization rules,the system achieves high throughput and lowlatency in temporal operations. Evaluation experiment results on temporal query efficiency and effectiveness showthis system has improved temporal query performance over original Spark SQL in different factors.

作者周亮李格非邰伟鹏郑啸

机构地区上海交通大学计算机科学与工程系安徽工业大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2017年第7期22-28,37,共8页 Computer Engineering

基金安徽省高校自然科学研究重点项目"基于关键字的大规模地理数据查询方法研究"(KJ2015A310)

关键词时态大数据 Spark系统 SPARK SQL组件时态查询时态索引高吞吐量低延迟 temporal big data Spark system Spark SQL component temporal query temporal index high throughput low latency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1左亚尧,封朝永,陈磊.基于Hadoop的时态信息存储与时态关系演算问题研究[J].计算机应用研究,2014,31(5):1390-1395. 被引量：1

二级参考文献15

1ALLEN J F.Maintaining knowledge about temporal intervals[J].Communications of the Association for Computing Machinery,1983,26( 11):832-843.
2COMBI C,POZZI G,ROSSATO R.Querying temprol clinical databases on granular trends[J].Journal of Biomedcal Informatics,2012,45(2) :273-291.
3COWLEY W,PLEXOUSAKIS D.A interval algebra for indeterminate time[C]//Proc of the 17th National Conference on Artificial Intelligence.Austin:AAAL,2000:470-475.
4GAO Deng-feng,GENDRANO J A G,MOON B,et al.Main memory-based algorithms for efficient parallel aggregation for temporal databases[J].Distributed and Parallel Databased,2004,16(2):123-163.
5JENSEN C S,SNODGRASS R T,SOO M D.Extending existing dependency theory to temporal databases[J].IEEE Trans on Knowledge and Data Engineering,1996,8(4) :563-582.
6BRUSONI V ,CONSOLE L,TERENZIANI P,et al.Qualitative and quantitative temporal constraints and relational databases:theory,architecture,and applications[J].IEEE Trans on Knowledge and Data Engineering,1999,11(6):948-968.
7汤庸,刘海,郭欢,等.TempDB:时态数据管理系统[J].计算机研究与发展,2010,47(z1):442-445.
8WBITE T.Hadoop:the definitive guide[M].3rd ed.[S.l.]:OReilly Media,Inc,2009:1-16.
9BORTHAKUR D,GRAY J,SARMA J S,et al.Apache Hadoop goes realtime at Facebook[C]//Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2011:1071-1080.
10YANG Jin,TANG De-yu,ZHOU Yi.A distributed storage model for EHR based on HBase[C]//Proc of Information Management,Innovation Management and Industrial Engineering.Shenzhen:IEEE Press,2011:369-372.

同被引文献15

1周风华,汤庸,康向锋.一种有效的双时态索引技术[J].计算机工程与应用,2005,41(13):166-171. 被引量：3
2张玲波,甘元科,石刚,王生原,董渊,张智慧,王沿海.同步数据流语言时态消去的可信翻译[J].计算机工程与设计,2014,35(1):137-143. 被引量：4
3范开元,米西峰.网络数据包安全指标关联规则挖掘应用与研究[J].科学技术与工程,2014,22(7):216-218. 被引量：7
4王育红,张合兵,郭增长.多时态不同差异的土地利用现状数据一致化处理方法[J].中国土地科学,2014,28(12):79-85. 被引量：3
5陈瑛,叶小平.时态拟序数据索引TQD-tree[J].计算机应用研究,2015,32(3):666-668. 被引量：2
6郜允兵,潘瑜春,高秉博,张晓东,郜俊霞,张翼鹏.面向土地利用调查的时空数据库构建技术[J].测绘科学,2015,40(5):49-54. 被引量：7
7李晓东,魏惠茹.支持多模推荐的多层数据库优化访问技术[J].科技通报,2015,31(12):110-112. 被引量：2
8陈达伦,陈荣国,谢炯.基于MPP架构的并行空间数据库原型系统的设计与实现[J].地球信息科学学报,2016,18(2):151-159. 被引量：21
9张继荣,王向阳.基于XML数据挖掘的Apriori算法的研究与改进[J].计算机测量与控制,2016,24(6):178-180. 被引量：13
10周翔宇,程春玲,杨雁莹.基于分布式内存数据库的移动对象全时态索引[J].计算机科学,2016,43(7):203-207. 被引量：2

引证文献3

1张伟,王志杰.分布式环境下时态大数据的连接操作研究[J].计算机工程,2019,45(3):20-25. 被引量：7
2李婧.分布式多空间数据库复杂时态数据提取技术[J].科学技术与工程,2019,19(12):200-205. 被引量：12
3吴恩慈.决策树模型预测Spark SQL作业执行时间的方法[J].计算机应用与软件,2021,38(4):24-31.

二级引证文献19

1杜津玲.VFP中MEMO字段的转换方法及实现[J].电脑编程技巧与维护,2000(5):20-21.
2王华.基于马尔可夫模型的运动员体能训练效果评估方法[J].赤峰学院学报（自然科学版）,2020,36(3):96-99. 被引量：4
3刘凯铭,王洪亮,石兵波,钱育蓉.基于Hadoop的油气水井生产大数据分析与应用[J].科学技术与工程,2020,20(11):4464-4471. 被引量：8
4孙灏.分布式网络虚假数据注入攻击检测方法研究[J].新乡学院学报,2020,37(6):32-36. 被引量：1
5赵露.嵌入式软件测试数据传输稳定性检测方法[J].廊坊师范学院学报（自然科学版）,2020,20(2):20-24. 被引量：2
6杨洋.基于B/S技术的医院电子健康档案安全管理系统设计[J].信息技术,2020,44(8):121-125. 被引量：13
7袁煜,韦忠庆.基于人工智能的分布式多媒体数据库资源整合系统设计[J].现代电子技术,2021,44(5):166-170. 被引量：10
8杨艳,卢琼,杨琳.基于肢体和心脏功能储备的体适能评估模型研究[J].自动化与仪器仪表,2021(3):44-46.
9苏莉娜.基于分布式数据库的大数据平台动态页面数据生成技术[J].微型电脑应用,2021,37(6):194-197. 被引量：2
10石学丹,周燕,石绘琨.基于XDS技术的大型公立医院双向转诊患者信息共享系统设计[J].微型电脑应用,2021,37(9):97-99. 被引量：3

1孟红涛,余松平,刘芳,肖侬.Spark内存管理及缓存策略研究[J].计算机科学,2017,44(6):31-35. 被引量：13
2王杭州,徐文浩,丁泉会.基于贝叶斯网络的报警系统管理方法[J].计算机与应用化学,2017,34(5):345-350. 被引量：1
3闫梦洁,罗军,刘建英,侯传旺.IABS:一个基于Spark的Apriori改进算法[J].计算机应用研究,2017,34(8):2274-2277. 被引量：12
4徐涵.大数据分析在供电企业中的应用初探[J].山东工业技术,2017(15):146-146.
5张永德,张为玺,梁艺,许勇.前列腺高精度穿刺机理及策略研究[J].仪器仪表学报,2017,38(6):1405-1412. 被引量：7
6褚少微,陆东伟,潘瑞芳.自拍相机运动手势交互界面的设计与实现[J].计算机工程与应用,2017,53(10):181-186. 被引量：1
7Log Analytics Sense[J].网络安全和信息化,2017,0(7):165-165.
8张福铮,黄文琦,陈华军,郭晓斌,陈承志.基于HBase的配用电海量时序数据存取研究[J].现代电子技术,2017,40(13):159-163. 被引量：6
9郭浩龙,张荣,郭立君,江宝钏.数字照片图像来源检测中的传感器模式噪声预处理方法[J].光子学报,2017,46(6):129-138. 被引量：5
10王秀超,缪炜恺,王以松,包丹珠,杨静.一种面向列车车载控制软件的需求分析方法[J].计算机工程,2017,34(7):48-53. 被引量：4

计算机工程

2017年第7期

浏览历史

内容加载中请稍等...

基于Spark的时态查询扩展与时态索引优化研究被引量：3

参考文献1

二级参考文献15

同被引文献15

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于Spark的时态查询扩展与时态索引优化研究 被引量：3

参考文献1

二级参考文献15

同被引文献15

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于Spark的时态查询扩展与时态索引优化研究被引量：3