基于列存储的大数据采样查询处理被引量：4

Column-oriented Store Based Sampling Query Process on Big Data

下载PDF

导出

摘要大数据时代的到来给传统的数据查询带来了性能挑战,即使查询算法有着O(n)的线性复杂度,但当n极大时其时间开销也难以满足用户需求。在很多实际应用中,人们并不需要精确的查询结果,但要求在给定时间内完成查询,因此可适当牺牲查询精度以满足性能约束。采样查询通过约简查询范围来提高查询性能,现有的采样方法多针对特定的算法和特定的应用场景,缺乏大数据环境下一般性的采样查询方法以及保证性能和精度的研究。文中研究大数据环境下列存储的采样查询处理,从数据划分和数据采样两方面改进大数据的查询效率。提出了基于加速比和势分布的采样方法,其支持各类采样算法,实现了分布式环境下采样查询的随机性保证、性能保证和近似性评价,并兼容了精确查询。该方法可以快速应用到已有大量数据的列存储中,具备良好的扩展性和可维护性。以Top-K为查询用例的实验结果证明,在不同数据量、不同数据分布和不同采样算法下,实际采样率与给定采样率的误差低于2%,查询准确度(Accuracy)稳定,方差在0.10和0.12之间,因此提出的基于段势的数据划分的采样效率高于平均划分和线性划分。 The era of big data bring performance challenges to traditional data query,even if the query algorithm is O(n)linear complexity,but when the n is extremely large,its time cost is also unbearable.In many practical applications,exact query results may be unnecessary but the queries should be accomplished at a given time,so appropriately losing the query accuracy is acceptable to meet performance constraints.Sampling queries can improve query perfor-mance by reducing query ranges.Existing researches are often studied for specific algorithms and specific application scenarios,and there is a lack of research on general sampling and query methods in the big data environment,as well as research on performance and accuracy guarantee.This paper studied the sampling and query processing in the big data environment,which improves the query efficiency of big data from data partition and data reduction.This paper proposed a sampling method based on speedup and potential distribution,which supports all kinds of sampling algorithms,and achieves randomicity guarantee,performance assurance and approximation evaluation of sampling queries in distri-buted environment,and is compatible with precise queries.This method can be applied to the column store for the big data with good expansibility and maintainability.The experimental results show that as the Top-K query case,the proposed method has better loading performance,while the sampling errors are less than 2%,and the variances of query accuracy are between 0.1 and 0.12 under various sampling rates,data volumes and sampling algorithms.The sampling efficiency of proposed partition is also higher than that of linear partition based or uniform partition based sampling.

作者齐文鲍玉斌宋杰 QI Wen;BAO Yu-bin;SONG Jie(School of Information and Engineering,Eastern Liaoning University,Dandong,Liaoning 118000,China;School of Computer Science and Engineering,Northeastern University,Shenyang 110819,China;Software College,Northeastern University,Shenyang 110819,China)

机构地区辽东学院信息工程学院东北大学计算机科学与工程学院东北大学软件学院

出处《计算机科学》 CSCD 北大核心 2019年第12期13-19,共7页 Computer Science

基金国家自然科学基金(61672143,61433008)资助

关键词大数据列存储采样查询数据划分加速比 Big data Column-oriented store Sampling query Data partitioning Accumulation ratio

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803. 被引量：192

二级参考文献1

1孟必平,王腾蛟,李红燕,杨冬青.分片位图索引:一种适用于云数据管理的辅助索引机制[J].计算机学报,2012,35(11):2306-2316. 被引量：30

共引文献191

1叶思斯,林志达,郭献彬,曹小明.基于MongoDB的配置管理平台应用研究[J].系统仿真技术,2021,17(4):253-258. 被引量：5
2郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.
3陈智,梁娟.基于知识点的试题库随机组卷抽卷系统的设计[J].考试周刊,2013(82):1-2.
4罗军锋,徐菲.大数据时代的高校信息化框架[J].中国教育信息化（高教职教）,2014(2):11-13. 被引量：24
5田熙清,陈泳,胡颖茂.IT支撑系统技术架构的去电信化思考[J].移动通信,2014,38(5):68-74. 被引量：5
6张艳霞,丰继林,郝伟,单维锋,沈焱萍.基于NoSQL的文件型大数据存储技术研究[J].制造业自动化,2014,36(6):27-30. 被引量：19
7万川梅.基于大数据下的NOSQL和Mysql融合的数据存储模型研究[J].数字技术与应用,2014,32(2):96-96. 被引量：2
8周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1
9马建,孙守增,杨琦,赵文义,王磊,马勇,刘辉,张伟伟,陈红燕,陈磊,康军.中国桥梁工程学术研究综述·2014[J].中国公路学报,2014,27(5):1-96. 被引量：491
10胡小春,李陶深,王乐,陈燕,陈宁江.基于NoSQL的大数据应用设计与性能保障方案研究[J].广西大学学报（自然科学版）,2014,39(3):633-640. 被引量：3

同被引文献28

1杨彦荣,宋荣杰.关于网络用户兴趣数据信息快速查询仿真研究[J].计算机仿真,2018,35(12):434-437. 被引量：1
2蔡艳婧,王强,程实.基于分布式集群的网络浏览行为大数据分析平台构建[J].中国电子科学研究院学报,2019,14(1):1-7. 被引量：18
3佟强,程经纬,张富,张丽丽,马宗民.基于查询转换的RDF高效查询方法[J].吉林大学学报（工学版）,2015,45(5):1550-1558. 被引量：7
4赵生昊,刘恒毅,刘青松,余蜀豫.基于ArcGIS Engine的闪电定位资料查询系统设计[J].电子设计工程,2016,24(1):16-18. 被引量：9
5赵大鹏,宋光旋,靳远远,王晓玲.基于查询概率的位置隐私保护方法[J].计算机应用,2017,37(2):347-351. 被引量：10
6程红霞,杨臻,谭新莲.网格计算中基于二阶段的Min-Min调度算法[J].计算机工程与设计,2017,38(12):3334-3338. 被引量：3
7吴海峰,詹文法,程一飞.快速查找最佳有理渐近分数的测试数据压缩方法[J].系统仿真学报,2018,30(6):2384-2389. 被引量：5
8林得富,王骏,蒋亦樟,王士同.面向高维数据的Takagi-Sugeno模糊系统建模新方法[J].电子与信息学报,2018,40(6):1404-1411. 被引量：1
9刘解放,蒋亦樟,王骏,邓赵红,王士同.单趟贝叶斯模糊聚类算法[J].软件学报,2018,29(9):2664-2680. 被引量：6
10李凌,张蕾,杨洋,李京.一种基于MB+树的网络共享数据查询和检验方法[J].计算机应用研究,2018,35(3):782-787. 被引量：5

引证文献4

1唐运乐,韦杏琼.基于动态分布式聚类算法的大数据查询处理方法[J].西南师范大学学报（自然科学版）,2021,46(5):134-139. 被引量：13
2刘解放,张志辉.面向大数据的并行聚类算法[J].计算机工程与设计,2021,42(8):2265-2270. 被引量：3
3王涛涛,姚磊岳.面向智能交通系统的大数据分布式存储算法[J].计算机仿真,2022,39(1):138-142. 被引量：2
4张晶,康鹏,戴艳,杨新敏,李磊.基于蚁群优化的数字化审计系统数据快速查询方法[J].微型电脑应用,2022,38(6):94-97. 被引量：1

二级引证文献19

1赵伟华.基于Spark视域下的分布式大数据算法分析——以计算机维修实验室管理系统为例[J].软件,2021,42(9):131-134. 被引量：1
2薛亚龙,刘梓泞.基于开源数据的情报侦查方法研究[J].湖北警官学院学报,2022,35(2):86-98. 被引量：1
3孙越.北斗高精度智能交通系统的设计和实现[J].信息记录材料,2022,23(8):219-222.
4刘张榕,余根坚.融合Ethereum和IPFS加密算法的分布式数据存储传输研究[J].佳木斯大学学报（自然科学版）,2022,40(6):47-50. 被引量：2
5周经辉.基于网络安全评估的信息安全保护算法研究[J].长江信息通信,2022,35(12):152-154. 被引量：5
6张国栋.基于MapReduce的IT运维终端用户数据查询方法[J].网络安全技术与应用,2023(5):63-65.
7许伟,胡婷.基于样本数据重复性的分布式数据库自动化查询方法[J].自动化技术与应用,2023,42(6):87-90.
8唐涛,张磊,段勇,杨立超,张泽.混淆查询区域下的电网多维数据聚合查询方法研究[J].自动化仪表,2023,44(8):73-78.
9张鹏飞,江岸,熊念.Hadoop平台下基于优化X-means算法的大数据聚类研究[J].计算机测量与控制,2023,31(12):284-289.
10沈芙辉,苏欣.基于对比阈值的大数据流特征量最优挖掘算法[J].计算机仿真,2023,40(11):319-323.

1戴宏明,戴宏亮.基于HTML5大型营销型网站设计研究[J].软件,2019,40(11):57-61. 被引量：2
2戴庆冬.船舶电气的接地故障及分析处理方法[J].电子乐园,2019,0(18):0278-0278.
3洪佳明,黄云,刘少鹏,印鉴.具有结果多样性的近似子图查询算法[J].南京大学学报（自然科学版）,2019,55(6):960-972.
4戈建虎,王智芹.公共图书馆参考咨询服务升级探析[J].盐城师范学院学报（人文社会科学版）,2019,39(5):82-84. 被引量：3
5朱磊,姚燕妮,高勇,王一川,姬文江,黑新宏,刘征.一种面向无向加权图的子图查询方法[J].西安理工大学学报,2019,35(3):291-299. 被引量：1
6陈源,倪尉,杨锐.跨坐式单轨道岔电气故障诊断系统方案设计[J].城市轨道交通研究,2019,22(10):111-113. 被引量：3
7郭红,周健倩,张瑛瑛,郭昆.基于协处理器的HBase二级索引方法[J].计算机工程与应用,2019,55(21):87-92. 被引量：4
82019-10投诉单[J].中国消费者,2019,0(11):48-49.
9山东东营“升级”住房保障大数据审核系统[J].建筑技术开发,2019,46(18):101-101.
10陈军晓,李中升,刘逸敏,李秋虹,汪卫.基于MapReduce的时间序列索引与批量查询技术[J].计算机工程,2019,45(11):47-53. 被引量：4

计算机科学

2019年第12期

浏览历史

内容加载中请稍等...

基于列存储的大数据采样查询处理被引量：4

参考文献1

二级参考文献1

共引文献191

同被引文献28

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于列存储的大数据采样查询处理 被引量：4

参考文献1

二级参考文献1

共引文献191

同被引文献28

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于列存储的大数据采样查询处理被引量：4