CSSAQP:一种基于聚类的分层抽样近似查询处理算法被引量：1

CSSAQP:An Approximate Query Algorithm Based On Clustering Stratified Samping

下载PDF

导出

摘要近似查询处理技术常被应用于海量数据的多维分析,以缩短查询执行的时间,同时返回尽可能准确的结果。由于海量数据中常存在许多极端值,会严重影响近似查询处理的结果。因此针对海量数据的聚集操作,论文提出CSSAQP算法,先将原始数据集按某一数值列直观的聚为三类,分别代表大值簇、小值簇和常值簇,再对各簇按分组属性分别进行分层抽样,构建总体样本集,最后通过查询重写在总体样本集上执行查询,以缩短海量数据聚集操作的查询时间,同时提高查询任务的准确性。通过实验验证,证明了该算法不仅可以缩短聚集查询的时间,同时还能有效提高查询结果的精度。 The approximate query processing technique is often applied to multidimensional analysis of massive data to short?en the execution time of the query and return the results as accurate as possible.Because of many extreme values in massive data,itwill seriously affect the results of approximate query processing.Therefore,for the aggregation of massive data,this paper proposesa algorithm CSSAQP,which first clustered the original data set into three categories by a column,representing large clusters,smallclusters and constant clusters,then use stratified sampling for each cluster by the group attribute,and constructed the overall sam?ple,finally,the query is rewritten on the overall sample set to reduce the query time of the massive data aggregation operation,andimprove the accuracy of the query task.Experiments show that the algorithm can not only shorten the time of aggregation query,butalso improve the accuracy of query results.

作者谢金星李晖陈梅戴振宇 XIE Jinxing;LI Hui;CHEN Mei;DAI Zhenyu(Guizhou Engineering Lab for ACMIS,Guizhou University,Guiyang 550025)

机构地区贵州大学先进计算与医疗信息服务工程实验室

出处《计算机与数字工程》 2017年第6期1121-1126,共6页 Computer & Digital Engineering

基金国家自然科学基金项目(编号:61462012,61562010,U1531246) 基于云计算的医疗信息管理系统关键技术研究及应用(编号:GY[2014]3018) 贵州省重大应用基础研究项目(编号:JZ20142001) 贵州省教育厅自然科学项目(编号:黔科合人才团队字[2015]53号) 贵州大学研究生创新基金(院级)资助

关键词近似查询处理聚集查询聚类分层抽样 AQP,aggregate query,clustering,stratified sampling

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献1

1盛家,房俊,郭晓乾,王承栋.时序数据多维聚合查询服务的实现[J].重庆大学学报（自然科学版）,2020,43(7):121-128. 被引量：4

引证文献1

1房俊,赵博,左昌麒.基于两阶段分层抽样的近似聚合查询方法[J].数据采集与处理,2022,37(5):1049-1058. 被引量：1

二级引证文献1

1李洲君,李月.云环境下多舱室船体设计信息快速查询方法[J].舰船科学技术,2024,46(21):178-181.

1徐春凤,邵桢,李伟春.数据流管理系统查询执行的设计与实现[J].长春理工大学学报（自然科学版）,2007,30(4):125-127.
2曾子维,魏静.反最近关键字聚集查询方法研究[J].计算机应用与软件,2014,31(12):68-69.
3严浩.搭DDRⅡ之翼冲四核之巅! AMD最新AM2平台前沿解析[J].电脑自做,2006(4):127-131.
4贝太周,帕孜来.马合木提.基于常值传感器故障的线性系统故障诊断研究[J].工业控制计算机,2010,23(9):65-66.
5张体首,蔡明.语义搜索引擎概念模型[J].微电子学与计算机,2007,24(3):171-173. 被引量：10
6蔡明,张体首.基于本体的搜索引擎研究[J].微计算机信息,2006(12X):242-244. 被引量：14
7叶飞跃,蒙德龙,员红娟.一种用于存储与查询半结构化数据的新方法[J].计算机工程,2006,32(19):91-93. 被引量：3
8李伏,朱青.混合MapReduce环境下大数据划分的查询优化[J].计算机科学与探索,2012,6(10):877-887. 被引量：1
9赵艾奇.多串口与以太网接口转换装置研制[J].价值工程,2012,31(28):213-214. 被引量：1
10马友忠,慈祥,孟小峰.海量高维向量的并行Top-k连接查询[J].计算机学报,2015,38(1):86-98. 被引量：10

计算机与数字工程

2017年第6期

浏览历史

内容加载中请稍等...

CSSAQP:一种基于聚类的分层抽样近似查询处理算法被引量：1

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

CSSAQP:一种基于聚类的分层抽样近似查询处理算法 被引量：1

同被引文献1

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

CSSAQP:一种基于聚类的分层抽样近似查询处理算法被引量：1