基于特征聚类的近似查询分块选择方法

下载PDF

导出

摘要大数据集群环境中,随机访问的低效性使得基于行级别抽样的近似查询处理方法在构建样本时效率低下。该文将利用集群环境中数据分块存储的特性,以分块级别来进行抽样。在基准测试数据集和真实数据集上的实验,显示此方法在降低数据读取率,提高查询响应速度的同时,保持较高的查询精度。实验中,仅需要读取少于20%的数据就可以获得低于5%的查询误差,且为数据集每个分块的预计算的特征数据所需要的存储空间小于数据集所占空间的0.04%。 In big data cluster environment,the inefficiency of random access makes the approximate query processing method based on row-level sampling inefficient in constructing samples.This paper will make use of the characteristics of data block storage in the cluster environment to sample at the block level.Experiments on benchmark data sets and real data sets show that this method not only reduces the data reading rate and improves the query response speed,but also maintains high query accuracy.In the experiment,only less than 20%of the data need to be read to obtain a query error of less than 5%,and the storage space required for the precalculated feature data for each block of the dataset is less than 0.04%of the space occupied by the dataset.

作者周云亮张淳瑞

机构地区北方工业大学信息学院

出处《科技创新与应用》 2024年第24期19-22,26,共5页 Technology Innovation and Application

基金国家自然科学基金国际(地区)合作与交流项目(62061136006) 国家自然科学基金重点项目(61832004)。

关键词近似查询处理聚类分块抽样数据跳过特征计算 approximate query processing clustering block sampling data skip feature calculation

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

1黄龙森,房俊,周云亮,郭志城.基于变分自编码器的近似聚合查询优化方法[J].浙江大学学报（工学版）,2024,58(5):931-940.
2向威义,刘文林.身份信息数据安全存储和自动化共享方法[J].电子设计工程,2024,32(3):115-119.
3岑杭家.基于空间-文本数据流的单词频数近似查询索引分析[J].电子技术（上海）,2024,53(3):106-107.
4李晓璐,王岢,赵冰,廖文宇.面向风电机组运维数据的知识图谱构建方法[J].动力工程学报,2024,44(6):886-894.
5庞怡真.医院数据库系统的性能分析及优化经验[J].移动信息,2024,46(1):210-212.
6王炜,任梦珂.浪潮云斩获全球大数据领域双项第一[J].山东国资,2024(6):34-34.
7王佺珅,张爱梅.基于数据库标签感知分片的制造过程测量数据分布式存储[J].机电工程,2024,41(1):149-157.
8尹声声.基于深度学习的医院海量档案特征快速查询算法研究[J].自动化技术与应用,2024,43(5):114-117.
9无.5G引路甲骨文加速工程创新与升级[J].软件和集成电路,2024(7):52-53.
10刘道家.SDWAN网络设备升级对门店网络提速的影响研究[J].信息产业报道,2024(6):0197-0199.

科技创新与应用

2024年第24期

浏览历史

内容加载中请稍等...

基于特征聚类的近似查询分块选择方法

相关作者

相关机构

相关主题

浏览历史