期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
健壮且自适应的学习型近似查询处理方法研究
1
作者 乔艺萌 荆一楠 张寒冰 《计算机工程》 CSCD 北大核心 2024年第1期30-38,共9页
由于在大规模数据集上执行精确查询耗时较长,因此近似查询处理(AQP)技术常被用于在线分析处理,目的是以较短的交互延迟返回查询结果,并尽可能地降低查询误差。现有的学习型AQP方法与底层数据解耦,将I/O密集型计算转化为CPU密集型计算,... 由于在大规模数据集上执行精确查询耗时较长,因此近似查询处理(AQP)技术常被用于在线分析处理,目的是以较短的交互延迟返回查询结果,并尽可能地降低查询误差。现有的学习型AQP方法与底层数据解耦,将I/O密集型计算转化为CPU密集型计算,但是由于计算资源的限制,该类方法通常基于随机的数据样本进行模型训练,此类训练数据会引起稀有群组缺失问题,导致模型预测准确性不高。针对上述问题,提出一种基于分层样本学习的混合型和积网络模型,并基于该模型设计一种AQP框架。分层样本能够有效避免稀有群组缺失现象,基于该样本训练的模型预测准确性大幅提升。此外,针对数据动态更新的情况,提出一种模型自适应更新策略,使得模型能够及时检测数据偏移现象并自适应地执行更新。实验结果表明,与基于抽样和基于机器学习的AQP方法相比,该模型在真实数据集和合成数据集上的平均相对误差分别约降低18.3%和2.2%,在数据动态更新的场景下,其准确性和查询时延均呈现出良好的稳定性。 展开更多
关键词 近似查询处理 和积网络 分层抽样 数据偏移 自适应更新
下载PDF
基于深度自回归模型的近似查询处理方法
2
作者 岑黎彬 李靖东 +1 位作者 林淳波 王晓玲 《计算机应用》 CSCD 北大核心 2023年第7期2034-2039,共6页
聚合函数的近似查询处理(AQP)是近年来数据库领域的研究热点。针对现有的近似查询技术存在查询响应时间长、存储开销大、不支持多谓词查询等问题,提出一种基于深度自回归模型的AQP方法DeepAQP(Deep Approximate Query Processing),利用... 聚合函数的近似查询处理(AQP)是近年来数据库领域的研究热点。针对现有的近似查询技术存在查询响应时间长、存储开销大、不支持多谓词查询等问题,提出一种基于深度自回归模型的AQP方法DeepAQP(Deep Approximate Query Processing),利用深度自回归模型对表中多列数据的联合概率分布进行学习和建模,以估计给定查询的谓词选择度和目标列概率分布,以促进单表下多谓词聚合函数近似查询请求的有效处理。在TPC-H和TPC-DS数据集上进行实验,结果表明,与基于采样的VerdictDB方法相比,DeepAQP在查询响应时间和存储空间开销上均降低了2到3个数量级;与基于传统机器学习模型的DBEst++方法相比,DeepAQP的查询响应时间降低了1个数量级,显著降低了模型训练耗时,并且可以处理DBEst++所不支持的多谓词查询请求。可见,DeepAQP兼顾了查询精度和速度,并显著降低了算法在训练和存储上的开销。 展开更多
关键词 近似查询处理 自回归模型 多谓词查询 深度学习 聚合函数
下载PDF
基于分布式内存计算的空间数据近似查询处理方法 被引量:2
3
作者 仇阿根 《测绘学报》 EI CSCD 北大核心 2017年第12期2044-2044,共1页
地理数据交互式可视化与空间分析等是地理信息系统(Geographic Information System,GIS)应用的重要功能,而现有的地理空间数据库与地理数据服务标准难以满足实时数据可视化及空间分析的要求。根源在于空间数据库中地理要素的查询结果... 地理数据交互式可视化与空间分析等是地理信息系统(Geographic Information System,GIS)应用的重要功能,而现有的地理空间数据库与地理数据服务标准难以满足实时数据可视化及空间分析的要求。根源在于空间数据库中地理要素的查询结果是精确、唯一的;查询时间和数据量只与要素本身相关;查询时地理要素无法根据条件动态生成。 展开更多
关键词 地理空间数据库 近似查询处理 分布式 数据可视化 计算 内存 地理信息系统 空间分析
下载PDF
基于条件生成模型的高效近似查询处理框架 被引量:2
4
作者 白文超 韩希先 王金宝 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第5期995-1005,共11页
提出新型的近似查询处理方法,以克服近似查询处理任务中数据偏斜所导致的查询准确率低的问题.该方法以条件生成对抗神经网络为基础,融入条件变分自编码器,保证算法执行的稳定性,提高模型准确率;使用Wasserstein距离衡量模型误差,防止模... 提出新型的近似查询处理方法,以克服近似查询处理任务中数据偏斜所导致的查询准确率低的问题.该方法以条件生成对抗神经网络为基础,融入条件变分自编码器,保证算法执行的稳定性,提高模型准确率;使用Wasserstein距离衡量模型误差,防止模型坍塌.基于该条件生成模型实现近似查询处理,回答用户查询而无须访问底层数据,避免磁盘交互,并与聚集预计算相结合,构成高效的近似查询处理框架,能更加准确、快速地回答交互式查询.设计高效的表决算法,对模型生成的样本以及样本内部数据进行过滤,提高生成的样本质量,最小化查询误差.实验结果表明,与其他近似查询处理算法相比,该方法可以有效克服数据偏斜的影响,同时能够在更短的交互时间内更加准确地回答用户查询. 展开更多
关键词 条件生成对抗网络 条件变分自编码器 近似查询处理 聚集预计算 数据偏斜
下载PDF
CSSAQP:一种基于聚类的分层抽样近似查询处理算法 被引量:1
5
作者 谢金星 李晖 +1 位作者 陈梅 戴振宇 《计算机与数字工程》 2017年第6期1121-1126,共6页
近似查询处理技术常被应用于海量数据的多维分析,以缩短查询执行的时间,同时返回尽可能准确的结果。由于海量数据中常存在许多极端值,会严重影响近似查询处理的结果。因此针对海量数据的聚集操作,论文提出CSSAQP算法,先将原始数据集按... 近似查询处理技术常被应用于海量数据的多维分析,以缩短查询执行的时间,同时返回尽可能准确的结果。由于海量数据中常存在许多极端值,会严重影响近似查询处理的结果。因此针对海量数据的聚集操作,论文提出CSSAQP算法,先将原始数据集按某一数值列直观的聚为三类,分别代表大值簇、小值簇和常值簇,再对各簇按分组属性分别进行分层抽样,构建总体样本集,最后通过查询重写在总体样本集上执行查询,以缩短海量数据聚集操作的查询时间,同时提高查询任务的准确性。通过实验验证,证明了该算法不仅可以缩短聚集查询的时间,同时还能有效提高查询结果的精度。 展开更多
关键词 近似查询处理 聚集查询 聚类 分层抽样
下载PDF
基于变分自编码器的近似聚合查询优化方法
6
作者 黄龙森 房俊 +1 位作者 周云亮 郭志城 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第5期931-940,共10页
针对偏态数据分布不平衡,传统近似聚合查询方法难以抽样生成偏态分布数据的问题,提出基于优化的变分自编码器的近似聚合查询方法,研究近似聚合查询方法对偏态分布数据的近似聚合查询准确率的影响.在预处理阶段对偏态分布数据进行分层分... 针对偏态数据分布不平衡,传统近似聚合查询方法难以抽样生成偏态分布数据的问题,提出基于优化的变分自编码器的近似聚合查询方法,研究近似聚合查询方法对偏态分布数据的近似聚合查询准确率的影响.在预处理阶段对偏态分布数据进行分层分组,对变分自编码器生成模型的网络结构和损失函数进行优化,降低近似聚合查询相对误差.实验结果表明,与基准方法相比,近似聚合查询对偏态分布数据的查询相对误差更小,且随着偏态系数的提高,查询相对误差的上升趋势更平缓. 展开更多
关键词 近似查询处理 偏态分布 机器学习 变分自编码器 分组抽样
下载PDF
基于随机抽样的近似聚集查询处理综述
7
作者 胡欢 李建中 《智能计算机与应用》 2022年第6期166-169,共4页
一个聚集查询就是返回一个或多个聚集值的SQL查询。聚集查询处理是联机分析处理(OLAP)的一个基本组成部分,广泛应用于支持决策系统中,以帮助企业进行商业决策。当数据基数很大时,随机抽样方法是最常用的加速聚集查询处理的手段。基于随... 一个聚集查询就是返回一个或多个聚集值的SQL查询。聚集查询处理是联机分析处理(OLAP)的一个基本组成部分,广泛应用于支持决策系统中,以帮助企业进行商业决策。当数据基数很大时,随机抽样方法是最常用的加速聚集查询处理的手段。基于随机抽样的近似聚集查询大致可分为基于在线随机抽样的近似聚集查询和基于离线随机抽样的近似聚集查询两类,并分别适用于不同的应用场景。本文介绍了这2类近似聚集查询处理的研究背景和相关工作以及现有主要的误差估计方法。最后,总结了当前研究遇到的挑战。 展开更多
关键词 近似查询处理 聚集查询 随机抽样
下载PDF
基于符号语义的不完整数据聚集查询处理算法 被引量:7
8
作者 张安珍 李建中 高宏 《软件学报》 EI CSCD 北大核心 2020年第2期406-420,共15页
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义... 研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 展开更多
关键词 不完整数据 近似查询处理 数据修复 结果估计 数据可用性
下载PDF
基于近似查询的在线分组聚集及其应用 被引量:1
9
作者 冯玉才 张鹏程 《计算机工程》 EI CAS CSCD 北大核心 2005年第16期97-99,共3页
通过分析在线聚集与在线动态重排序技术,结合近似查询处理和国会抽样方法,提出了在线分组聚集方案,该方案具有广泛的应用前景。
关键词 近似查询处理 联机查询处理 国会抽样 置信区间
下载PDF
分布式平台下基于模型的近似查询算法
10
作者 周娅 张帅 《计算机工程与设计》 北大核心 2020年第12期3532-3537,共6页
为从大规模数据中快速获取聚集查询结果,用于交互分析与决策支持,针对范围查询,在分布式平台下提出模型驱动的近似查询处理算法。对算法的整体流程与基本原理进行描述;针对设计方案和模型给出算法的实现过程,针对数据进行样本采集,通过... 为从大规模数据中快速获取聚集查询结果,用于交互分析与决策支持,针对范围查询,在分布式平台下提出模型驱动的近似查询处理算法。对算法的整体流程与基本原理进行描述;针对设计方案和模型给出算法的实现过程,针对数据进行样本采集,通过在Spark平台下对查询列以及范围列实现回归模型和密度估计模型,给出Spark平台下优化该算法的方法。通过比较不同回归模型的准确率、不同样本大小以及不同方法的响应时间,说明了算法的高效性。 展开更多
关键词 范围查询 近似查询处理 密度估计 回归模型 分布式平台
下载PDF
基于用户查询与样本间匹配度评估的分层抽样策略
11
作者 邬志罡 荆一楠 +1 位作者 何震瀛 王晓阳 《计算机应用与软件》 北大核心 2019年第8期196-202,共7页
在数据探索性分析场景下,用户倾向于借助抽样系统获取近似查询结果来换取更快的查询速度。现有的抽样系统通常假设用户的历史查询记录能很好地表征未来的查询情况,从而针对特定的查询特征生成特定的抽样策略。然而,在现实场景中,用户探... 在数据探索性分析场景下,用户倾向于借助抽样系统获取近似查询结果来换取更快的查询速度。现有的抽样系统通常假设用户的历史查询记录能很好地表征未来的查询情况,从而针对特定的查询特征生成特定的抽样策略。然而,在现实场景中,用户探索意图变化丰富,用户查询特征的稳定性假设通常无法得到保证。为解决上述问题,提出一种评估任意用户查询与样本间匹配度的方法。离线训练生成多份样本集,并在应对具体查询时自动选取最匹配样本集进行近似结果计算。离线样本集的生成是以在所有可能的用户查询上的预期匹配度损失总和最小作为训练目标。实验结果表明,在真实数据集上,该抽样系统与现有方法相比,将近似结果的精确度提高了26.3%。 展开更多
关键词 抽样系统 近似查询处理 分层抽样 优化问题
下载PDF
大数据近似分析方法综述
12
作者 张美范 王宏志 《智能计算机与应用》 2021年第3期61-65,69,共6页
大数据分析旨在从大量复杂的数据中获取价值。查询驱动的数据分析是大数据分析中最主要的部分。由于数据量的庞大,在大数据上获取准确的分析结果将带来极大的存储和计算代价。为解决这一困难,大数据近似分析方法应运而生。本文将主要针... 大数据分析旨在从大量复杂的数据中获取价值。查询驱动的数据分析是大数据分析中最主要的部分。由于数据量的庞大,在大数据上获取准确的分析结果将带来极大的存储和计算代价。为解决这一困难,大数据近似分析方法应运而生。本文将主要针对大数据近似分析中的频率估计问题、近似查询处理问题、查询选择性估计问题近十年的解决方法进行总结和归纳。不同于以往以数据库为主视角的分析方法的总结,本文中将涵盖近几年应用或结合机器学习方法来处理上述问题的新方法。 展开更多
关键词 大数据分析 频率估计 近似查询处理 查询选择性估计
下载PDF
一种适用于数据流梗概计算的小波变换算法 被引量:1
13
作者 欧征宇 宋宝燕 +3 位作者 于亚新 杨兴华 苏东 于戈 《小型微型计算机系统》 CSCD 北大核心 2006年第11期2109-2114,共6页
针对数据流上近似查询中的梗概计算,提出了一种新的基于最小误差的维压缩小波变换算法(MEDC).MEDC算法通过映射流数据时间戳,快速无冗余地维护流数据的有序性;基于最小误差,高效压缩小波变换阵列,最大化MEDC算法时间效率及近似查询实时... 针对数据流上近似查询中的梗概计算,提出了一种新的基于最小误差的维压缩小波变换算法(MEDC).MEDC算法通过映射流数据时间戳,快速无冗余地维护流数据的有序性;基于最小误差,高效压缩小波变换阵列,最大化MEDC算法时间效率及近似查询实时处理能力;引入小波系数与查询准确度之间的数值性关联规则,支持小波系数梗概上的查询多级共享,整体查询执行性能最佳.实验表明,与传统小波变换、直方图和采样等算法相比,MEDC算法在数据流近似查询处理的响应速度、查询结果质量等方面具有更为优越的性能. 展开更多
关键词 数据流 近似查询处理 梗概计算 时间戳 小波变换 多级共享
下载PDF
大数据实时交互式分析 被引量:15
14
作者 袁喆 文继荣 +3 位作者 魏哲巍 刘家俊 姚斌 郑凯 《软件学报》 EI CSCD 北大核心 2020年第1期162-182,共21页
实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实... 实时交互式分析针对多目标和多角度的分析任务,通过多轮次的用户-数据库交互过程,逐步明确分析任务与分析目标,全方位地了解相关领域信息,最终得到科学的、全面的分析结果.相比传统数据库“提交查询-返回结果”的单轮次交互查询方式,实时交互式分析更强调交互的实时性与查询结果的时效性.对实时交互式分析的研究已成为近几年研究的热点.针对当前实时交互式分析面临的若干关键问题,对现有的实时交互式分析研究的理论基础、数据模型与系统构架进行了综述. 展开更多
关键词 实时交互式分析 跨模态数据 近似查询处理
下载PDF
无须附加空间的数据立方体联机聚集 被引量:2
15
作者 李红松 黄厚宽 《软件学报》 EI CSCD 北大核心 2006年第4期806-813,共8页
以往在数据立方体上实现的联机聚集往往需要附加空间来存储联机聚集估算所需要的信息,极大地影响了数据立方体的存储和维护性能.提出了基于QC-Tree的用于范围查询处理的联机聚集PE(progressivelyestimate)算法以及它与简单聚集算法相结... 以往在数据立方体上实现的联机聚集往往需要附加空间来存储联机聚集估算所需要的信息,极大地影响了数据立方体的存储和维护性能.提出了基于QC-Tree的用于范围查询处理的联机聚集PE(progressivelyestimate)算法以及它与简单聚集算法相结合的混合聚集算法HPE(hybridprogressivelyestimate);还提出了一种能够同时处理多个范围查询的联机聚集算法MPE(multipleprogressivelyestimate).与以往联机聚集算法不同,这些算法不需要任何附加空间,而是利用QC-Tree自身保存的聚集数据和语义关系来估算聚集结果.由于QC-Tree是一种极为高效的数据立方体存储结构,因此能够以较理想的性能实现数据立方体上的联机聚集.对算法的分析和实验结果表明,所提出的算法具有较好的性能. 展开更多
关键词 数据立方体 联机分析处理 近似查询处理 联机聚集
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部