题名 基于数据流的近似查询计算及其应用研究
被引量:3
1
作者
陈昕
宋瀚涛
机构
北京理工大学计算机系
出处
《计算机应用研究》
CSCD
北大核心
2003年第11期113-114,122,共3页
文摘
通过分析基于实化聚集视图的查询重写方法,将相关的查询计算理论与数据流的查询相结合,针对数据流的特征,给出了一种具有广泛应用前景的基于数据流的近似查询计算方案。
关键词
聚集查询重写
数据流
近似查询计算
Keywords
aggregate query Rewriting
Data Streams
approximate query computation
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 基于数据流模式的聚集快速查询计算研究
被引量:1
2
作者
陈昕
陈维兴
苏锦祥
机构
北京信息工程学院计算机信息系统系
郑州大学计算机科学工程系
出处
《计算机集成制造系统》
EI
CSCD
北大核心
2004年第6期689-692,共4页
基金
国家自然科学基金资助项目(69873040)。~~
文摘
为了减少在计算和存档数据流的过程中对昂贵的存档数据的存取,分析了聚集数据查询的特点,并引入了聚集查询语言和聚集查询重写方法。针对数据流近似查询计算的需求,概述了数据流计算的基本特征,提出了一种基于数据流的近似计算模型。在此基础上,根据实际应用环境给出了一种近似查询提纲的小波方法。该计算架构和方法在人口信息系统中的实际应用表明,可以实现对数据流的快速聚集查询处理,并获得有效的查询结果。
关键词
聚集查询计算
数据流计算
近似查询方法
Keywords
aggregate query computation
data stream computation
approximate query method
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 概率数据库的聚集查询
被引量:1
3
作者
江彤
金宗安
谢东
机构
湖南人文科技学院计算机科学技术系
中南大学信息科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第11期42-44,共3页
基金
湖南省教育厅科研基金资助项目(08B040)
湖南人文科技学院校级基金资助项目(2008QN001)
文摘
在概率关系中,聚集查询的目标是每一个可能世界,而可能世界的数目随着概率关系元组数目的增长呈指数增长,当元组数目较多时,聚集查询在线性时间内无法计算。针对该问题,分别为每一个聚集函数定义3个聚集分量,通过对原概率关系进行编码,分别采用转换、存储过程和近似计算的方法,在线性时间内实现聚集查询,理论证明和实验结果表明该方法的正确性和有效性。
关键词
聚集查询
聚集函数
近似计算
Keywords
aggreg ation query
aggreg ation function
approxim ation computation
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于两阶段分层抽样的近似聚合查询方法
被引量:1
4
作者
房俊
赵博
左昌麒
机构
北方工业大学信息学院
大规模流数据集成与分析技术北京市重点实验室(北方工业大学)
出处
《数据采集与处理》
CSCD
北大核心
2022年第5期1049-1058,共10页
基金
国家自然科学基金国际(地区)合作与交流项目(62061136006)。
文摘
以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。
关键词
聚合查询
分层抽样
SOM聚类
预计算
近似查询
Keywords
aggregate query
stratified sampling
self-organizing feature mapping clustering
pre-comput ing
approximate query
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于实化聚集视图的查询计算及其应用研究
5
作者
陈昕
宋瀚涛
高明
机构
北京理工大学计算机系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第5期28-29,81,共3页
文摘
对基于实化聚集视图的查询计算及相关研究进行了分析,并将相关的数据仓库的查询计算理论与面向应用的近似查询处理方法相结合,提出了一种基于实化聚集视图的近似查询计算方案,该方案具有广泛的应用前景。
关键词
实化聚集视图
查询计算
数据库
数据仓库
近似查询计算
Keywords
aggregate query;view information;approximate query computation
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 一类近似查询提纲的小波方法的应用研究
6
作者
陈昕
宋瀚涛
陈维兴
机构
北京信息工程学院计算机信息系统系
北京理工大学计算机系
出处
《计算机应用与软件》
CSCD
北大核心
2004年第4期25-26,83,共3页
文摘
在数据仓库以及联机分析处理等许多领域中 ,聚集数据的处理是一个非常重要的核心问题。本文分析了聚集数据查询的特点 ,引入了基于聚集数据的近似查询计算模型 ,并针对该计算模型的提纲构建问题 ,给出了一类近似查询提纲的Haar小波方法 ,来实现对聚集数据和聚集视图的快速查询计算。
关键词
聚集查询
近似查询计算
查询提纲
HAAR小波
数据仓库
联机分析处理
Keywords
aggregate query approximate query computation query synopses Haar wavelet
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于聚集查询重写的近似计算及其应用
7
作者
陈昕
陈维兴
苏锦祥
机构
北京信息工程学院计算机信息系统系
郑州大学计算机科学系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第8期29-30,34,共3页
基金
国家自然科学基金资助项目(69873040)
文摘
研究了聚集查询重写的特征,根据数据仓库环境下聚集查询需要快速计算结果的特点,给出了一个基于聚集查询重写的快速近似计算模型。并在人口统计信息系统中应用该计算模型实现快速查询计算,该近似快速计算模型可以应用于具有统计特征的数据环境,获得快速的查询计算结果。
关键词
聚集实化视图
聚集查询重写
近似计算模型
统计应用
Keywords
aggregate materialized view
aggregate query rewriting
approximate comput ing model
Statistic application
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 面向空间在线分析的并行近似聚集查询
被引量:1
8
作者
申金鑫
吴烨
陈荦
景宁
机构
国防科技大学电子科学学院
出处
《计算机科学与探索》
CSCD
北大核心
2018年第10期1559-1570,共12页
基金
国家自然科学基金No.41471321
国家高技术研究发展计划(863计划)No.2015AA123901~~
文摘
在应对激增的空间数据时,空间聚集查询是一类有效的分析方法。当前,传统单机串行方法已经难以胜任在线分析需求,然而并行可扩展的计算架构中专门针对空间数据的聚集索引技术尚未有很多研究。因此,提出两种新的索引方法以支持空间在线并行聚集分析。第一种索引方法中,并行的两级空间索引结构提升了精确聚集查询效率。在此基础上构建随机采样样本并优化得到第二种索引方法,在任意给定置信度下能够反馈带有置信区间聚集查询结果,且精度随着获取样本的增加不断提高。10亿级规模数据实验结果表明该方法有效可行,还有一定的可扩展性。
关键词
聚集计算
近似查询
空间索引
在线分析
Keywords
aggreg ation computation
approximate query
spatial index
online analysis
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 基于云计算技术的海量信息分布式存储研究
被引量:9
9
作者
李韬睿
徐超
胡龙舟
朱彤
白海
机构
国网湖北省电力有限公司超高压公司
出处
《微型电脑应用》
2022年第10期90-93,共4页
文摘
面对海量信息的有效存储,为了保证存储信息的抽取和查询的效率,研究基于云计算技术的海量信息分布式的存储方法。采用GFS作为分布式文件系统和HDFS管理节点/存储节点架构作为分布式存储技术的依据,形成极大存储容量的计算机群,对信息实行并行处理;生成事实表,分析和处理不同维度和粒度的情况下的信息后,对其实行数据聚集;采用基于云计算技术改进ETL处理算法实行海量信息抽取,存储在数据库中,用户即可根据需求实行数据库信息查询。实验结果表明,该方法的存储性能较好,物理节点的增加会提高信息的插入效率,并且抽取后的信息信噪比较高,信息查询速度较快。
关键词
云计算技术
海量信息
分布式存储
数据聚集
信息查询
Keywords
cloud comput ing technology
massive information
distributed storage
data aggreg ation
information query
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 Flexisample:个性化近似聚合查询系统
10
作者
赵博
左昌麒
房俊
机构
北方工业大学信息学院
大规模流数据集成与分析技术北京市重点实验室
出处
《计算机与数字工程》
2021年第12期2431-2436,共6页
基金
国家自然科学基金国际(地区)合作与交流项目(编号:62061136006)
国家重点研发计划(编号:2018YFB1402500)资助。
文摘
大数据交互式查询分析对于查询时延具有较高需求,基于采样技术的近似计算服务通过牺牲一定的准确性可以获得较少的查询时延,其在大数据近似查询分析方面具有良好的普适性和广阔的应用前景。论文所述系统Flexisample是一个基于采样技术的个性化近似聚合查询系统,实现了针对查询请求的解析重写和逻辑样本组合策略,使其可以满足个性化的多维聚合查询需求。为了在满足多样个性化聚合查询请求的同时保证一定的准确率,Flexisample维护了一组优化设计后的分层样本,并且为了扩大样本在时间维度上的覆盖范围,系统利用在线数据流对分层样本进行维护与更新。将系统应用于电能质量数据聚合查询,结果表明:针对多个个性化聚合查询请求和查询时延约束,系统可以在满足业务人员个性化查询需求的同时有效降低查询时延,在时间消耗仅为全量查询不足7%的条件下,全部分层的查询准确率均达到了88%以上,样本存储空间相比直接存储减少了87.5%。
关键词
近似计算
聚合查询
分层采样
样本维护
Keywords
approximate comput ing
aggregate query
stratified sampling
sample maintenance
分类号
C931.6
[经济管理—管理学]