基于近似等深柱状图的数据流并行聚集算法被引量：1

Parallel aggregation algorithm over data streams based on approximate equal depth histogram

下载PDF

导出

摘要针对数据流并行聚集问题,提出了一种不同于关系数据和时间序列数据处理的并行聚集方法。为解决已经划分出的数据流元组无法再现的特点,提出能够感知数据流变化的采样算法对数据流采样。利用近似等深柱状图技术描述采样数据的分布特征,平均分配数据流量。使用时间聚集森林结构计算时间窗聚集。通过验证采样个数对并行聚集的影响,数据分布对近似划分向量算法性能的影响,测试数据流量与并行聚集加速比的关系,证明本算法能够高效地计算数据流聚集查询。 In light of parallel aggregating algorithm for data stream, a new parallel aggregating strategy with relational data and temporal sequence data was put forward.To tackle the problem that partitioned tuples were unable to recur over data streams,a change-aware sampling algorithm was used to sample data streams first,and an approximate equal depth histogram algorithm was used to describe data distribution in query window to partition data streams averagely,and then a novel m-order Temporal Aggregate forest data structure was applied to computing aggregate in time window.It verified the effect of numbers of sampling on parallel aggregation,the effect of data distribution on the performance of approximate partition vector algorithm,and the relation between quantity of data streams and parallel aggregation speed ratio.Experiments prove that the proposed algorithm can provide accurate answer to parallel aggregation over data streams efficiently.

作者侯燕王永利

机构地区解放军南京理工大学计算机科学与技术学院

出处《解放军理工大学学报（自然科学版）》 EI 2008年第1期29-33,共5页 Journal of PLA University of Science and Technology(Natural Science Edition)

关键词数据流并行处理近似技术柱状图聚集 data streams parallel processing approximate technique histogram aggregation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1SHAH M,HELLERSTEIN J,cHANDRAsEKARAN S,et al.Flux:an adaptive partitioning operator for continuous query system[R].Berkely:Report No.UCB/CSD-2-1205,University of California Berkeley,2002.
2MOON B,FERNANDO I,LOPEZ V.Efficient algorithms for large-scale temporal aggregation[J].IEEE Transactions on Knowledge & Data Engineering,2003,15(3):44-759.
3ARASU A,MANKU G.Approximate counts and quantiles over sliding windows[C].Proe of the 23rd ACM SIGACT-SIGMOD-SIGART Symp on Principles of Database Systems,Paris:ACM Press,2004.
4DATAR M,GIONIS A,INDYK P.et al.Maintaining stream statistics over sliding windows[C].Proc of the 13th Annual ACM-SIAM Syrup.on Discrete Algorithms,San Francisco:ACM Press,2002.
5VITTER J S.Random sampling with a reservoir[J].ACM Transactions on Mathematical Software,1985,11(1):37-57.
6WANG Yongli,XU Hongbin,DONG Yisheng,et al.Data partitioning over data streams based on changeaware sampling[C].Beijing:IEEE Press,2005.
7GRAY J,ADAM B,ANDREW L,et al.Data cube:a relational aggregation operator generalizing group-by,cross-tab,and sub-total[C].New Orleans;IEEE Computer Society,1996.
8KNUTH D E.The Art of computer programming[M].Mass:Addison-Wesley,1973.
9SRIVASTAVA J,LUM V Y.A tree based access method(TBSAM)for fast processing of aggregate queries[C].Los Angeles:IEEE Computer Society,1998.

同被引文献11

1陈磊松,林锦贤.面向高速网络的数据流处理模型研究[J].漳州师范学院学报（自然科学版）,2006,19(2):31-36. 被引量：3
2秦首科,钱卫宁,周傲英.基于分形技术的数据流突变检测算法[J].软件学报,2006,17(9):1969-1979. 被引量：12
3杨玮.企业级数据中心数据流处理方案设计[J].中国科技信息,2007(15):111-111. 被引量：4
4李俊奎,王元珍.可重写循环滑动窗口:面向高效的在线数据流处理[J].计算机科学,2007,34(12):51-55. 被引量：6
5Yishan Jiao,Maintaining stream statistics over multiscale sliding windows[J].ACM Transactions on Database Systems(TODS),2006(4).
6Sudipto Guha,Nick Koudas,Kyuseok Shim,Approximation and streaming algorithms for histogram construction problems[J],ACM Transactions on Database Systems(TODS),2006(1).
7武珊珊,于戈,吕雁飞,谷峪,李晓静.数据流处理中确定性QoS的保证方法[J].软件学报,2008,19(8):2066-2079. 被引量：5
8左利云,马英杰.基于数据流处理模型的多查询优化算法[J].计算机工程与科学,2009,31(3):71-74. 被引量：5
9阴晓加,鞠时光,王英杰.基于复杂事件处理机制的RFID数据流处理方法[J].计算机应用,2009,29(10):2786-2790. 被引量：11
10徐花芬,毛国君,吴静.分布式数据流分类关键技术研究[J].华北科技学院学报,2015,12(4):119-124. 被引量：2

引证文献1

1朱奕健,张正卿.基于通信运营商数据的大数据实时流处理系统[J].中国新通信,2016,18(3):100-103. 被引量：5

二级引证文献5

1蒋国清.运营商大数据发展策略研究[J].无线互联科技,2016,13(10):7-8. 被引量：2
2李娟,张海峰,张天骁.大数据位置类应用的实现方式[J].电信科学,2018,34(S1):179-184.
3余谦.流式大数据实时处理技术、平台及应用研究[J].现代信息科技,2019,3(1):86-87. 被引量：1
4王军峰,张雪萍,冯鸿超.公交历史轨迹跳站问题研究[J].福建电脑,2019,35(4):56-58.
5李萍,朱春琴,魏房忠,孙毅.政务数据高效共享交换方式研究与实现[J].信息系统工程,2023(3):4-6. 被引量：1

1周杨,刘文科,李凤霞,孙鹤.基于扫描线迭代的深度图像边缘检测算法[J].智能计算机与应用,2012,2(2):30-31.
2张本文.数据挖掘取样方法与数据结构研究[J].数字技术与应用,2016,34(12):106-106.
3单世民,邓贵仕,何英昊.数据流中孤立点识别方法[J].计算机工程,2007,33(15):172-174. 被引量：4
4戴芦生.移动云计算的数据处理方法[J].安徽电子信息职业技术学院学报,2011,10(5):31-34.
5刘学军,胡平,徐宏炳,董逸生,钱江波,王永利.基于硬件加速的高速数据流连续实时聚集查询[J].电子学报,2007,35(2):228-233. 被引量：2
6宋擒豹,杜磊.数据流变化检测研究综述[J].计算机应用,2012,32(2):299-303.
7石中伟,文益民.基于概率相关性的多标签数据流变化检测[J].计算机科学,2015,42(8):60-64. 被引量：1
8杨婧,吴元锡,李翠平,陈红.时间控制关系分析:一种角转换的方法(英文)[J].计算机科学与探索,2009,3(6):621-632.
9张建朋,陈福才,李邵梅,刘力雄.基于密度与近邻传播的数据流聚类算法[J].自动化学报,2014,40(2):277-288. 被引量：27
10朱俚治,朱梧檟.一种实现混合属性数据流聚类的算法[J].计算技术与自动化,2016,35(2):34-37. 被引量：1

解放军理工大学学报（自然科学版）

2008年第1期

浏览历史

内容加载中请稍等...

基于近似等深柱状图的数据流并行聚集算法被引量：1

参考文献9

同被引文献11

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于近似等深柱状图的数据流并行聚集算法 被引量：1

参考文献9

同被引文献11

引证文献1

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于近似等深柱状图的数据流并行聚集算法被引量：1