一种乱序数据流上的偏倚抽样算法

Biased Sampling Algorithm on the Out-of-order Data Streams

下载PDF

导出

摘要抽样是生成和维护数据流概要结构的常用方法.乱序数据流中,延时到达的数据通常被丢弃,从而会降低聚集运算的精度.提出一种新的利用双时间戳进行偏倚抽样的方法,通过所设计的衰减函数确定数据流元组的权重,根据该权重进行抽样,不仅可以保证将最新产生的数据抽中,保留在滑动窗口内,还可以保证部分重要的延时数据不被丢弃.利用平衡二叉树存储滑动窗口内数据流元组的权重,以提高数据流操作的响应时间.实验结果表明根据双时间戳计算出的数据权重更能反映数据的实时性和代表性;与顺序结构相比,利用平衡二叉树可提高最小权重的查找速度,流数据量越大,速度提高越明显. 抽样是生成和维护数据流概要结构的常用方法.乱序数据流中,延时到达的数据通常被丢弃,从而会降低聚集运算的精度.提出一种新的利用双时间戳进行偏倚抽样的方法,通过所设计的衰减函数确定数据流元组的权重,根据该权重进行抽样,不仅可以保证将最新产生的数据抽中,保留在滑动窗口内,还可以保证部分重要的延时数据不被丢弃.利用平衡二叉树存储滑动窗口内数据流元组的权重,以提高数据流操作的响应时间.实验结果表明根据双时间戳计算出的数据权重更能反映数据的实时性和代表性;与顺序结构相比,利用平衡二叉树可提高最小权重的查找速度,流数据量越大,速度提高越明显.

作者秦林新刘奇志

机构地区南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系

出处《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期298-303,共6页 Journal of Computer Research and Development

基金国家自然科学基金项目(60775046)

关键词乱序数据流概要结构双时间戳抽样 out-of-order data streams synopsis double timestamps sampling

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献1

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161

二级参考文献52

1Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
2Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
3Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
4Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.
5Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streams?A new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University, 2002.
6Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In: Blum A, ed. The 41st Annual Symp. on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000. 359-366.
7Domingos P, Hulten G. Mining high-speed data streams. In: Ramakrishnan R, Stolfo S, Pregibon D, eds. Proc. of the 6th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Boston: ACM Press, 2000. 71-80.
8Domingos P, Hulten G, Spencer L. Mining time-changing data streams. In: Provost F, Srikant R, eds. Proc. of the 7th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. San Francisco: ACM Press, 2001. 97～106.
9Zhou A, Cai Z, Wei L, Qian W. M-Kernel merging: Towards density estimation over data streams. In: Cha SK, Yoshikawa M, eds. The 8th Int'l Conf. on Database Systems for Advanced Applications (DASFAA 2003). Kyoto: IEEE Computer Society, 2003. 285～292.
10Gibbons PB, Matias Y. Synopsis data structures for massive data sets. In: Tarjan RE, Warnow T, eds. Proc. of the 10th Annual ACM-SIAM Symp. on Discrete Algorithms. Baltimore: ACM/SIAM, 1999. 909-910.

共引文献160

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
5金澈清,崇志宏,周傲英.一种实时监控最近邻的近似算法[J].计算机科学与探索,2007,1(2):146-159.
6杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：8
7杜威,邹先霞.基于数据流的滑动窗口机制的研究[J].计算机工程与设计,2005,26(11):2922-2924. 被引量：11
8刘赏,黄亚楼,倪维健.流数据聚类模型变化检测策略[J].计算机工程与应用,2006,42(5):15-18.
9彭宏,刘洋,邓维维,郑启伦.股票数据流的相关性计算方法[J].华南理工大学学报（自然科学版）,2006,34(1):86-89. 被引量：9
10杜阿宁,程晓明.网络流量分析中的频繁项监测技术研究[J].通信学报,2006,27(2):9-15. 被引量：3

1刘海龙,李战怀,陈群.乱序RFID数据流上的复杂事件检测方法[J].西北工业大学学报,2009,27(4):449-454. 被引量：3
2刘彩苹,李仁发,刘喜苹.无线传感器网络分布式均值查询聚集算法研究[J].通信学报,2008,29(11):24-30. 被引量：2
3杨颖,杨磊.分布式流数据频繁项发现算法的研究[J].计算机应用,2008,28(1):136-139. 被引量：1
4舒平达,陈华辉.支持多时间粒度的数据流上最频繁K项挖掘[J].宁波大学学报（理工版）,2009,22(4):500-505. 被引量：1
5刘海龙,李战怀.基于ENFA的乱序RFID复杂事件检测算法[J].华中科技大学学报（自然科学版）,2010,38(1):25-30. 被引量：6
6冯文峰,郭巧,吴素妍.基于多层概要结构的数据流的频繁项集发现算法[J].北京理工大学学报,2006,26(6):512-516. 被引量：1
7卓林超,王堃.大数据中面向乱序数据的改进型BP算法[J].系统工程理论与实践,2014,34(S1):158-164. 被引量：7
8樊海宽,刘奇志.基于余弦函数局部特征的时间衰变模式[J].计算机应用,2012,32(2):313-316.
9冷芳玲,鲍玉斌,高伟,于戈.基于MapReduce的数据聚集运算算法[J].中国科技论文在线,2011,6(7):469-475. 被引量：6
10李强,王秀坤,赫然,孟凡辉,唐一源.分布式数据仓库的一种聚集运算算法[J].计算机工程,2006,32(4):91-93.

计算机研究与发展

2011年第S3期

浏览历史

内容加载中请稍等...

一种乱序数据流上的偏倚抽样算法

参考文献1

二级参考文献52

共引文献160

相关作者

相关机构

相关主题

浏览历史