基于时间和流长约束的网络流频繁项挖掘算法被引量：3

Frequent items mining algorithm over network flows based on time and flow length constraints

下载PDF

导出

摘要基于计数的频繁项挖掘算法是目前数据流频繁项挖掘领域非常活跃的一种方法.在SS计数算法的启发下,针对网络流的实际特性,提出了一种剪枝操作受时间和流长双重约束的网络流频繁项挖掘算法TSFIM.算法采用三级缓存结构分别实现长流及时保护、基于时间的报文归并和基于流长的流项区分淘汰;通过理论分析了TSFIM算法的性能并探讨了算法适用于长时间情况下的约束条件和优势;最后通过实际流量数据测试表明,TSFIM算法具有非常高的空间利用率,算法在流频繁项提取、流长统计效果上明显优于SS等算法. The counting method is an important frequent items mining algorithm in data streams. Inspired by the SS counting method and based on the property of flows, a frequent items mining algorithm over network flows TSFIM was proposed, whose pruning strategy was subject to the constraints of time and flow length. The algorithm TSFIM adopted three-stage buffers to fulfill the functions of preserving large flows promptly, packets aggregation based on time and flow deletion based on length respectively. The performance of TSFIM was analyzed in theory, then the constraint and advantage of TSFIM at the long time situation were discussed. Finally, an experiment on real network traffic shows that TSFIM is very space-saving and much more accurate than other algorithms like SS in the metrics of frequent items mining and flow length counting.

作者夏靖波赵小欢柏骏郭威武

机构地区空军工程大学信息与导航学院中国人民解放军

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2013年第10期790-798,共9页 JUSTC

基金陕西省自然科学基金重点项目(2012JZ8005)资助

关键词网络流频繁项挖掘计数算法剪枝操作 network flows frequent items mining counting method pruning strategy

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Mata F, Garcia-Dorado J L, Aracil J. Detection of traffic changes in large-scale backbone networks: The case of the Spanish academic network[J]. Computer Networks. 2012, 56(2): 686-702.
2Choi H, Lee H. Identifying hornets by capturing group activities in DNS traffic [J]. Computer Networks. 2012, 56(1): 20-33.
3张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
4Che L C, Qiu B, Wu H R. Improvement of LRU cache for the detection and control of long-lived high bandwidth flows [ J ]. Computer Communications, 2005, 29(1): 103-113.
5王风宇,云晓春,王晓峰,王勇.高速网络监控中大流量对象的提取[J].软件学报,2007,18(12):3060-3070. 被引量：22
6裴育杰,王洪波,程时端.基于两级LRU机制的大流检测算法[J].电子学报,2009,37(4):684-691. 被引量：20
7谢冬青,周再红,骆嘉伟.基于LRU和SCBF的大象流提取及其在DDoS防御中的应用[J].计算机研究与发展,2011,48(8):1517-1523. 被引量：14
8Karp R M, Shenker S, Papadimitriou C H. A simple algorithm for finding frequent elements in streams and bags[J]. ACM Transactions on Database Systems, 2003, 28(1): 51-55.
9王伟平,李建中,张冬冬,郭龙江.一种有效的挖掘数据流近似频繁项算法[J].软件学报,2007,18(4):884-892. 被引量：33
10Manku G S, Motwani R. Approximate frequency counts over data streams[C]//Proceedings of the 28th International Conference on Very Large Data Bases. Hong Kong, China: ACM Press, 2002: 346-357.

二级参考文献79

1龚俭,彭艳兵,杨望,刘卫江.基于BloomFilter的大规模异常TCP连接参数再现方法[J].软件学报,2006,17(3):434-444. 被引量：24
2周明中,龚俭,丁伟,程光.基于MGCBF算法的长流信息统计[J].东南大学学报（自然科学版）,2006,36(3):472-476. 被引量：5
3潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
4王洪波,韦安明,林宇,程时端.流测量中基于测量缓冲区的时间分层分组抽样[J].软件学报,2006,17(8):1775-1784. 被引量：14
5王伟平,李建中,张冬冬,郭龙江.一种有效的挖掘数据流近似频繁项算法[J].软件学报,2007,18(4):884-892. 被引量：33
6N Brownlee,C Mills,and G Ruth. Traffic Flow Measurement: Architecture[ S]. IETF RFC 2722,1999.
7W Fang and L Peterson. Inter-AS traffic patterns and their implications[ A]. In Proceedings of IEEE GLOBECOM[ C ]. New York: IEEE, 1999. 1859 - 1868.
8C Estan and G Varghese. New directions in traffic rneasurement and accounting[ A]. In Proceedings of ACM SIGCOMM[ C]. New York:ACM,2002.323- 336.
9Sampled Netflow[ OL ]. http://www. cisco. com/en/US/ docs/ios/12 _ 0s/feature/guide/12s _ sanf. html.
10A Feldmann, A Greenberg, C Lund, N Reingold, J Rexford, and F True. Deriving traffic demands for operational IP networks: methodology and experience[ J]. IEEE/ACM Transactions on Networking, 2001.9(3) :265 - 280.

共引文献63

1邝祝芳,阳国贵,辛动军.SWFPM:一种有效的数据流频繁项挖掘算法[J].计算机应用研究,2009,26(2):466-469. 被引量：4
2张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
3高宏宾,张小彬,杨海振.一种实时挖掘数据流近似频繁项的算法[J].计算机应用,2008,28(S2):219-222. 被引量：2
4李建中,高宏.无线传感器网络的研究进展[J].计算机研究与发展,2008,45(1):1-15. 被引量：441
5王秀坤,王铁存,周国能,冯维.挖掘数据流近似频繁项的改进算法[J].计算机工程与应用,2008,44(13):150-152.
6邝祝芳,谭骏珊,杨卫民,辛动军.基于渐增最小支持度函数的数据流频繁项挖掘[J].微电子学与计算机,2008,25(10):196-198.
7祖悦,党德玉.网格环境下基于分布式数据流频繁模式的数据更新算法[J].吉林化工学院学报,2009,26(1):54-58.
8吴枫,仲妍,金鑫,吴泉源,贾焰,杨树强.滑动窗口内进化数据流任意形状聚类算法[J].小型微型计算机系统,2009,30(5):887-890. 被引量：6
9蒲天银,秦拯.安全态势数据源近似频繁项分析算法应用[J].福建电脑,2009(8):84-84.
10张啸剑,邵超,张亚东.动态Web点击流中频繁访问序列的挖掘[J].计算机工程,2009,35(14):58-59. 被引量：1

同被引文献29

1刘殷雷,刘玉葆,陈程.不确定性数据流上频繁项集挖掘的有效算法[J].计算机研究与发展,2011,48(S3):1-7. 被引量：14
2张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
3龚俭,彭艳兵,杨望,刘卫江.基于BloomFilter的大规模异常TCP连接参数再现方法[J].软件学报,2006,17(3):434-444. 被引量：24
4王风宇,云晓春,王晓峰,王勇.高速网络监控中大流量对象的提取[J].软件学报,2007,18(12):3060-3070. 被引量：22
5Hyunsang C, Heejo L. Identifying botnets by capturing group activities in DNS traffic[J]. Computer Networks, 2012, 56(1): 20-33.
6Estan C, Varghese G. New directions in traffic measurement and accounting: focusing on the elephants, ignoring the mice[J]. ACM Transactions on Computer Systems, 2003, 21(3): 270-313.
7Manku G S, Motwani R. Approximate frequency counts over data streams[C]//Proc of the 28th International Conference on Very Large Data Bases, Hong Kong, 2002:346-357.
8Cormode G, Muthukrishnan S. What's hot and what's not: tracking most frequent items dynamically[J]. ACM Transactions on Database Systems, 2005, 30(1): 249-278.
9Karp R M, Shenker S, Papadimitriou C H. A simple algorithm for finding frequent elements in streams and bags[J]. ACM Transactions on Database Systems, 2003, 28(1): 51-55.
10Metwally A, Agrawal D, Abbadi A E. Efficient computation of frequent and Top-k elements in data streams //Proc. of the International Conference on Data Theory. Edinburgh: Springer-Verlag, 2005:398-412.

引证文献3

1赵小欢,李明辉.基于CBF-SS策略的大流识别算法[J].中国科学院大学学报（中英文）,2015,32(3):391-397. 被引量：1
2张惠民,冯林生,邱雪欢.一种改进的分层CBF网络大流识别策略[J].装甲兵工程学院学报,2018,32(1):96-100.
3卢来,邓文,吴绍军,黄锦焕.挖掘算法在高速网络流频繁项计算中的实验应用[J].现代计算机,2018,24(12):36-40.

二级引证文献1

1严军荣,叶景畅,潘鹏.一种大象流两级识别方法[J].电信科学,2017,33(3):36-43. 被引量：10

1吴亚联,雷天齐,龚能,龙辉,康灿平.一种改进的DV-Hop定位算法在配电线路故障定位中的应用[J].湘潭大学自然科学学报,2016,38(1):82-85. 被引量：2
2刘刚,邵志清,肖立中,温盛军,梁宏昊.嵌入式系统开发中的设计模式[J].计算机应用,2006,26(9):2236-2239. 被引量：2
3黄昆.基于Web应用的复杂报表的实现[J].电脑与电信,2009(9):68-69.
4赵小欢,夏靖波,付凯.基于散列和计数方法的网络流频繁项挖掘算法[J].华中科技大学学报（自然科学版）,2013,41(9):57-62. 被引量：2
5李劲华.建立IT投资效益分析模型[J].中国计算机用户,2003(34):42-42. 被引量：4
6刘松林,牛照东,陈曾平.交叉熵约束的红外图像最小错误阈值分割[J].红外与激光工程,2014,43(3):979-984. 被引量：8
7张校辉,曾威,兰巨龙.一种生成符合网络实际特性的仿真流量方法[J].信息工程大学学报,2009,10(2):298-300.
8谢昭莉,蒲兴荣,尹刚,刘亮.求解军车调度问题的双重约束编码遗传算法[J].计算机工程与应用,2009,45(27):210-212.
9杨小青,杨秋翔,杨剑.基于法向量改进的ICP算法[J].计算机工程与设计,2016,37(1):169-173. 被引量：22
10唐子蛟,项菲,符长友.电子投票系统结果计算的误差源分析[J].四川理工学院学报（自然科学版）,2013,26(4):52-54. 被引量：2

中国科学技术大学学报

2013年第10期

浏览历史

内容加载中请稍等...

基于时间和流长约束的网络流频繁项挖掘算法被引量：3

参考文献13

二级参考文献79

共引文献63

同被引文献29

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于时间和流长约束的网络流频繁项挖掘算法 被引量：3

参考文献13

二级参考文献79

共引文献63

同被引文献29

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于时间和流长约束的网络流频繁项挖掘算法被引量：3