一种面向数据流的频繁项集挖掘算法

An Algorithm for Mining Frequent Itemsets in Data Streams

下载PDF

导出

摘要与传统静态数据库中的数据不同,数据流是一个按时间到达的有序的项集,这使得经典的频繁项集挖掘算法难以适用到数据流中.根据数据流的特点,提出了数据流频繁项集挖掘算法FP-SegCount.该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集.然后,利用Count Min Sketch进行项集计数.算法解决了压缩统计和计算快速高效的问题.通过和FP-DS算法的实验对比,FP-SegCount算法具有较好的时间效率. Different from data in traditional static database, a data stream is an ordered sequence of items that arrives in timely order. Classical frequent item - sets mining method is difficult to apply to data stream. Based on the characteristics of data streams, FP - SegCount algorithm is proposed in this paper to mine frequent item - sets from data streams. The algorithm partitions the data stream and uses modified FP - growth algorithm to mine frequent item- sets in every segment. It then counts item -sets in Count Min Sketch. This algorithm solves compressed statistics and ensures effective computation. Through experimentation and comparison with FP - DS algorithm, FP SegCount algorithm is shown to have a good time efficiency.

作者孟彩霞

机构地区西安邮电学院计算机科学系

出处《昆明理工大学学报（理工版）》北大核心 2009年第5期26-30,35,共6页 Journal of Kunming University of Science and Technology(Natural Science Edition)

基金国家自然科学基金(项目编号:60573096) 陕西省自然科学基金项目(项目编号:2004f283) 西安市科技创新支撑-应用发展研究计划项目(项目编号:YF07024)

关键词数据流数据挖掘数据流挖掘频繁项集 data stream data mining data stream mining frequent item -sets

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1AGRAWAL R, SRIKANT R. Fast algorithms for mining association rules [ C ]//Proc 20th International Conference on VLDB . Morgan Kaufmann, 1994 : 487 - 499.
2AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large database [ C ]//Proc of the ACM SIGMOD Conf on Management of Data, 1993 : 207 - 216.
3HAN J, PEI J, YIN Y. Mining frequent patterns without candidate generation [ C ]//Proc 2000 ACM - SIGMOD International Conference Management of Data ( SIGMOD'00 ) , Dalas, TX, 2000 - 05 : 1 - 12.
4GURMEET S M, RAJEEV M. Approximate frequency counts over data streams [ C ]//Proc of the 28th VLDB Conference. Hong Kong, China,2002 : 346 - 357.
5MOSES C, KEVIN C. MARTIN F C. Finding frequent items in data streams [ J ]. Theoretical Computer Science,2004,23 (2) : 312 -315.
6GRAHAM C. MUTHUKRISHNAN S. An improved data stream summary : the count - min sketch and its applications [ J ]. Journal of Algorithms ,2005.55 ( 1 ) : 58 -75.
7CHRIS G. JIAWEI H. JIAN P. et al. Mining frequent patterns in data streams at multiple time granularities[ C]// Next Generation Data Mining. Cambridge, Massachusetts,2005 : 191 - 212.
8刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
9敖富江,颜跃进,黄健,黄柯棣.数据流频繁模式挖掘算法设计[J].计算机科学,2008,35(3):1-5. 被引量：11
10JIANG Nan, GRUENWALD LE. Research issues in data stream association rule mining[ J ]. ACM SIGMOD Record,2006,35 (1):14-19.

二级参考文献50

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
3刘学军,徐宏炳,董逸生,王永利,钱江波.数据流管理技术[J].计算机科学,2005,32(4):6-10. 被引量：2
4张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
5刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
6潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
7C. Giannella, J. Han, J. Pei, et al. Mining frequent patterns in data streams at multiple time granularities. In: H. Kargupta, A.Joshi, K. Sivakumar, eds. Next Generation Data Mining.Cambridge, Massachusetts: MIT Press, 2003. 191-212.
8G.S. Manku, R. Motwani. Approximate frequency counts over streaming data. The 28th Int'l Conf. Very Large Data Bases(VLDB 2002), Hong Kong, 2002.
9宋国杰王腾蛟唐世渭.数据流中频繁模式的评估与维护[A]..第20届全国数据库学术会议[C].长沙,2003..
10R.M. Karp, C. H. Papadimitriou, S. Shenker. A simple algorithm for finding frequent elements in streams and bags. ACM Trans. Database Systems, 2003, 28 (1): 51 - 55.

共引文献55

1张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
2王金龙.数据挖掘研究进展[J].青岛理工大学学报,2007,28(4):80-82. 被引量：11
3史金成,胡学钢.数据流挖掘研究[J].计算机技术与发展,2007,17(11):11-14. 被引量：6
4程转流,王本年.数据流中的频繁模式挖掘[J].计算机技术与发展,2007,17(12):53-55. 被引量：5
5孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
6程舒通,徐从富,但红卫.频繁模式聚类算法改进研究[J].计算机工程与应用,2008,44(1):162-164. 被引量：1
7庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.
8敖富江,颜跃进,黄健,黄柯棣.数据流频繁模式挖掘算法设计[J].计算机科学,2008,35(3):1-5. 被引量：11
9程舒通,徐从富,但红卫.基于改进频繁模式聚类算法的网站结构优化[J].计算机应用研究,2008,25(4):1222-1223. 被引量：2
10王金龙,徐从富,耿雪玉.基于产业链型数据的分布式隐私保护商务智能研究[J].计算机工程与设计,2008,29(10):2547-2549.

1孟彩霞.面向数据流的频繁项集挖掘研究[J].计算机工程与应用,2010,46(24):138-140. 被引量：2
2刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25

昆明理工大学学报（理工版）

2009年第5期

浏览历史

内容加载中请稍等...

一种面向数据流的频繁项集挖掘算法

参考文献11

二级参考文献50

共引文献55

相关作者

相关机构

相关主题

浏览历史