摘要
数据流频繁项集挖掘是指在数据流中找出出现频数大于给定的最小支持度的项集过程。随着一些新兴应用如传感器网络、网络监控等的出现,数据流中频繁项集挖掘引起了很大的重视。提出了一种新颖的数据流频繁项集挖掘算法RFIF。不同于现有算法,RFIF算法针对现实中的一些实际应用,更多的考虑最近时间发生的事件,但也不完全抛弃历史数据,通过引入GIMT函数,逐渐加大项集支持度的阈值,减少对历史数据中频繁项集的维护。实验验证了算法的有效性。
Mining frequent itemsets in data streams means to find itemsets whose frequence more than minmum support threshold.Due to be widely used for rising applications,such as sensor network,newtwork traffic monitor,mining frequent itemsets in data streams will have a profound future.This paper proposes a new method-RFIF in order to mine frequent itemsets in data streams.RFIF aims at some practical applications in real life,it pays more attention to recent events,but also not discard historical data absolutely.Through using function GIMT,the threshold of maintaining data is increased,and the number of historical data is reduced.At last,the experiment results prove the effectiveness of RFIF.
出处
《计算机工程与应用》
CSCD
北大核心
2009年第18期152-155,共4页
Computer Engineering and Applications
关键词
数据流
数据挖掘
频繁项集
data streams
data mining
frequent itemsets