摘要
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的数据结构SRUF-tree用于储存不确定性数据事务流的项集,该结构由全局树SRtree、临时表Table和窗口队列Queue三部分组成,其中全局树压缩着最近窗口容纳的所有的项集,临时表存储着每批项集的信息.基于该结构设计了一种新的算法SRUF-mine,它挖掘流频繁项集时只需要深度遍历全局树,动态维护SRUF-tree结构只需要处理窗口队列中最旧一批项集的临时表.理论和实验结果表明,SRUF-mine算法是一种有效的挖掘不确定性数据流频繁项集的算法,时空效率和扩展性均优于UF-streaming算法.
在很多应用中,不确定性数据都是以流的形式产生,例如传感器网络数据,移动对象跟踪数据等等.已有的基于不确定性数据流的频繁项集挖掘算法往往具有数据流储存结构繁琐、维护困难以及算法的计算量大等缺点.针对这种情况,提出了一种有效的数据结构SRUF-tree用于储存不确定性数据事务流的项集,该结构由全局树SRtree、临时表Table和窗口队列Queue三部分组成,其中全局树压缩着最近窗口容纳的所有的项集,临时表存储着每批项集的信息.基于该结构设计了一种新的算法SRUF-mine,它挖掘流频繁项集时只需要深度遍历全局树,动态维护SRUF-tree结构只需要处理窗口队列中最旧一批项集的临时表.理论和实验结果表明,SRUF-mine算法是一种有效的挖掘不确定性数据流频繁项集的算法,时空效率和扩展性均优于UF-streaming算法.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第S3期1-7,共7页
Journal of Computer Research and Development
基金
国家自然科学基金项目(60703111
61070005
61033010)
广东省科技计划项目(2010B080701062)
高校基本科研业务费中山大学青年教师培育项目(11lgpy63)
关键词
不确定数据
数据流
频繁项集
uncertain data
data streams
frequent itemsets