一种高效的离线数据流频繁模式挖掘算法被引量：2

Efficient Algorithm for Mining Frequent Patterns over Offline Data Streams

下载PDF

导出

摘要数据流频繁模式挖掘是当前数据挖掘领域中的研究热点之一,数据流连续性、无序性、无界性及实时性的特点为挖掘算法在时间及空间性能方面提出了更高的要求。数据流中模式频度的震荡现象,迫使现有算法对概要数据结构频繁维护,致使其时间、空间效率均受到较大影响。构造了具备较高空间性能的概要数据结构SP-tree,同时定义了震荡性因子χ以量化震荡信息,提出了一种高效的离线数据流频繁模式挖掘算法SPDS,有效降低了数据震荡对算法性能的影响;在处理新到数据集时,算法采取分而治之的分离映射策略,进一步提升了时间效率;同时在查询结果方面提高了部分模式的计数精度。 Mining frequent patterns from data streams is one of the hottest research topics in data mining nowadays. The features of data streams, such as consecution, disorder and real-time, raise requirements for higher time and space performance of mining algorithms. Vibration of pattern frequency in data streams, compels the present algorithms to revise the synopsis structure continually,and leads up to disadvantage impact on both time and space efficiency. A more scalable synopsis structure SP-tree was designed firstly, meanwhile the concept of vibration factor 3（ was given for maintaining vibrational information. Then an efficient algorithm for mining frequent patterns over offline data streams SPDS was proposed, which relieves the performance from the impact of vibration effectively, and increases the count accuracy of partial patterns. This algorithm adopts a divide-and-conquer mechanism to mine the current dataset, thereby improves itself further.

作者侯伟吴晨生杨炳儒方炜炜

机构地区北京科技大学信息工程学院北京市科学技术情报研究所

出处《计算机科学》 CSCD 北大核心 2009年第7期247-251,291,共6页 Computer Science

基金国家自然科学基金项目(60675030)资助

关键词数据挖掘数据流频繁模式震荡性因子 Data ming, Data stream, Frequent pattern（FP）, Vibration factor

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
2张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
3Frans Coenen,Graham Goulbourne,Paul Leng. Tree Structures for Mining Association Rules[J] 2004,Data Mining and Knowledge Discovery(1):25～51

二级参考文献8

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2Giannella C, Han JW, Pei J, Yan XF, Yu PS. Mining frequent patterns in data streams at multiple time granularities.http://maids.ncsa.uiuc.edu/documents/readings/fpstm03.pdf
3Manku GS, Motwani R. Approximate frequency counts over data streams. In: Bernstein P, Ioannidis Y, Ramakrishnan R, eds. Proc.of the 28th Int'l Conf. on Very Large Data Bases. Hong Kong: Morgan Kaufmann Publishers, 2002. 346-357.
4Hidber C. Online association rule mining. In: Delis A, Faloutsos C, Ghandeharizadeh S, eds. Proc. of the ACM SIGMOD Int'l Conf.on Management of Data (SIGMOD 1999). Philadelphia: ACM Press, 1999. 145-156.
5Chang J, Lee W. Finding recent frequent itemsets adaptively over online data streams. In: Lise G, Ted E. S, Pedro D, Christos F,eds. Proc. of the 9th ACM SIGKDD Int'l Conf. on Knowledge Discovery & Data Mining. Washington: ACM Press, 2003.226-235.
6Agrawal R, Srikant R. Fast algorithms for mining association rules. In: Beeri C, et al., eds. Proc. of the 20th Int'l Conf. on Very Large Databases. Santiago: Morgan Kaufmann Publishers, 1994. 487-499.
7Agarwal RC, Aggarwal CC, Prasad VVV. A tree projection algorithm for finding frequent itemsets. Journal on Parallel and Distributed Computing, 2001,61(3):350-371.
8.[EB/OL].http://www.almaden.ibm.com/so ftware/quest/Resources/index. shtml,.

共引文献40

1张玉,方滨兴,张永铮.高速网络监控中大流量对象的识别[J].中国科学：信息科学,2010,40(2):340-355. 被引量：11
2王金龙.数据挖掘研究进展[J].青岛理工大学学报,2007,28(4):80-82. 被引量：11
3史金成,胡学钢.数据流挖掘研究[J].计算机技术与发展,2007,17(11):11-14. 被引量：6
4程转流,王本年.数据流中的频繁模式挖掘[J].计算机技术与发展,2007,17(12):53-55. 被引量：5
5孙莉.数据库和数据流频繁项集挖掘算法研究[J].现代机械,2007(5):54-57.
6程舒通,徐从富,但红卫.频繁模式聚类算法改进研究[J].计算机工程与应用,2008,44(1):162-164. 被引量：1
7史志英,张伟,陈春燕.基于频繁模式的数据流聚类算法[J].微计算机应用,2008,29(1):50-53.
8庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.
9敖富江,颜跃进,黄健,黄柯棣.数据流频繁模式挖掘算法设计[J].计算机科学,2008,35(3):1-5. 被引量：11
10程舒通,徐从富,但红卫.基于改进频繁模式聚类算法的网站结构优化[J].计算机应用研究,2008,25(4):1222-1223. 被引量：2

同被引文献6

1陶力.Data Mining:Efficiently Extracting Interpretable and Actionable Patterns[R].北京:计算机科学与技术系列学术报告,2008.
2李峰,裴军,游之洋.基于隐式反馈的自适应用户兴趣模型[J].计算机工程与应用,2008,44(9):76-79. 被引量：17
3陈雪飞.一种基于决策树的快速关联规则挖掘算法[J].计算机科学,2008,35(7):252-254. 被引量：3
4蒋嶷川,田盛丰.入侵检测中对系统日志审计信息进行数据挖掘的研究[J].计算机工程,2002,28(1):159-161. 被引量：22
5邹仕洪,阙喜戎,龚向阳,程时端.基于数据挖掘与CIDF的自适应入侵检测系统[J].计算机工程与应用,2002,38(11):184-186. 被引量：13
6冯是聪,单松巍,张志刚,龚笔宏,李晓明.基于Web挖掘的个性化技术研究[J].计算机工程与设计,2004,25(1):4-6. 被引量：35

引证文献2

1王雅轩,顼聪.基于数据挖掘的入侵检测系统研究[J].制造业自动化,2010,32(11):156-158.
2单蓉.基于用户浏览行为的个性化教学系统[J].信息技术,2011,35(5):33-34. 被引量：1

二级引证文献1

1王力洪.基于关键字和序列匹配的自动评分算法的研究[J].福建电脑,2015,31(12):10-12. 被引量：5

1卜文军,李彩红.信息系统中的认证技术[J].才智,2011,0(31):38-38.
2赵静.Android系统架构及应用程序开发研究[J].自动化与仪器仪表,2017(1):86-87. 被引量：21
3罗山,黄欢,刘继红.一种基于图像处理的成捆钢筋计数方法[J].微计算机应用,2008,29(6):94-97. 被引量：5
4丁华胜,王华忠.基于PSO的人工势场法在移动机器人路径规划中的应用[J].华东理工大学学报（自然科学版）,2010,36(5):727-731. 被引量：3
5宋魁刚,胡晓光.基于多层神经网络SPDS的电力负荷预测[J].中国电力,2001,34(6):44-45. 被引量：1
6杨松,邵龙潭,宋维波,刘威.一种基于SIFT特征的快速图像匹配算法[J].计算机应用与软件,2016,33(7):186-189. 被引量：11
7赵焕新.英文论坛的独特功用[J].网络传播,2008(11):42-43.
8张良乾.浅谈计算机网络安全缺陷与防范[J].计算机光盘软件与应用,2010(11):85-85.
9刘玉玲,张高军.浅谈计算机网络安全缺陷与防范[J].中国科技纵横,2011(20):85-85.
10张夏,魏文雄,余淼,郭江伟.基于Windows的HART组态软件设计[J].计算机工程,2012,38(16):241-244. 被引量：2

计算机科学

2009年第7期

浏览历史

内容加载中请稍等...

一种高效的离线数据流频繁模式挖掘算法被引量：2

参考文献3

二级参考文献8

共引文献40

同被引文献6

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种高效的离线数据流频繁模式挖掘算法 被引量：2

参考文献3

二级参考文献8

共引文献40

同被引文献6

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种高效的离线数据流频繁模式挖掘算法被引量：2