基于数据流的频繁集挖掘被引量：5

Discovering Frequent Itemsets over Data Streams

下载PDF

导出

摘要针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集是频繁产生模式和其他模式之间的边界,通过观察边界集的变化可以生成新的频繁产生模式.实验结果表明,该算法的性能有明显的提高. This paper presented a novel algorithm to discover frequent itemsets over data streams. The algorithm introduces a novel optimization technique combining with border sets and generator representation. The generator representation is a kind of lossless and concise representation of the set of frequent itemsets. It has smaller orders of magnitude than the set of all frequent itemsets. Border sets are the borderline between the frequent generators and other itemsets. New generators can be found through monitoring border sets. The experimental results show the improved performance when compared with the exist- ing algorithms over data streams.

作者徐利军谢康林徐虹

机构地区上海交通大学计算机科学与工程系江西师范大学软件学院

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第3期502-506,共5页 Journal of Shanghai Jiaotong University

基金国家自然科学基金资助项目(70471022)

关键词数据流数据挖掘频繁模式边界集 data stream, data mining frequent itemset border set

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Agrawal R,Srikant R.Fast algorithms for mining association rules[A].Proceedings of VLDB[C].SanMateo:Morgan Kauffman Publishers Inc,1994:487-499.
2Manku G S,Motwani R.Approximate frequency counts over data streams[A].Proceedings of VLDB[C].San Mateo:Morgan Kauffman Publishers Inc,2002:346-357.
3Chang J H,Lee W S.Finding recent frequent itemsets adaptively over online data streams[A].Proceedings of KDD[C].New York:ACM Press,2003:487-492.
4Giannella C,Han J,Pei J,et al.Mining frequent patterns in data streams at multiple time granularities[A].Next Generation Data Mining[C].Menlo Park:AAAI/MIT,2003:191-212.
5Kryszkiewicz M,Rybinski H,Gajek M.Dataless transitions between concise representations of frequent patterns[J].Intelligent Information Systems,2004,22(1):41-70.
6Feldman R,Aumann Y,Amir A,etal.Efficient algorithms for discovering frequent sets in incremental databases[A].Proceedings of SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery[C].New York:ACM Press,1997:59-66.
7Thomas S,Bodagala S,Alsabti K,et al.An efficient algorithm for the incremental updation of association rules[A].Proceedings of KDD[C].New York:ACM Press,1997:263-266.

同被引文献60

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2孟小峰,周龙骧,王珊.数据库技术发展趋势[J].软件学报,2004,15(12):1822-1836. 被引量：176
3张昕,李晓光,王大玲,于戈.数据流中一种快速启发式频繁模式挖掘方法[J].软件学报,2005,16(12):2099-2105. 被引量：14
4刘学军,徐宏炳,董逸生,王永利,钱江波.挖掘数据流中的频繁模式[J].计算机研究与发展,2005,42(12):2192-2198. 被引量：25
5周晓云,孙志挥,张柏礼,杨宜东.高维数据流子空间聚类发现及维护算法[J].计算机研究与发展,2006,43(5):834-840. 被引量：17
6潘云鹤,王金龙,徐从富.数据流频繁模式挖掘研究进展[J].自动化学报,2006,32(4):594-602. 被引量：34
7刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
8王磊,沈金波.专利情报分析方法研究[J].图书馆学研究,2006(11):2-3. 被引量：23
9赵峰,李庆华,金莉.多维流序列并行预测算法研究[J].小型微型计算机系统,2007,28(2):333-336. 被引量：3
10Babcock B,Babu S,Datar M,et al.Models and issues in data stream systems[C]//Proceedings of the 21st ACM SIGMOD-SIGACT- SIGART-SIGART Symposium on Principles of Database Systems. Madison,USA:ACM Press,2002:1-16.

引证文献5

1胡学钢,李培培,吴信东,吴共庆.A Semi-Random Multiple Decision-Tree Algorithm for Mining Data Streams[J].Journal of Computer Science & Technology,2007,22(5):711-724. 被引量：5
2庄波,刘希玉.数据流中频繁模式挖掘算法研究及进展[J].福建电脑,2008,24(3):8-8.
3唐懿芳,穆志纯,张师超,钟达夫.挖掘数据流频繁模式的相关技术和算法研究综述[J].计算机工程与应用,2009,45(26):121-125. 被引量：6
4李群.数据流的频繁模式挖掘算法浅析[J].电脑知识与技术,2008,0(S2):2-3.
5刘娟.中药复方治疗呼吸系统疾病的专利文献分析[J].四川图书馆学报,2017(3):86-88. 被引量：4

二级引证文献15

1甄田甜,张玉红,李燕,王海平,胡学钢.一种基于UFFT的数据流分类器[J].合肥工业大学学报（自然科学版）,2011,34(1):65-70. 被引量：1
2张玉红,胡学钢,李培培.一种抗噪的概念漂移数据流分类方法[J].中国科学技术大学学报,2011,41(4):347-352. 被引量：1
3李银海.流数据处理在住房公积金信息数据库中的应用研究[J].电脑编程技巧与维护,2011(22):58-59.
4杨巍.电力内网安全事件关联分析引擎的设计[J].硅谷,2012,5(21):64-64.
5周兴华,陆建峰,汤九斌.基于多线程技术的数据流频繁模式挖掘[J].计算机应用,2013,33(A01):69-72.
6刘威,路来君,王洪肖,曹延波.基于G^4 ICCS系统的数据挖掘并行算法[J].吉林大学学报（信息科学版）,2013,31(3):324-327. 被引量：3
7苏莉.概率频繁模式挖掘算法研究综述[J].电子技术与软件工程,2017(8):184-184. 被引量：1
8张宏翔,付小勇.高效用挖掘算法在处方数据中的应用[J].信息与电脑,2017,29(18):39-41. 被引量：1
9薛皓月,史彦斌,金家骅,李红玉.视疲劳防治中药专利的研究概况及其用药规律分析[J].中国实验方剂学杂志,2019,25(7):195-200. 被引量：10
10贾涛,韩萌,王少峰,杜诗语,申明尧.数据流决策树分类方法综述[J].南京师大学报（自然科学版）,2019,42(4):49-60. 被引量：16

1娄兰芳,潘庆先.基于集合运算的频繁集挖掘优化算法[J].山东大学学报（理学版）,2008,43(11):54-57. 被引量：1
2杨妮妮.基于集合和位运算的频繁集挖掘优化算法[J].科学技术与工程,2009,9(23):7173-7175. 被引量：1
3陈晓云.一种带约束条件的关联规则频繁集挖掘[J].计算机工程与应用,2003,39(2):205-208. 被引量：4
4张恩来.电气自动化控制的实现与人工智能技术分析[J].环球市场,2017,0(12):107-107. 被引量：1
5叶楠,吕勇哉.模式识别在状态估计中的应用——一类软测量技术[J].仪器仪表学报,1988,9(4):368-374. 被引量：6
6蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
7朱参世,李响.自适应模糊决策树算法在数据流挖掘中的应用[J].现代电子技术,2010,33(10):63-65. 被引量：2
8孙国欣,张金川,陈爽,刘闪,刘英远,曹靖.数据流上基于属性最优分类的熵判定树构造方法[J].科技创新导报,2008,5(24):49-49.
9高爱华,陈静,刘正林.基于数据流的数据挖掘研究[J].商场现代化,2008(14):53-53.
10温磊,李敏强.基于有向项集图的频繁集挖掘优化算法[J].计算机工程,2003,29(22):111-113.

上海交通大学学报

2006年第3期

浏览历史

内容加载中请稍等...

基于数据流的频繁集挖掘被引量：5

参考文献7

同被引文献60

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于数据流的频繁集挖掘 被引量：5

参考文献7

同被引文献60

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于数据流的频繁集挖掘被引量：5