CBC-DS:基于频繁闭模式的数据流分类算法被引量：3

CBC-DS:A Classification Algorithm Based on Closed Frequent Patterns for Mining Data Streams

下载PDF

导出

摘要基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法—CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了"自支持度"概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法. The classification algorithms based on association rules generally generate classification association rules by frequent patterns. As mining frequent patterns often suffer from the problem of combinatorial explosion, the efficiency of the algorithms is low. Moreover, the emergence of data streams has posed new challenges for classification algorithms. In contrast to frequent patterns, the number of closed frequent patterns is less, so that the efficiency of algorithms for mining closed frequent patterns is higher. A novel and efficient closed-frequent-patterns based classification algorithm, CBC-DS, is proposed for classifying data streams. The contributions are listed as follows. （1） a single-pass closed frequent itemsets mining process based on reverse lexicographic order FP-tree is introduced for mining classification association rules, which uses a kind of mixed item-ordering searching policy to satisfy the single-pass requirement of data streams and uses the bitmap technology to improve the efficiency; （2） the concept of self-support for filtering rules is proposed to improve the precision. The experimental results show that the bitmap technology can improve the efficiency of the algorithm about twice at least and the average classifying precision can be improved about 0. 5% by using self-support. Eventually, the average precision of CBC-DS is about 1% higher than that of CMAR, and CBC-DS is much faster than CMAR.

作者敖富江王涛刘宝宏黄柯棣

机构地区国防科学技术大学机电工程与自动化学院国防科学技术大学计算机学院

出处《计算机研究与发展》 EI CSCD 北大核心 2009年第5期779-786,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(60573057 60704038)~~

关键词数据流分类关联规则频繁闭模式自支持度 data stream classification association rule closed frequent pattern self-support

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献14

1Wang J, Karypis G. HARMONY: Efficiently mining the best rules for classification [C] //Proc of 2005 SIAM Conf of Data Mining (SDM'05). 2005: 205-216
2Liu B, Hsu W, Ma Y. Integrating classification and association rule mining [C] //Proc of KDD'98. 1998:80-86
3Li W, Han J, Pei J. CMAR: Accurate and efficient classification based on multiple class-association rules [C] //Proc of ICDM'01. Berlin: Springer, 2001:369-376
4王鹏,吴晓晨,王晨,汪卫,施伯乐.CAPE——数据流上的基于频繁模式的分类算法[J].计算机研究与发展,2004,41(10):1677-1683. 被引量：7
5李宏,陈松乔,易丽君,周明,李翔.基于闭合模式的高维生物数据分类算法研究[J].小型微型计算机系统,2007,28(8):1423-1426. 被引量：1
6Gosta G, Jianfei Z. Efficiently Using prefix-trees in mining frequent itemsets [C] //Proc of FIMI'04. Piscataway, NJ: IEEE, 2003
7Chi Y, Wang H, Yu P S, et al. Moment: Maintaining closed frequent itemsets over a stream sliding window [C]//Proc of ICDM'04. Piscataway, NJ: IEEE, 2004:59-66
8Pei J, Han J, Wang J. Closet+: Searching for the best strategies for mining frequent closed itemsets [C]//Proc of SIGKDD '03. New York: ACM, 2003
9Burdiek D, Calimlim M, Gehrke J. MAFIA: A maximal frequent itemset algorithm for transactional databases [C] //Proc of the 17tb Int Conf on Data Engineering. Piseataway, NJ: IEEE, 2001:443-452
10Coenen F. LUCS KDD implementation of CMAR [OL]. [2007-10-07J. http://www. esc. liv. ac. uk/-frans/KDD/ Software/CMAR/emar. html, The University of Liverpool

二级参考文献21

1李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796-1801. 被引量：51
2J Han, M Kamber. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann, 2000
3B Babcock, S Babu, M Datar, et al. Models and issues in data stream systems. In: Proc of ACM Symp on Principles of Database Systems (PODS-02). New York: ACM Press, 2002
4Y Chen, G Dong, J Han,et al. Multi-dimensional regression analysis of time-series data streams. In: Proc of Very Large Database (VLDB02). San Francisco: Morgan Kaufmann, 2002
5J-M Adamo. Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. New York:Springer-Verlag, 2001
6G Hulten, L Spencer, P Domingos. Mining time-changing data streams. In: Proc of the Int'l Conf on Knowledge Discovery and Data Mining (SIGKDD01). New York: ACM Press, 2001. 97～106
7Haixun Wang, Wei Fan Philip S Yu, Jiawei Han. Mining concept-drifting data streams using ensemble classifiers. In: Proc of the Int'l Conf on Knowledge Discovery and Data Mining (SIGKDD03). New York: ACM Press, 2003
8B Liu, W Hsu, Y Ma. Integrating classification and association rule mining. KDD'98, New York, 1998
9W Li, J Han, J Pei. CMAR: Accurate and efficient classiffication based on multiple class-association rules. In: Proc of ICDM' 01.Washington, D C: IEEE Computer Society Press, 2001. 369～376
10X Yin, J Han. CPAR: Classification based on predictive association rules. The 2003 SIAM Int'l Conf on Data Mining (SDM'03), San Fransisco, CA, 2003

共引文献6

1赵文文,吴坚,陈波.数据挖掘中的频繁模式发现[J].萍乡高等专科学校学报,2005,22(4):84-85.
2国新出版物发行数据调查中心修改《出版物发行数据核查指引》(报刊部分)[J].中国报业,2006(12):17-17.
3杨颖,杨磊.分布式流数据频繁项发现算法的研究[J].计算机应用,2008,28(1):136-139. 被引量：1
4丁剑,韩萌,李娟.概念漂移数据流挖掘算法综述[J].计算机科学,2016,43(12):24-29. 被引量：13
5孙杜靖,李玲娟,马可.面向流数据的DPFP-Stream算法的设计与实现[J].计算机技术与发展,2017,27(7):29-33. 被引量：1
6沈森.数据流上变化的挖掘算法运用[J].信息技术与信息化,2021(11):89-91.

同被引文献71

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
3陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
4王鹏,吴晓晨,王晨,汪卫,施伯乐.CAPE——数据流上的基于频繁模式的分类算法[J].计算机研究与发展,2004,41(10):1677-1683. 被引量：7
5吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
6颜跃进,李舟军,陈火旺.基于FP-Tree有效挖掘最大频繁项集[J].软件学报,2005,16(2):215-222. 被引量：68
7宋余庆,朱玉全,孙志挥,杨鹤标.一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法[J].计算机研究与发展,2005,42(5):777-783. 被引量：21
8陈耿,朱玉全,杨鹤标,陆介平,宋余庆,孙志挥.关联规则挖掘中若干关键技术的研究[J].计算机研究与发展,2005,42(10):1785-1789. 被引量：62
9郭山清,谢立,曾英佩.入侵检测在线规则生成模型[J].计算机学报,2006,29(9):1523-1532. 被引量：14
10刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26

引证文献3

1马青霞,李广水,孙梅.频繁模式挖掘进展及典型应用[J].计算机工程与应用,2011,47(15):138-144. 被引量：6
2贾敏杰,王黎明.基于k-best树模式的树流分类算法研究[J].小型微型计算机系统,2013,34(6):1328-1333.
3丁剑,韩萌,李娟.概念漂移数据流挖掘算法综述[J].计算机科学,2016,43(12):24-29. 被引量：13

二级引证文献19

1许冠英,韩萌,王少峰,贾涛.数据流集成分类算法综述[J].计算机应用研究,2020,37(1):1-8. 被引量：11
2曾旭.计算机等级考试中的关联规则挖掘[J].成都信息工程学院学报,2012,27(1):59-62.
3吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉.基于频繁模式挖掘的维吾尔文智能组词方法[J].计算机应用,2012,32(10):2920-2922. 被引量：6
4周兴华,陆建峰,汤九斌.基于多线程技术的数据流频繁模式挖掘[J].计算机应用,2013,33(A01):69-72.
5牛新征,杨健,佘堃.基于数组前缀树的频繁项集挖掘算法[J].小型微型计算机系统,2014,35(8):1693-1698. 被引量：5
6李政,祝利,韦伟.关联规则挖掘在电子对抗目标分析中的应用[J].舰船电子对抗,2015,38(5):1-4. 被引量：5
7杨帆,张永.基于相对熵的数据流概念漂移检测算法[J].计算机应用与软件,2017,34(12):256-259. 被引量：2
8费宏慧.导构网络中用户信息资源优化检测方法研究[J].计算机仿真,2017,34(12):318-320. 被引量：2
9印世杰,陈作炳,朱梦佳,项勤.粘稠物料烘干机干燥过程优化仿真研究[J].计算机仿真,2017,34(12):383-388. 被引量：1
10廖多杨.医院临床数据分析智能分类处理技术研究[J].计算机测量与控制,2018,26(2):183-185. 被引量：2

1王璇.基于关联图的频繁闭模式挖掘[J].辽东学院学报（自然科学版）,2011,18(2):154-158. 被引量：2
2陈艳,徐华结,钱叶旺,许亚男.基于频繁闭模式的故障状态简洁关联规则挖掘[J].华中师范大学学报（自然科学版）,2013,47(3):325-330.
3秦亮曦,史忠植.关联规则研究综述[J].广西大学学报（自然科学版）,2005,30(4):310-317. 被引量：22
4武瑞娟,马礼,叶树华.关联规则挖掘研究综述[J].电脑开发与应用,2008,21(3):46-49. 被引量：2
5张禄,潘鸣宇,陈艳霞,迟忠君,赵越,刘诗.电动汽车运营管理系统数据质量分析及优化策略[J].电气应用,2015,0(S2):22-26.
6董晓梅,于戈.入侵报警模式挖掘分析算法研究[J].东北大学学报（自然科学版）,2005,26(11):1044-1047.
7朱天,白似雪.基于时间段的时序规则发现[J].广西师范大学学报（自然科学版）,2007,25(4):233-236. 被引量：1
8敖富江,颜跃进,刘宝宏,黄柯棣.在线挖掘数据流滑动窗口中最大频繁项集[J].系统仿真学报,2009,21(4):1134-1139. 被引量：9
9武园园,宋余庆,朱玉全.基于关联规则的医学图像分类算法[J].计算机工程与设计,2008,29(12):3234-3236. 被引量：1
10杨林青,李湛,牟雁超,樊里略,李红燕,王腾蛟,雷凯.面向大规模数据集的并行化Top-k Skyline查询算法[J].计算机科学与探索,2015,9(8):897-905. 被引量：7

计算机研究与发展

2009年第5期

浏览历史

内容加载中请稍等...

CBC-DS:基于频繁闭模式的数据流分类算法被引量：3

参考文献14

二级参考文献21

共引文献6

同被引文献71

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

CBC-DS:基于频繁闭模式的数据流分类算法 被引量：3

参考文献14

二级参考文献21

共引文献6

同被引文献71

引证文献3

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

CBC-DS:基于频繁闭模式的数据流分类算法被引量：3