基于分类规则的C4.5决策树改进算法被引量：22

Improved C4.5decision tree algorithm based on classification rules

下载PDF

导出

摘要为解决大样本数据条件下C4.5决策树算法需要训练集常驻内存、分类精度达不到需求以及如何选取最优分类规则等问题,提出了一种基于分类规则选取的C4.5决策树改进算法。通过数次有放回的随机抽取训练集形成多个分类规则,在多次分类规则内寻找特征的最优取值以建立最优分类规则,以划分相似度为标准进行C4.5决策树最优特征选取,在此基础上利用选定的最优分类规则和最优特征对C4.5决策树算法进行改进。实验结果表明,改进后的算法可有效解决C4.5决策树与初始训练集相关性较大的问题,对大样本数据集的分类识别在识别率上有显著提高,训练时间明显减少。 Under the condition of large sample data set of memory-resident, classification accuracyneed to meet the demand, and how to select the optimal classification rules, the improved CA. 5 decision tree algorithm based on classification rules selecting is put forward. The algorithm forms a plurality of classification rules through several times back in the random training set. By several classification rules, the optimal value is found in order to establish the optimal classification rules, and use partition similarity as standard to select C4.5 decision tree optimal feature. Based on the use of optimal classification rules and selected optimal feature, CA. 5 decision tree algorithm is improved. The experiments show that the improved algorithm can effectively solve the problem that C4.5 decision tree is large correlated with initial training set, classification rate of large sample data sets is significantly increased. The training time is significantly reduced.

作者李孝伟陈福才李邵梅

机构地区国家数字交换系统工程技术研究中心

出处《计算机工程与设计》 CSCD 北大核心 2013年第12期4321-4325,4330,共6页 Computer Engineering and Design

基金国家863高技术研究发展计划基金项目(2011AA010603 2011AA010605)

关键词 C4 5决策树分类规则属性度量划分相似度特征选取 C4.5 decision tree classification rules attribute measures partition similarity feature selection

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1姚亚夫,邢留涛.决策树C4.5连续属性分割阈值算法改进及其应用[J].中南大学学报（自然科学版）,2011,42(12):3772-3776. 被引量：41
2杨哲,李领治,纪其进,朱艳琴.基于最短划分距离的网络流量决策树分类方法[J].通信学报,2012,33(3):90-102. 被引量：12
3冯少荣,肖文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647. 被引量：18
4冯少荣.决策树算法的研究与改进[J].厦门大学学报（自然科学版）,2007,46(4):496-500. 被引量：67
5刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报（自然科学版）,2006,46(z1):996-1001. 被引量：28
6周剑峰,阳爱民,刘吉财.基于改进的C4.5算法的网络流量分类方法[J].计算机工程与应用,2012,48(5):71-74. 被引量：18

二级参考文献97

1韩慧,毛锋,王文渊.数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004,21(12):5-8. 被引量：47
2刘鹏.一种健壮有效的决策树改进模型[J].计算机工程与应用,2005,41(33):172-175. 被引量：5
3郭玉滨.一种基于离散度的决策树改进算法[J].山东师范大学学报（自然科学版）,2006,21(3):129-131. 被引量：3
4杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):43-45. 被引量：87
5王阗,佘光辉.决策树C4.5算法在森林资源二类调查中的应用[J].南京林业大学学报（自然科学版）,2007,31(3):115-118. 被引量：13
6BREIMAN L, FRIEDMAN J H, OLSHEN R A, et al. Classification and regression trees [ M ]. Belmont: Wadsworth International , 1984.
7QUINLAN J R. Induction of decision tree[ J]. Machine Learning, 1986, 1(1) : 81-106.
8QUINLAN J R. Simplifying decision trees[ J ]. International Journal of Man-Machine Studies, 1987, 27: 221-234.
9AMIR B O, DANIEL K, ASSAF S, et al. Hierarchical decision tree induction in distributed genomic databases[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 ( 8 ) : 1138-1151.
10DUDA R O,HART P E,STORK D G.模式分类[M].第2版.李宏东,姚天翔,程敏译.北京:机械工业出版社,2005:318-333.

共引文献167

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：78
2梁璟轩.基于C4.5算法的服装品牌顾客忠诚度预测研究[J].轻工科技,2021,37(5):105-107. 被引量：1
3云玉屏,林克正.C4.5算法在冠状造影数据处理中的应用[J].计算机工程与应用,2008,44(10):244-245. 被引量：6
4桂维魁,陈涛,柳洋.基于ID3算法的考试成绩分析决策树的构造[J].天津城市建设学院学报,2008,14(2):139-141. 被引量：3
5卜亚杰,胡朝举,白兰,董娜.一种健壮有效的决策树改进模型[J].计算机应用,2008,28(B06):172-174. 被引量：3
6叶圣永,王晓茹,刘志刚,钱清泉.基于随机森林算法的电力系统暂态稳定性评估[J].西南交通大学学报,2008,43(5):573-577. 被引量：19
7乔增伟,孙卫祥.C4.5算法的两点改进[J].江苏工业学院学报,2008,20(4):56-59. 被引量：10
8胡记兵,蔡家楣,江颉,马世龙.一种决策树算法的研究[J].浙江工业大学学报,2009,37(2):204-207.
9黄爱辉,陈湘涛.决策树ID3算法的改进[J].计算机工程与科学,2009,31(6):109-111. 被引量：33
10巩固,吕俊怀,黄永青,郝国生.有效改进C5.0算法的方法[J].计算机工程与设计,2009,30(22):5197-5199. 被引量：6

同被引文献180

1刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报（自然科学版）,2006,46(z1):996-1001. 被引量：28
2常继科,赵建辉,任新会,白一淼.支持向量机综述[J].光盘技术,2007(2):4-5. 被引量：1
3汪培庄.因素空间与因素库[J].辽宁工程技术大学学报（自然科学版）,2013,32(10):1297-1304. 被引量：60
4蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
5张晔,魏然,谷延锋,严萌.基于小波变换的光谱异常特征分析及提取技术研究[J].新型工业化,2013,2(1):38-45. 被引量：7
6宋涛,黄青华.基于球谐递归关系的球阵列多声源定位方法[J].新型工业化,2013,2(2):16-22. 被引量：4
7许建华,张学工,李衍达.支持向量机的新发展[J].控制与决策,2004,19(5):481-484. 被引量：132
8蒋芸,李战怀,张强,刘扬.一种基于粗糙集构造决策树的新方法[J].计算机应用,2004,24(8):21-23. 被引量：30
9张伟远.网上学习环境评价模型、指标体系及测评量表的设计与开发[J].中国电化教育,2004(7):29-33. 被引量：53
10王熙照,游自英.决策树简化(剪切)方法综述[J].计算机工程与应用,2004,40(27):66-69. 被引量：13

引证文献22

1胡美春,田大钢.一种改进的C4.5决策树算法[J].软件导刊,2015,14(7):54-56. 被引量：7
2董跃华,刘力.基于相关系数的决策树优化算法[J].计算机工程与科学,2015,37(9):1783-1793. 被引量：19
3张立旺,师智斌.基于测地距离的GIDGC-KNN不平衡数据分类器[J].计算机工程与设计,2016,37(2):389-395.
4王德文,李俊.能源互联网多能扰动识别的数据流处理模型[J].电力系统自动化,2016,40(23):49-55. 被引量：2
5曾繁慧,李艺.因素空间理论的决策树C4.5算法改进[J].辽宁工程技术大学学报（自然科学版）,2017,36(1):109-112. 被引量：7
6赵星.基于C4.5决策树算法的“学习行为—效果”评分模型构建研究[J].自动化与仪器仪表,2017(6):206-208. 被引量：5
7石红姣.基于改进随机决策树算法的分布式数据挖掘[J].计算机与数字工程,2017,45(9):1802-1808. 被引量：5
8陈超,徐和根.运动图像中QR码分割与识别[J].微型电脑应用,2017,33(10):1-4.
9林怡,季昊巍,NICO Sneeuw,叶勤.基于鱼群算法的极限学习机影像分类方法优化[J].农业机械学报,2017,48(10):156-164. 被引量：8
10杜景林,严蔚岚.基于距离权值的C4.5组合决策树算法[J].计算机工程与设计,2018,39(1):96-102. 被引量：12

二级引证文献122

1张浩,李意,刘文怡,刘昱.奶制品电商渠道流通效率评估与优化[J].物流研究,2020(1):82-90.
2王若明.浅谈代价敏感学习[J].网络安全技术与应用,2020(3):52-54.
3范馨月,崔雷.基于网络属性的抗肿瘤药物靶点预测方法及其应用[J].数据分析与知识发现,2018,2(12):98-108. 被引量：3
4李泓波,彭三城,白劲波,杨高明,黄少伟.一类决策树ID3改进算法探究[J].软件导刊,2016,15(2):30-32. 被引量：4
5陈弓.基于不平衡算法的恶意网络行为检测分析[J].信息技术与信息化,2016(8):121-125.
6吴思博,陈志刚,黄瑞.基于相关系数的ID3优化算法[J].计算机工程与科学,2016,38(11):2342-2347. 被引量：15
7杨霖,周军,梅红岩,杜晶鑫.ID3改进算法研究[J].软件导刊,2017,16(8):21-24. 被引量：4
8孙智超,王波.基于数据挖掘技术的建筑能耗分析集成方法[J].计算机应用与软件,2017,34(11):103-108. 被引量：2
9张艳妮,曾繁慧,包研科,程奇峰,郭嗣琮,张利民,冯亮,景凯,张大义.辽宁省阜新农村地区人群高血压危险因素分析[J].中华高血压杂志,2017,25(10):937-941. 被引量：4
10王磊,赵芳芳.高等职业院校分类招考背景下的学生学业早期预警研究[J].中国职业技术教育,2017,33(32):70-74. 被引量：3

1钱文彬,杨炳儒,谢永红,李慧.一种基于属性度量的快速属性约简算法[J].小型微型计算机系统,2014,35(6):1407-1411. 被引量：6
2王永生,郑雪峰.一种基于粗糙集属性度量的集成分类器[J].工程科学学报,2016,38(3):425-431.
3赵恒,杨万海.一种基于调和均值的模糊聚类算法[J].电路与系统学报,2004,9(5):114-117. 被引量：3
4李娟莉,谢红薇,李颖.基于本体的判定树分类算法抽取应急决策规则的研究[J].机械管理开发,2008,23(1):157-159.
5关鑫.基于压缩近邻的样本选择方法在字符识别上的应用[J].电子技术与软件工程,2016(14):167-167.
6赵恒,杨万海.模糊K-Modes聚类精确度分析[J].计算机工程,2003,29(12):27-28. 被引量：14
7王爱侠.程序相似度判定算法研究与实现[J].软件导刊,2015,14(11):43-47.
8冯林,张名举,贺明峰,戚正君,滕弘飞.用分层互信息和薄板样条实现医学图像弹性自动配准[J].计算机辅助设计与图形学学报,2005,17(7):1492-1496. 被引量：16
9田保慧.正相关频繁项集的挖掘算法[J].华北水利水电学院学报,2008,29(4):65-67. 被引量：1
10黄玫,孙兴华,金国英,徐光祐.新闻视频显著人脸检索系统[J].计算机工程与应用,2003,39(27):60-63.

计算机工程与设计

2013年第12期

浏览历史

内容加载中请稍等...

基于分类规则的C4.5决策树改进算法被引量：22

参考文献6

二级参考文献97

共引文献167

同被引文献180

引证文献22

二级引证文献122

相关作者

相关机构

相关主题

浏览历史

基于分类规则的C4.5决策树改进算法 被引量：22

参考文献6

二级参考文献97

共引文献167

同被引文献180

引证文献22

二级引证文献122

相关作者

相关机构

相关主题

浏览历史

基于分类规则的C4.5决策树改进算法被引量：22