利用上凸函数对决策树算法的改进被引量：2

An Improved Algorithm of Decision Trees by Using the Convex Function

下载PDF

导出

摘要针对决策树分类方法的计算效率进行深入研究,根据信息增益计算的特点,引入了上凸函数的概念,用于提高决策树分类过程中信息增益的计算效率。利用我们所提出的"一致性定理"和"特殊一致性定理",从理论上证明了利用上凸函数对信息增益计算进行改进后,构造的决策树与原决策树具有相同的分类准确率。同时我们通过对大数据集的实验,发现在相同规模的数据集下,改进后的决策树算法比原算法有更高的计算效率,并且这种计算效率的提高有随着数据集规模的增加而增加的趋势。 In this paper,we research deeply the theory of decision trees induction.According to the character of expected information and the quality of convex function,we propose a new algorithm to raise the efficiency of calculating expected information in the process of inducing the decision trees.By using the theory of consistency and special consistency,we also prove that the accuracy of decision trees constructed by the improved algorithm is equal to the one of ID3 algorithm.At the same time,through the experiment of testing the large datasets,we find that the new algorithm has higher calculative efficiency than the old one in the same datasets.Moreover with the larger scale of datasets,the calculation of expected information has more rapid efficiency.

作者高学东尹阿东张健宫雨武森

机构地区北京科技大学管理学院

出处《中国管理科学》 CSSCI 2004年第4期144-148,共5页 Chinese Journal of Management Science

关键词决策树 ID3算法上凸函数信息熵 decision tress ID3 Algorithm convex function expected information

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1邵华,赵宏.一种与神经元网络杂交的决策树算法[J].小型微型计算机系统,2001,22(8):964-966. 被引量：8
2肖勇,陈意云.用遗传算法构造决策树[J].计算机研究与发展,1998,35(1):49-52. 被引量：24
3Carmela C,Francesco M,Roberta S.A Statistical Approach to Growing A Reliable Honest Tree[J].Computational Statistics and Data Analysisi,2002,38:285-299.
4Bartlett P L,Mendelson S.Rademacher and Gaussian complexities:Risk Bounds and Structural Results[J].Journal of Machine Learning Research,2002,3:463-482.
5Quinlan J R,Induction of Decision Tree[J].Machine Learning,1986,1(1):81-106.
6Wang X Z,Chen B,Qian G L,et al.On the Optimization of Fuzzy Decision Trees[J].Fuzzy Sets and Systems,2000,112:117-125.
7Chen M S,Yu P S,Liu B.A Method to Boost Naive Bayesian Classifiers[C].In:Proceedings of The Sixth Pacific-Asia Conference on Knowledge Discovery and Data Mining,2002:115-122.
8Ling C X,Zhang H.Toward Bayesian Classifiers with Accurate Probabilities[C].In Proceedings of The Sixth Pacific-Asia Conference on Knowledge Discovery and Data Mining,2002:123-134.
9Provost F,Domingos P.Tree Induction for Probability-Based Ranking[J].Machine Learning,September 2003,52(3):199-215.
10Bredensteiner E J,Bennett K P.Feature Minimization within Decision Trees[J].Computational Optimizations and Applications,1998,10:111-126.

二级参考文献6

1姚新,陈国良,徐惠敏,刘勇.进化算法研究进展[J].计算机学报,1995,18(9):694-706. 被引量：102
2Wu Xindong，J Comput Sci Technol，1993年，8卷，2期，118页
3Hong J R，Int J Computer Information Science，1985年，14卷，6期，421页
4苗夺谦,王珏.基于粗糙集的多变量决策树构造方法[J].软件学报,1997,8(6):425-431. 被引量：120
5刘小虎,李生.决策树的优化算法[J].软件学报,1998,9(10):797-800. 被引量：129
6杨广文,王鼎兴,郑纬民,李晓明.一种利用确定性退火技术的聚类模型与算法研究[J].软件学报,1999,10(6):663-667. 被引量：14

共引文献52

1黄新焕,张岐山,林振思.基于数据挖掘技术的客户价值评价方法[J].中国管理科学,2005,13(z1):591-594.
2刘斌,曹卉宇,何建敏.基于遗传算法的模糊决策中的参数学习方法[J].中国管理科学,2000,8(S1):197-202. 被引量：1
3徐远纯,盛昭瀚,柳炳祥.一种基于决策树的客户流失危机分析方法[J].计算机与现代化,2004(8):1-4. 被引量：10
4江效尧,胡林生.基于粗糙集的RDT决策树生成算法的研究及应用[J].安徽工程科技学院学报（自然科学版）,2004,19(3):50-53. 被引量：1
5何宝群.数学教学要渗透人文精神[J].教学与管理（小学版）,2005(1):49-50. 被引量：1
6李艺明,张应利.数据挖掘在移动通信业客户流失管理中的应用[J].广东通信技术,2005,25(3):31-35. 被引量：1
7王四春,张泰山,殷志云,李日保,张楚文.一种求解GP-决策树权值矢量算法及应用[J].计算机应用,2005,25(4):739-741. 被引量：2
8王四春,张泰山,殷志云,李日保,张楚文.基于遗传程序设计的GP-决策树优化算法及应用[J].计算机工程与应用,2005,41(10):8-10. 被引量：1
9盛昭瀚,柳炳祥.客户流失危机分析的决策树方法[J].管理科学学报,2005,8(2):20-25. 被引量：49
10刘青,李海峰,袁科.微阵列数据中一种改进Bagging决策树算法的研究[J].计算机工程与科学,2005,27(6):78-80.

同被引文献26

1栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：110
2纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
3曾黄麟.粗集理论及其应用[M].重庆：重庆大学出版社,1996..
4PRIGOGINE I. The networked society [ J ]. Journal of world - sys- tems research, 2015, 6 (3):892-898.
5PRATTG A. Is a Cambrian explosion coming for robotics? [J]. The Journal of Economic Perspectives, 2015, 29 (3): 51 -60.
6CHEN H L, YANG B, LIU J, et al. A support vector machine classi- fier with rough set - based feature selection for breast cancer diagnosis [ J ]. Expert Systems with Applications, 2011,38 (7) : 9014 - 9022.
7BERETYA L, SANTANIELLO A. Implementing ReliefF filters to ex- tract meaningful features from genetic lifetime datasets [ J ]. Journal of biomedical informaties, 2011,44 (2) : 361 -369.
8PAWLAK Z. Rough sets [ J]. International Journal of Computer and Information Sciences, 1982, 11 (5).
9SON C S, KIM Y N, KIM H S, et al. Decision - making model for early diagnosis of congestive heart failure using rough set and decision tree approaches [ J ]. Journal of Biomedical Informatics, 2012, 45 (5) : 999 -1008.
10SWINIARSKI R W, SKOWRON A. Rough set methods in feature se- lection and recognition [ J ]. Pattern Recognition Letters, 2003, 24 (6) : 833 -849.

引证文献2

1张琳,陈燕,李桃迎,牟向伟.决策树分类算法研究[J].计算机工程,2011,37(13):66-67. 被引量：53
2刘潇,王效俐.基于RRF的信息数据集的特征选择[J].科技管理研究,2016,36(21):198-202.

二级引证文献53

1刘应东,孙秉珍.基于元胞自动机的小样本集分类算法[J].计算机工程,2012,38(7):155-157. 被引量：2
2王琦,李霞.基于关联规则的分类规则约简方法[J].计算机工程,2012,38(9):46-48. 被引量：2
3黄宇达,范太华.决策树ID3算法的分析与优化[J].计算机工程与设计,2012,33(8):3089-3093. 被引量：16
4周凌云.决策树在汽车评测中的应用研究[J].中南民族大学学报（自然科学版）,2012,31(3):97-100. 被引量：2
5张伟丰.基于ID3算法的卷烟产品零售客户分类研究[J].湖北汽车工业学院学报,2012,26(3):52-54. 被引量：3
6郑麟.基于贡献因子的改进决策树属性选择方法[J].汕头大学学报（自然科学版）,2013,28(1):64-70.
7刘军.基于叶枝比率的决策树构建算法[J].信息网络安全,2013(2):9-12. 被引量：2
8翟继强,王克奇.依据TRIZ发明原理的中文专利自动分类[J].哈尔滨理工大学学报,2013,18(3):1-5. 被引量：11
9刘军.叶枝分辨的决策树研究[J].计算机工程与设计,2013,34(9):3245-3249.
10章立宗,丁梁,张锋明,刘永新,李胜利.改进ID3算法实现智能调度负荷特性分析及其可视化研究[J].曲阜师范大学学报（自然科学版）,2013,39(4):43-45.

1高学东,尹阿东,宫雨,武森.一种改进的决策树算法[J].工业工程与管理,2004,9(4):93-97. 被引量：1
2尹建芹,田国会,魏军,李金屏,林佳本.特征的支持度与其分类能力的关系研究[J].电子学报,2015,43(2):248-254. 被引量：1
3朱雅敏.粒子群算法惯性算子凹凸性分析[J].价值工程,2015,34(20):198-200. 被引量：1
4姜宝林.信息系统安全策略研究[J].黑龙江科技信息,2014(22):50-50.
5邹丽,温欣,林彬.黎曼流形上非线性凸规划最优性条件的研究[J].计算机科学,2014,41(2):95-98.
6顾成杰,张顺颐,黄河,孙雁飞.一种具有特征有效度的模糊支持向量机[J].南京邮电大学学报（自然科学版）,2011,31(3):50-54.
7苏汉元,李岳林.微机参数化凸轮廓线CAI/CAD系统的设计与实现[J].长沙交通学院学报,1999,15(1):27-30.
8李京娜,王国宏,孙少燕,王刚.基于改进后的结构相似度的三维图像配准[J].光电工程,2012,39(12):70-76. 被引量：3
9沈竞.基于信息增益的LDA模型的短文本分类[J].重庆文理学院学报（自然科学版）,2011,30(6):64-66. 被引量：6
10杨定礼,夏军,尹涵春.基于汉明码的数字水印隐藏方法[J].计算机工程与应用,2005,41(36):28-30. 被引量：3

中国管理科学

2004年第4期

浏览历史

内容加载中请稍等...

利用上凸函数对决策树算法的改进被引量：2

参考文献12

二级参考文献6

共引文献52

同被引文献26

引证文献2

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

利用上凸函数对决策树算法的改进 被引量：2

参考文献12

二级参考文献6

共引文献52

同被引文献26

引证文献2

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

利用上凸函数对决策树算法的改进被引量：2