一种可用于分类型属性数据的多变量决策树算法被引量：15

An Applicable Multivariate Decision Tree Algorithm for Categorical Attribute Data

下载PDF

导出

摘要针对绝大部分多变量决策树只能联合数值型属性,而不能直接为带有分类型属性数据集进行分类的问题,提出一种可联合多种类型属性的多变量决策树算法(CMDT).该算法通过统计各个分类型属性的属性值在各个类别或各个簇中的频率分布,来定义样本集合在分类型属性上的中心,以及样本到中心的距离.然后,使用加权k-means算法划分决策树中的非终端结点.使用这种结点划分方法构建的决策树可用于数值型数据、分类型数据以及混合型数据.实验结果表明,该算法建立的分类模型在各种类型的数据集上均获得比经典决策树算法更好的泛化正确率和更简洁的树结构. Most multivariate decision trees are applicable for only the numerical data.To solve the classification problem on categorical attribute data,an applicable multivariate decision tree(CMDT)algorithm is proposed.The center of the sample set on the categorical attributes,and the distance between the samples and the centers are defined with statistics for frequency distribution of categorical attribute values in each category or each cluster.Weighted k-means algorithm is utilized to split the nodes in the decision tree.The proposed multivariate decision tree is applicable for numerical data,categorical data,and mixed data.Experiment results show that the classification model based on the proposed algorithm can get more concise tree construction and higher generalization accuracy than that based on the classic decision tree algorithms with different kinds of data.

作者刘振宇宋晓莹 LIU Zhen-yu;SONG Xiao-ying(Software Center,Northeastern University,Shenyang 110819,China;Key Laboratory of Network Security and Computing Technology,Dalian Neusoft University of Information,Dalian 116023,China)

机构地区东北大学软件中心大连东软信息学院网络安全与计算技术重点实验室

出处《东北大学学报（自然科学版）》 EI CAS CSCD 北大核心 2020年第11期1521-1527,共7页 Journal of Northeastern University(Natural Science)

基金国家自然科学基金资助项目(61772101,61602075) 辽宁省重点研发计划项目(2018).

关键词决策树分类型属性多变量决策树结点划分 K-均值 decision tree categorical attribute multivariate decision tree node split k-means

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
2王蒙湘,李芳芳,于戈.交互式数据探索框架的特征自适应技术[J].东北大学学报（自然科学版）,2018,39(12):1685-1690. 被引量：2

二级参考文献11

1J MacQueen.Some Methods for Classification and Analysis of Multivariate Observations[A].Proc 5th Berkeley Symp Mathematics Statist and Probaility[C].1967.281-297.
2H Ralambondrainy.A Conceptual Version of the k-Means Algorithm[J].Pattern Recognition Letters,1995,16(11):1147-1157.
3Zhexue Huang.A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining[A].Proc SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery[C].1997.
4Zhexue Huang.Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values[J].Data Mining and Knowledge Discovery,1998,2(3):283-304.
5C J Merz,P Merphy.UCI Repository of Machine Learning Databases[EB/OL].http://www.ics.uci.edu/ mlearn/ MLRRepository.html,2004-09.
6MIT Lincoln Labs.1999 DARPA Intrusion Detection Evaluation[EB/OL].http://www.ll.mit.edu/IST/ideval/index.html,1999-12.
7G W Milligan,M C Cooper.An Examination of Procedures for Determining the Number of Clusters in a Data Set[J].Psychometrika,1987,50(2):159 -179.
8M Meila,D Heckerman.An Experimental Comparison of Several Clustering and Initialization Methods[A].Proc of the 14th Conf on Uncertainty in Artificial Intelligence[C].1998.386-395.
9C Fraley,A E Raftery.How Many Clusters? Which Clustering Method? Answers via Model-Based Cluster Analysis[J].Computer Journal,1998,41(8):578-588.
10谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：64

共引文献15

1徐鸽,陈江瑞.聚类分析在客户关系管理中的应用研究[J].企业技术开发,2008,27(1):9-11. 被引量：1
2雷红艳,邹汉斌,周慧灿.基于聚类支持向量机的入侵检测算法[J].无线电工程,2009,39(2):45-47. 被引量：4
3邹汉斌,周学清.基于聚类的模糊支持向量机入侵检测算法[J].情报杂志,2009,28(3):175-178. 被引量：3
4张建民.一种改进的K-means聚类算法[J].微计算机信息,2010,26(9):233-234. 被引量：17
5陈朋.基于SPSS和KNIME的K-means聚类结果研究[J].微型机与应用,2010,29(12):1-3. 被引量：4
6苏晓珂,兰洋,程耀东,万仁霞.可处理混合属性的任意形状聚类[J].计算机工程与应用,2010,46(34):136-139. 被引量：2
7吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：161
8黎银环,张剑.改进的K-means算法在入侵检测中的应用[J].计算机技术与发展,2013,23(1):165-168. 被引量：3
9蒋盛益,王连喜.聚类分析研究的挑战性问题[J].广东工业大学学报,2014,31(3):32-38. 被引量：6
10滕少华,洪源,李日贵,张巍,刘冬宁.自适应多趟聚类在检测无线传感器网络安全中的应用[J].传感器与微系统,2015,34(2):150-153. 被引量：1

同被引文献175

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：71
2王丽媛,李晓风,李玉洁,谭海波.基于系统调用的交互式入侵检测系统设计与实现[J].仪表技术,2020(3):1-5. 被引量：2
3曹峰.基于改进行为特征分析的网络入侵检测研究[J].网络安全技术与应用,2020,0(2):18-20. 被引量：3
4Zhenghui Luo,Rui Sun,Cheng Zhong,Tao Liu,Guangye Zhang,Yang Zou,Xuechen Jiao,Jie Min,Chuluo Yang.Altering alkyl-chains branching positions for boosting the performance of small-molecule acceptors for highly efficient nonfullerene organic solar cells[J].Science China Chemistry,2020,63(3):361-369. 被引量：7
5张荣梅,陈彬,张琦.基于K-means的矩阵分解推荐算法[J].智能计算机与应用,2020,0(1):56-60. 被引量：5
6张希波,成波,冯睿嘉.基于方向盘操作的驾驶人疲劳状态实时检测方法[J].清华大学学报（自然科学版）,2010,50(7):1072-1076. 被引量：45
7杨长春,沈晓玲.基于云计算的SLIQ并行算法研究[J].计算机工程与科学,2012,34(3):62-66. 被引量：6
8梁娟,罗海据.大数据挖掘方法在大学生心理预警系统中的应用[J].中国学校卫生,2018,39(12):1821-1824. 被引量：24
9范李平,张晓辉,苏伟.基于大数据挖掘的变电设备故障预警研究及应用[J].电力大数据,2019,22(1):1-7. 被引量：33
10殷君茹,侯瑞霞,唐小明,罗鹏.基于瓦片金字塔模型的海量空间数据快速分发方法[J].吉林大学学报（理学版）,2015,53(6):1269-1274. 被引量：8

引证文献15

1周莉,李静毅.基于决策树算法的联级网络安全态势感知模型[J].计算机仿真,2021,38(5):264-268. 被引量：13
2杨复伟,周斌.基于决策树算法的心理健康智能评测研究[J].现代电子技术,2021,44(13):135-139. 被引量：2
3杨立疆.基于BIM模型的水利灌区用水信息集成管理系统[J].水利科技与经济,2021,27(7):111-116. 被引量：1
4孙小雪,钟辉,陈海鹏.基于决策树分类技术的学生考试成绩统计分析系统[J].吉林大学学报（工学版）,2021,51(5):1866-1872. 被引量：10
5葛文杰,陈龙.基于随机森林与多源信息融合的疲劳驾驶检测方法[J].软件导刊,2021,20(10):73-77. 被引量：6
6刘振宇,宋晓莹.一种可用于分类型属性数据的多变量回归森林[J].计算机科学,2022,49(1):108-114. 被引量：1
7李偲希,白全生,舒畅,肖祥武.基于spark平台的供电煤耗并行回归预测[J].电力大数据,2021,24(11):85-92. 被引量：1
8张行,凌嘉瞳,刘思敏,董绍华.基于移动设备位置数据的油气管道第三方破坏行为识别研究[J].石油科学通报,2022,7(2):261-269. 被引量：1
9韦冬妮,车彬,张泽龙,唐梦媛,齐彩娟.基于伴随式数据采集和决策树算法的智库人才信息处理技术[J].电子设计工程,2022,30(23):56-60. 被引量：2
10张莉,丁毛毛,李玮,王颖,吕静贤,王笑一.基于决策树算法的客服终端冗余数据迭代消除方法[J].计算技术与自动化,2022,41(4):118-122. 被引量：5

二级引证文献52

1高杰.新形势下国有企业文秘工作技能的提升[J].东方企业文化,2023(S01):25-27.
2周慧敏.用水信息采集系统的建设应用与研究[J].现代经济信息,2023(7):44-46.
3焦自权,杨丽君,冯志强,韩鑫,吕娜,覃海俭,黎欣,袁浩.基于粗糙-模糊软计算建模技术的船海类专业实践课程教育改革研究[J].课程教育研究,2021(17):192-193.
4吴岚,刁含楼.基于定位与视觉技术融合的疲劳驾驶检测方法[J].电子技术与软件工程,2022(2):240-243. 被引量：1
5杨乐,王新辉,樊龙飞.基于近似信息熵和随机森林的网络安全态势要素提取研究[J].网络安全技术与应用,2022(3):48-49. 被引量：1
6周昕.基于二级模糊综合评判法的网络安全态势评估研究[J].通信电源技术,2021,38(24):11-14.
7陈丹萍.网络时代统计技术的变革及其影响探微[J].科技创新导报,2022,19(3):69-71.
8张云玲.基于HMM的网络安全态势感知研究[J].长治学院学报,2022,39(2):48-53.
9陈颖,段玮靓,杨英,刘喆,张永彬,刘俊飞,李少华.基于三维荧光光谱和GBDT-LR的褐潮藻辨识[J].光学学报,2022,42(12):289-297. 被引量：2
10汤卫东,肖大军,谈林涛,于文娟.机器学习下随机森林算法在电网故障分析指挥系统中的应用[J].计算技术与自动化,2022,41(3):59-63. 被引量：3

1崔宏伟,吴文福,吴子丹,兰天忆,窦建鹏.基于粮温统计特征的粮仓库存状态检测方法[J].农业工程学报,2020,36(2):320-330. 被引量：11
2贾子琪,宋玲.一种面向混合型数据聚类的k-prototypes聚类算法[J].小型微型计算机系统,2020,41(9):1845-1852. 被引量：6
3李瀚波,叶发旺,方茂龙,余长发,杨云汉.基于大数据思维的铀资源样本集合建设方法研究及试验[J].铀矿地质,2020,36(5):401-407. 被引量：3
4李政.职业教育类型属性下的普职融通:特点、使命与行动[J].职教通讯,2020(9):21-25. 被引量：12
5李进,何冉.深度森林在乳腺癌检测中的应用[J].新一代信息技术,2020,3(10):8-13.
6刘翠玲,王少敏,吴静珠,孙晓荣.基于太赫兹时域透射成像技术的葵花籽内部品质无损检测研究[J].光谱学与光谱分析,2020,40(11):3384-3389. 被引量：3
7唐雅娜,董立国,何苏利.机载激光雷达和高光谱技术的遥感监测数据分类[J].激光杂志,2020,41(10):72-76. 被引量：7
8王帷先,孙健东,张瑞新,狐为民,张曌,刘嵘.抛掷爆破爆堆形态的标准化分析处理方法研究[J].煤炭工程,2020,52(10):109-115. 被引量：3

东北大学学报（自然科学版）

2020年第11期

浏览历史

内容加载中请稍等...

一种可用于分类型属性数据的多变量决策树算法被引量：15

参考文献2

二级参考文献11

共引文献15

同被引文献175

引证文献15

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

一种可用于分类型属性数据的多变量决策树算法 被引量：15

参考文献2

二级参考文献11

共引文献15

同被引文献175

引证文献15

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

一种可用于分类型属性数据的多变量决策树算法被引量：15