分级式代价敏感决策树及其在手机换机预测中的应用被引量：5

Hierarchical cost sensitive decision tree and its application in the prediction of the mobile phone replacement

导出

摘要在手机用户数据集中,非换机用户和换机用户存在着严重的不平衡,传统的数据挖掘方法在处理不平衡数据时追求整体正确率,导致换机用户的预测精度较低。针对这一问题,提出一种基于分级式代价敏感决策树的换机预测方法。首先利用粗糙集对原始数据集进行属性约简并计算各属性的重要度,然后根据属性重要度对属性分块建立分级结构,最后以基尼系数和误分代价为分裂标准构建代价敏感决策树,作为每一级的基分类器。对某电信运营商客户数据进行3个仿真试验,结果表明:分级式代价敏感决策树在原始的不平衡用户数据集及欠抽样处理后的平衡用户数据集上都有较好的结果。 In the data of mobile phone users,imbalance problem existed between the replacement users and non replacement users,how ever traditional date mining pursued the best overall accuracy which led the prediction accuracy of the replacement users overly low. In order to solve this problem,a method of predicting the users who replace phone was proposed based on hierarchical cost sensitive decision tree. The algorithm realized attributes reduction and calculated the importance of attributes by rough set,then a hierarchical structure was built by parting the attributes; finally a cost sensitive decision tree was regarded as the base classifier for the hierarchical structure,the decision tree was constructed with its splitting criterion which included gini index and misclassification cost. Three experiments were made for the users data which from a telecom operator,the results showed that the hierarchical cost sensitive decision tree achieved a better effect on the imbalance user data and balance user data which obtained by under sampling.

作者熊冰妍王国胤邓维斌

机构地区重庆邮电大学计算智能重庆市重点实验室

出处《山东大学学报（工学版）》 CAS 北大核心 2015年第5期36-42,共7页 Journal of Shandong University（Engineering Science）

基金国家自然科学基金资助项目(61272060) 重庆市自然科学基金资助项目(cstc2012jjA40032 cstc2013jcyjA40063) 重庆市/信息产业部计算机网络与通信技术重点实验室开放基金资助项目(CY-CNCL-2010-05)

关键词分级结构决策树代价敏感不平衡数据换机预测 hierarchical structure decision tree cost sensitive imbalance data prediction of replacing phone

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1BATISTA G E, PRATI R C, MONARD M C. A study of the behavior of several methods for balancing machine learning training data[J]. ACM Sigkdd Explorations Newsletter, 2004, 6(1):20-29.
2KOTSIANTIS S B, PINTELAS P E. Mixture of expert agents for handling imbalanced data sets[J]. Annals of Mathematics, Computing & Teleinformatics, 2003, 1(1):46-55.
3CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1):321-357.
4HAN H, WANG W Y, MAO B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[J]. Computer Science, 2005, 3644:878-887.
5GARCIA S, HERRERA F. Evolutionary under sampling for classification with imbalanced data sets: proposals and taxonomy[J]. Evolutionary Computation, 2009, 17(3):275-306.
6YEN S J, LEE Y S. Cluster-based under-sampling approaches for imbalanced data distributions[J]. Expert Systems with Applications, 2009, 36(3):5718-5727.
7WU J, XIONG H, WU P, et al. Local decomposition for rare class analysis[J]. Kdd, 2007, 20(2):191-220.
8BLASZCZYNSKI J, STEFANOWSKI J. Neighbourhood sampling in bagging for imbalanced data[J]. Neurocomputing, 2015, 150:529-542.
9KAI M T. An instance-weighting method to induce cost-sensitive trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2002, 14(3):659-665.
10ZHANG S. Decision tree classifiers sensitive to heterogeneous costs[J]. Journal of Systems and Software, 2012, 85(4):771-779.

二级参考文献64

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2Kotsiantis S,Kanellopoulos D,Pintelas P.Handling Imbalanced Datasets:A Review.GESTS International Trans on Computer Science and Engineering,2006,30(1):25-36.
3Burez J,van den Poel D.Handling Class Imbalance in Customer Churn Prediction.Expert Systems with Applications,2009,36(3):4626-4636.
4Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Synthetic Minority Over-Sampling Technique.Journal of Artificial Intelligence Research,2002,16(1):321-357.
5Han Hui,Wang Wenyuan,Mao Binghuan.Borderline-SMOTE:A New Over-Sampling Method in Imbalanced Data Sets Learning // Proc of the International Conference on Intelligent Computing.Hefei,China,2005:878-887.
6Guo Hongyu,Viktor H L.Learning from Imbalanced Data Sets with Boosting and Data Generation:the DataBoost-IM Approach.ACM SIGKDD Explorations Newsletter,2004,6(1):30-39.
7Chawla N V,Lazarevic A,Hall L O,et al.SMOTEBoost:Improving Prediction of the Minority Class in Boosting // Proc of the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases.Dubrovnik,Croatia,2003:107-119.
8Garcìa S,Herrera F.Evolutionary Undersampling for Classification with Imbalanced Datasets:Proposals and Taxonomy.Evolutionary Computation,2009,17(3):275-306.
9Joshi M V,Kumar V,Agarwal R.Evaluating Boosting Algorithms to Classify Rare Classes:Comparison and Improvements // Proc of the 1st IEEE International Conference on Data Mining.San Jose,USA,2001:257-264.
10Cieslak D A,Chawla N V.Learning Decision Trees for Unbalanced Data // Proc of the European Conference on Machine Learning and Knowledge Discovery in Databases.Antwerp,Belgium,2008:241-256.

共引文献37

1董振兴,李荣,陈龙.一种基于主动学习和TCM-EKNN的邮件过滤方法[J].重庆邮电大学学报（自然科学版）,2011,23(1):85-90.
2王晓娟.一种改进的SMOTE过采样方法[J].福建电脑,2011,27(6):145-146.
3孙晓燕,张化祥,计华.基于AdaBoost的欠抽样集成学习算法[J].山东大学学报（工学版）,2011,41(4):91-94. 被引量：2
4王晓娟,郭躬德.不平衡数据采样方法的对比学习[J].微计算机信息,2011,27(12):155-157. 被引量：4
5黄丽萍,余翀翀.基于分集群的欠采样数据分类方法[J].科技信息,2012(7):201-201.
6王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
7楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
8骆自超,金隼,邱雪峰.考虑类内不平衡的谱聚类过抽样方法[J].计算机工程与应用,2014,50(11):120-125. 被引量：3
9黄剑文,严宇平.基于聚类集成的用户负荷模式识别[J].计算机应用与软件,2014,31(12):237-241. 被引量：4
10霍玉丹,谷琼,蔡之华,袁磊.基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J].计算机应用,2015,35(1):121-124. 被引量：19

同被引文献12

1夏国恩,金炜东.基于支持向量机的客户流失预测模型[J].系统工程理论与实践,2008,28(1):71-77. 被引量：71
2刘传武,张智军,毕笃彦.雷达目标自动识别系统的拒识新算法[J].系统工程与电子技术,2009,31(8):1846-1850. 被引量：2
3黄垚,刘思颂,孔瑞.基于支持向量机的嵌入拒识代价的手写字符识别研究[J].电子质量,2011(4):5-7. 被引量：1
4郑恩辉,徐欢,孙坚,王凌,陆慧娟,李平.嵌入非对称拒识代价的二元分类算法[J].控制与决策,2013,28(6):855-860. 被引量：1
5胡小生,钟勇.基于加权聚类质心的SVM不平衡分类方法[J].智能系统学报,2013,8(3):261-265. 被引量：4
6刘力凯,王国胤,邓维斌.优势关系粗糙集的移动用户换机预测方法[J].小型微型计算机系统,2015,36(8):1789-1794. 被引量：11
7包志强,崔妍.电信客户欠费模型评估[J].西安邮电大学学报,2015,20(4):97-101. 被引量：6
8薛一哲,王拓.基于代价敏感Adaboost目标跟踪[J].中国图象图形学报,2016,21(5):544-555. 被引量：6
9刘畅.基于Cox回归模型的用户终端换机研究[J].电子科学技术,2016,3(4):418-421. 被引量：4
10卢光跃,王航龙,李创创,赵宇翔,李四维.基于改进的K近邻和支持向量机客户流失预测[J].西安邮电大学学报,2018,23(2):1-6. 被引量：7

引证文献5

1赵振冲,王晓丹.引入拒识的最小风险弹道目标识别[J].西安交通大学学报,2018,52(4):132-138. 被引量：1
2符静,张治中,陈粤龙.移动互联网用户终端换机预测的研究与实现[J].计算机应用研究,2019,36(4):1093-1096. 被引量：4
3卢光跃,吴洋,吕少卿,闫真光.基于聚类分析和XGBoost算法的换机预测模型[J].西安邮电大学学报,2019,24(2):94-97. 被引量：7
4陈纬奇,王敬昌,陈岭,杨勇勤,吴勇.基于深度神经网络的多因素感知终端换机预测模型[J].浙江大学学报（工学版）,2021,55(1):109-115. 被引量：5
5吴崇明,王晓丹,赵振冲.一种新的代价敏感SVDD二类分类方法[J].计算机科学,2023,50(S01):137-141.

二级引证文献16

1刘文建,邓思胜,丁华祥,陈敬,贺喜.基于CORS位置云服务的高并发技术研究[J].全球定位系统,2018,43(4):67-72. 被引量：6
2刘沅杰.场景驱动的潜在换机客户模型[J].中国高新科技,2019,0(16):34-36. 被引量：1
3王曙燕,张振豪,孙家泽.基于多样性感知图的测试用例优先排序[J].西安邮电大学学报,2019,24(6):70-74.
4王曙燕,张振豪,孙家泽.一种覆盖数据压缩的测试用例优先排序[J].西安邮电大学学报,2020,25(3):82-87.
5焦玉清,张勇,刘运.基于可变距与可变频策略的终端换机模型[J].忻州师范学院学报,2021,37(2):32-40.
6郝蕊,王猛,李娜.基于XGBoost算法的医院档案管控系统设计[J].电子设计工程,2021,29(14):47-50.
7程幸生.一种基于大数据挖掘的用户终端换机推荐模型[J].长江信息通信,2021,34(6):223-225.
8赵迪,刘晨.基于XGBoost算法的配电网通信隐私信息脱敏研究[J].电子设计工程,2021,29(18):157-160. 被引量：3
9贺双柒,翟亮亮.基于多Agent的HRMS终端用户大数据信息获取模型[J].信息技术,2021,45(9):155-159. 被引量：7
10向前,王晓丹,宋亚飞,李睿,来杰,张国令.基于代价敏感剪枝卷积神经网络的弹道目标识别[J].北京航空航天大学学报,2021,47(11):2387-2398. 被引量：2

1刘广瑞,刘又午.柔性臂关节位置滑模变结构控制研究[J].郑州大学学报（理学版）,2003,35(4):58-62. 被引量：1
2彭应龙,许瑛,梁静强,张仲宇.基于AT89S52的移动机器人控制系统设计[J].南昌航空工业学院学报,2006,20(4):64-67. 被引量：2
3李冰清,冯秀芳,李祝平.一种故障诊断方法的改进[J].太原理工大学学报,2005,36(2):207-210.
4王维,杨宇,吴清烈.结合信任和相似度的随机游走推荐算法[J].工业工程,2016,19(3):65-70.
5薛岩.内联网全面管理的技术实现[J].华南金融电脑,2003,11(2):90-90.
6常广炎.图书馆数字资源存储与备份[J].软件导刊,2015,14(11):137-138. 被引量：2
7周涛,徐红兵,毛洪卫.基于G2的数据融合与目标识别系统[J].现代电子技术,2006,29(22):37-40. 被引量：1
8程艾芝.无线Ad hoc网络的现状研究[J].微处理机,2005,26(6):28-30. 被引量：6
9薛建生,于忠臣,黄磊,赵巍.物联网海量数据的分布式存储算法[J].小型微型计算机系统,2013,34(9):2081-2084. 被引量：8
10李磊,韩卫,崔岷,郭凤桐.层连分级式并行推理架构[J].科学技术与工程,2006,6(17):2762-2765.

山东大学学报（工学版）

2015年第5期

浏览历史

内容加载中请稍等...

分级式代价敏感决策树及其在手机换机预测中的应用被引量：5

参考文献19

二级参考文献64

共引文献37

同被引文献12

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

分级式代价敏感决策树及其在手机换机预测中的应用 被引量：5

参考文献19

二级参考文献64

共引文献37

同被引文献12

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

分级式代价敏感决策树及其在手机换机预测中的应用被引量：5