基于有效特征选择的高价值移动通信用户预测方法被引量：5

Prediction for high-value mobile communication users based on efficient feature selection

下载PDF

导出

摘要高价值移动通信用户预测是电信客户关系管理中的一项重要内容。针对建立预测模型时遇到的高维、大规模、类不平衡等数据处理问题,提出了一种基于有效特征选择的预测方法。利用欠采样方式从初始不平衡数据集提取多个平衡训练集,使用结合Pearson相关性分析和随机森林特征重要性评估的特征选择策略,在集成学习方法中嵌入加权和投票机制获得最优的特征子集,最后采用随机森林算法建立预测模型。实验结果表明,该预测模型可以有效降低特征集的维度并提升对高价值移动通信用户的预测性能。 The prediction of high-value mobile communication user is an important part of telecom cus-tomer relationship management. This paper proposed a predicting method based on efficient feature selection to solve such problems as high dimension, large scale and imbalanced classes in data process-ing. With balanced training sets extracted from an initial imbalanced dataset using under-sampling,afeature selection strategy based on Pearson correlation analysis and random forest method assessing the feature＇s importance was applied and the best feature subset was selected by embedding weighted and voting mechanism in the ensemble learning method. The final prediction model was built by ran-dom forest algorithm. Experimental results show that the proposed model not only reduces the di-mension of feature set efficiently , but also improves its prediction performance for high -value mobile communication users.

作者余自林张晓龙

机构地区武汉科技大学计算机科学与技术学院武汉科技大学智能信息处理与实时工业系统湖北省重点实验室

出处《武汉科技大学学报》 CAS 北大核心 2017年第2期149-154,共6页 Journal of Wuhan University of Science and Technology

基金国家自然科学基金资助项目(60975031)

关键词移动通信用户不平衡数据集特征选择 Pearson相关分析随机森林预测模型 mobile communication user imbalanced dataset feature selection Pearson correlation analysis random forest prediction model

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1吴春旭,鲍满园,苟清龙.自组织映射聚类算法在电信客户细分中的应用[J].计算机系统应用,2010,19(8):168-172. 被引量：7
2丁君美,刘贵全,李慧.改进随机森林算法在电信业客户流失预测中的应用[J].模式识别与人工智能,2015,28(11):1041-1049. 被引量：32
3徐峻岭,周毓明,陈林,徐宝文.基于互信息的无监督特征选择[J].计算机研究与发展,2012,49(2):372-382. 被引量：70
4李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报（工学版）,2011,41(3):7-11. 被引量：5
5尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报（自然科学版）,2014,53(5):59-65. 被引量：33
6姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：250
7王正鹏,谢志鹏,邱培超.语义关系相似度计算中的数据标准化方法比较[J].计算机工程,2012,38(10):38-40. 被引量：16
8陶晓玲,韦毅,孔德艳,张哲.基于本体的网络流量分类方法[J].计算机工程与设计,2016,37(1):31-36. 被引量：4
9苗煜飞,张霄宏.决策树C4.5算法的优化与应用[J].计算机工程与应用,2015,51(13):255-258. 被引量：33

二级参考文献125

1刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
2林盛,肖旭.基于RFM的电信客户市场细分方法[J].哈尔滨工业大学学报,2006,38(5):758-760. 被引量：42
3杨占华,杨燕.SOM神经网络算法的研究与进展[J].计算机工程,2006,32(16):201-202. 被引量：78
4Chen YL.Kuo MH,Wu SY,Tang K.Discovering recency,frequency,and monetary(RFM)sequential patterns from customers'purchasing data.Electronic Commerce Research and Applications,2009(8):241-251.
5Kohonen T.Self-organized formation of topologically correct feature maps,Biological Cybernetics,1982,43(1):59-69.
6Budayan C,Dikmen I,Birgonul MT.Comparing the performance of traditional cluster analysis,self-organizing maps and fuzzy C-means method for strategic grouping.Expert Systerms With Applications,2009,36:11772-11781.
7YOON K, KWEK S. A data reduction approach for resolving the imbalanced data issue in functional genomics [ J ]. Neural Comput & Applic, 2007 (16) :295-306.
8ZHENG Zhaohui, WU Xiaoyun, ROHINI Srihari. Feature selection for text categorization on imbalanced data [J]. SIGKDD Explorations, 2004, 6( 1 ) :80-89.
9JIANG Shengyi, WANG Lianxi. Unsupervised feature selection based on clustering [ C ]//Proceedings of IEEE Fifth International Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA). Changsha: IEEE, 2010: 263-270.
10YU L, LIU H. Efficient feature selection via analysis of relevance and redundancy [J]. Journal of Machine Learning Research, 2004, 5 : 1205-1224.

共引文献431

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：3
2郑睿程,顾洁,金之俭,彭虹桥,蔡珑.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500. 被引量：41
3盛晓欣,田翔华,周毅.基于随机森林癫痫患者脑电数据的分析研究[J].中国数字医学,2020,15(1):41-43.
4杨仙保,张王菲,孙斌,高志海,李毅夫,王晗.基于GEE和Sentinel-2时序数据的呼伦贝尔沙地及其周边植被类型识别研究[J].遥感技术与应用,2022,37(4):982-992. 被引量：3
5田之魁,王东军,李生启,关媛媛,孙璇,朱青青,王泓午.一种糖尿病足Wagner分级的舌图像识别方法[J].世界科学技术-中医药现代化,2023,25(4):1442-1446. 被引量：2
6张王菲,文哲,张亚红,张庭苇,李云.Stokes参数在油菜长势监测中的可行性分析[J].武汉大学学报（信息科学版）,2020,45(2):242-249. 被引量：2
7伟利国,袁玉龙,董鑫,周达,汪雅琦,陈文科.拖挂式大载荷特种车辆导航控制系统设计与试验[J].农业机械学报,2022,53(S01):324-331. 被引量：2
8郭裕祺,朱大令,何心.基于自编码器的调压器在线故障诊断方法[J].煤气与热力,2020,0(1):20-23. 被引量：3
9秦硕,吴文林,何萌,候智强,韦永金.补偿模糊神经网络在埋地管道重构的应用[J].煤气与热力,2020,40(1):1-5.
10付华,韩冰,崔鹏,孟祥云.能量特性与随机森林的孤岛辨识模型[J].辽宁工程技术大学学报（自然科学版）,2021,40(1):41-47. 被引量：1

同被引文献52

1王莉,赵渊,杨显明,马建民,黄韬,高宏.基于时间序列模型与残差控制图的兰州市空气质量研究[J].高原气象,2015,34(1):230-236. 被引量：12
2姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：250
3郭雨萌,李国正.一种多标记数据的过滤式特征选择框架[J].智能系统学报,2014,9(3):292-297. 被引量：7
4韩敏,任伟杰,许美玲.一种基于L_1范数正则化的回声状态网络[J].自动化学报,2014,40(11):2428-2435. 被引量：13
5沈劲,钟流举,何芳芳,陈多宏.基于聚类与多元回归的空气质量预报模型开发[J].环境科学与技术,2015,38(2):63-66. 被引量：41
6胡玉筱,段显明.基于高斯烟羽和多元线性回归模型的PM_(2.5)扩散和预测研究[J].干旱区资源与环境,2015,29(6):86-92. 被引量：21
7谢永华,张鸣敏,杨乐,张恒德.基于支持向量机回归的城市PM_(2.5)浓度预测[J].计算机工程与设计,2015,36(11):3106-3111. 被引量：27
8韦炜,全渝娟,卓奕涛,陈学亮,林艳.基于多阶马尔可夫预测的个性化推荐算法[J].计算机工程,2015,41(11):59-66. 被引量：9
9于岩,陈鸿昶,于洪涛.基于RBF神经网络的微博用户兴趣预测模型[J].计算机应用研究,2015,32(12):3555-3559. 被引量：9
10谢超,马民涛,于肖肖.多种神经网络在华北西部区域城市空气质量预测中的应用[J].环境工程学报,2015,9(12):6005-6009. 被引量：15

引证文献5

1孙少叶,温晓光.互联网下零售电子商务用户浏览优化预测[J].计算机仿真,2018,35(6):412-416.
2王小文.基于改进特征选择法的移动通信网络流量异常监测系统[J].平顶山学院学报,2019,34(5):44-47.
3蒋洪迅,田嘉,孙彩虹.面向PM2.5预测的递归随机森林与多层神经网络集成模型[J].系统工程,2020,38(5):14-24. 被引量：8
4王冬,曲媛,刘玉航,朱习军.基于优化随机森林算法的乳腺癌分类诊断[J].计算机工程与设计,2022,43(3):706-712. 被引量：9
5陈月,陈宇,徐维华,张镇驿,郭华.高价值居民区用户感知速率提升方法研究[J].信息记录材料,2022,23(3):196-199.

二级引证文献17

1李亚娇,赵艺伟,鞠恺,唐仁龙,李龙清,邵小平,张高锋,任武昂.基于响应面法的粉煤灰氨含量测定过程浸提条件优化研究[J].无机盐工业,2022,54(4):145-151. 被引量：5
2周文泳,冯丽霞,段春艳.基于不平衡数据的公司破产预测研究[J].同济大学学报（自然科学版）,2022,50(2):283-290. 被引量：3
3陆秋琴,白静飞,黄光球.基于多源数据融合的区域VOCs浓度预测方法研究[J].安全与环境学报,2022,22(4):2270-2279. 被引量：6
4范晓东,张亚萍,冯睿哲,王硕,王勇皓.基于机器学习的C4烯烃收率的回归分析[J].科学技术创新,2022(30):193-196.
5钟晓君,张强,秦国政.随机森林在男性不育症证候学研究中的应用[J].现代医院,2022,22(10):1626-1628.
6沈斌,靳春博,刘新蕾.基于随机森林的气体传感器检测分类方法[J].黑龙江科技大学学报,2022,32(6):711-715. 被引量：2
7刘金培,陈丽娟,汪漂,陈华友.基于MEMD和空间层次聚类的PM2.5三角模糊序列多因子组合预测[J].控制与决策,2023,38(2):537-545. 被引量：1
8郭智刚,申宗,江楠,闫立冰,冯健洧.基于随机森林和优化GRU算法的柴油机NOx预测[J].汽车实用技术,2023,48(8):101-106. 被引量：2
9高晓辉,周坤,李廉水.基于XGBOOST和ELM的混合空气质量预警系统:以南京为例[J].中国管理科学,2023,31(5):269-278. 被引量：7
10冯欣,张航,辛瑞昊.基于Lasso特征选择乳腺癌二分类算法研究[J].吉林化工学院学报,2023,40(1):23-28.

1马磊.基于核心网数据挖掘的移动通信用户行为分析及应用[J].信息系统工程,2017,30(3):23-23. 被引量：2
2曾志芳,钟亦平,张世永.基于第三代移动通信技术的互联网[J].计算机科学,2002,29(3):14-15. 被引量：3
3李红梅.基于MATLAB的分析模型在移动通信用户预测分析中的应用[J].黑龙江科技信息,2009(2):7-7. 被引量：1
4袁楚.中国互联网的力量与信心[J].互联网天地,2009(10):34-35.
5朱岩.移动通信用户欠费预警系统设计与实现[J].计算机光盘软件与应用,2013,16(23):287-288.
6刘英,高锁军.数据挖掘在电信客户关系管理中的应用[J].计算机光盘软件与应用,2014,17(10):293-294.
7孙睿,罗万伯.网络舆论中节点重要性评估方法综述[J].计算机应用研究,2012,29(10):3606-3608. 被引量：21
8甄仲强.大数据分析在移动通信网络优化中的应用[J].工程建设与设计,2017(1):173-174. 被引量：36
9李恺,刘义铭.智能手机的病毒风险浅析[J].信息安全与通信保密,2009(8):162-164. 被引量：4
10杜翠凤,陈少权.基于社交网络和地理位置的用户关系预测[J].移动通信,2017,41(8):21-23. 被引量：1

武汉科技大学学报

2017年第2期

浏览历史

内容加载中请稍等...

基于有效特征选择的高价值移动通信用户预测方法被引量：5

参考文献9

二级参考文献125

共引文献431

同被引文献52

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于有效特征选择的高价值移动通信用户预测方法 被引量：5

参考文献9

二级参考文献125

共引文献431

同被引文献52

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于有效特征选择的高价值移动通信用户预测方法被引量：5