基于数据集成的随机森林算法被引量：14

Random Forest Algorithm Based on Data Integration

下载PDF

导出

摘要用于销售预测的历史数据存在稀疏性与波动性等特点,当预测周期较长时,传统统计学或者机器学习领域预测算法的预测效果较差。为此,利用随机森林的集成思想与训练数据集的随机分割重组,提出一种基于数据集成的随机森林算法。该算法通过随机重组将原始的一维预测变量重组为高维变量,并将输出求和值作为最终预测值。实验结果表明,与ARIMA、RF、GBDT等传统算法相比,该算法在实际数据集上的预测效果取得显著提高。同时,拓展实验表明数据集成还可应用在ARIMA算法上,使预测准确率提高约3%。 The historical data used for sales forecasting has the characteristics of sparseness and volatility,the traditional statistical or machine learning prediction algorithms for prediction perform poorly when the prediction cycle is long.Therefore,based on the integration idea of Random Forest(RF)and the random partition and reorganization of training data set,this paper proposes a RF algorithm based on data integration.The algorithm reconstructs the original one-dimensional prediction variable into high-dimensional variables by random recombination,and takes the output summation value as the final prediction value.The experimental results show that compared with traditional algorithms including ARIMA,RF and GBDT,the prediction performance of this algorithm on the actual data set has been significantly improved.At the same time,extended experiments show that the data integration can also be applied to ARIMA algorithm,and the prediction accuracy of the algorithm is improved by about 3%.

作者谢坤容钰添胡奉平陈桓姚小龙 XIE Kun;RONG Yutian;HU Fengping;CHEN Huan;YAO Xiaolong(Research and Development Center of Big Data and Blockchain,SF Technology Co.,Ltd.,Shenzhen,Guangdong 518000,China)

机构地区顺丰科技有限公司大数据与区块链研发中心

出处《计算机工程》 CAS CSCD 北大核心 2020年第12期290-298,共9页 Computer Engineering

基金深圳市发展改革委战略性新兴产业发展专项“基于人工智能技术的智慧物流系统研发与产业化项目”。

关键词销量预测时间序列预测机器学习数据集成随机森林 sales forecasting time series prediction machine learning data integration Random Forest(RF)

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1石美娟.ARIMA模型在上海市全社会固定资产投资预测中的应用[J].数理统计与管理,2005,24(1):69-74. 被引量：55
2戴晓枫,肖庆宪.时间序列分析方法及人民币汇率预测的应用研究[J].上海理工大学学报,2005,27(4):341-344. 被引量：46
3费斐,叶枫.决策树算法在团购商品销售预测中的应用[J].计算机系统应用,2013,22(2):133-137. 被引量：4
4王慧健,刘峥,李云,李涛.基于神经网络语言模型的时间序列趋势预测方法[J].计算机工程,2019,45(7):13-19. 被引量：33
5朱家元,段宝君,张恒喜.新型SVM对时间序列预测研究[J].计算机科学,2003,30(8):124-125. 被引量：11
6薛可,李增智,刘浏,宋承谦.基于ARIMA模型的网络流量预测[J].微电子学与计算机,2004,21(7):84-87. 被引量：30
7王玲娣,徐华.一种基于聚类和AdaBoost的自适应集成算法[J].吉林大学学报（理学版）,2018,56(4):917-924. 被引量：4
8杨立洪,白肇强.基于二次组合的特征工程与XGBoost模型的用户行为预测[J].科学技术与工程,2018,18(14):186-189. 被引量：21
9李诒靖,郭海湘,李亚楠,刘晓.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199. 被引量：58
10范竣翔,李琦,朱亚杰,侯俊雄,冯逍.基于RNN的空气污染时空预报模型研究[J].测绘科学,2017,42(7):76-83. 被引量：54

二级参考文献81

1范正绮,王祥云.ARIMA模型在汇率时间数列预测中的应用[J].上海金融,1997(3):28-29. 被引量：6
2桂现才,彭宏,王小华.C4.5算法在保险客户流失分析中的应用[J].计算机工程与应用,2005,41(17):197-199. 被引量：33
3郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
4李强.创建决策树算法的比较研究——ID3,C4.5,C5.0算法的比较[J].甘肃科学学报,2006,18(4):84-87. 被引量：51
5毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
6Vetn Paxson and Sally Floyd. Wide-Area Traffic: The Failure of Poisson Modeling. IEEE ACM Transactions on Networking, 1995, 3 (3): 226-244.
7Wang Shouren, Chen Zhaoguo. Estimation of the order of ARMA model by linear procedures. Chinese Ann. of Math.1985, 6B: 53-70.
8Huang Dawei. Recursive method for ARMA model estimation(I). Acta. Math. Appl. Sinica. 1989, 5: 333-354.
9魏晓云.决策树分类方法研究[J].计算机系统应用,2007,16(9):42-45. 被引量：18
10Gencay R, Tung Liu. Nonlinear Modeling and Prediction with Feedforward and Recurrent Networks. Physica D, 1997,108 : 119-134.

共引文献306

1李冉.基于语义图模型的跨语言网络信息检索方法研究[J].周口师范学院学报,2020(2):100-103. 被引量：3
2崔文泉,余厚莹,侯晓天.不均衡数据情形的基于聚焦损失的CGAN的集成分类方法[J].中国科学技术大学学报,2020,50(7):968-976.
3姜新盈,王舒梵,严涛.基于层次密度聚类的去噪自适应混合采样[J].计算机系统应用,2022,31(10):206-210.
4徐畅,丁俊琦,赵聃桐,乔岩,张领先.基于LightGBM和处方数据的番茄病害诊断方法[J].农业机械学报,2022,53(9):286-294. 被引量：5
5刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91.
6张腾飞,袁鹏程.基于ARIMA的短时交通量预测模型[J].智能计算机与应用,2020(7):273-278. 被引量：3
7蔡晓黎.人民币/美元日汇率收益模型的建立[J].现代经济信息,2008(8):219-220.
8姜蕾,卢菲.ARMA模型在金融机构现金收入中的应用[J].科协论坛（下半月）,2009(12):129-131.
9贾临生,姜鹏,刘星.非线性支持向量机在航空电源系统故障预测中的应用[J].飞机设计,2015,0(6):46-49. 被引量：2
10区诗德,覃思乾.基于60分钟线的ARIMA模型分析日K线走势[J].统计与决策,2005,21(12X):145-146. 被引量：6

同被引文献144

1郑浦,白宏阳,李政茂,郭宏伟.抖动干扰下运动目标精准检测与跟踪算法设计[J].仪器仪表学报,2019,40(11):90-98. 被引量：19
2汪芸芳,史意,陈丽华.基于BP神经网络及灰色GM(1,1)模型的服装供应链第三方库存预测应用研究[J].数学的实践与认识,2020,0(3):277-285. 被引量：11
3汪辉,高尚兵,周君,周建,张莉雯.基于YOLOv3的多车道车流量统计及车辆跟踪方法[J].国外电子测量技术,2020,39(2):42-46. 被引量：15
4万艳敏,陈胜,戴淑娇.基于时间序列和PERT的服装销售预测方法研究[J].丝绸,2006,43(11):60-63. 被引量：16
5林绍森,唐永金.三种模型对我国粮食产量预测效果的比较[J].统计与决策,2007,23(7):39-40. 被引量：14
6王晓梅.灰色理论GM(1,1)模型在我国畜产品产量预测中的应用[J].安徽农业科学,2007,35(1):7-8. 被引量：8
7刘峰,王儒敬,李传席.ARIMA模型在农产品价格预测中的应用[J].计算机工程与应用,2009,45(25):238-239. 被引量：70
8武松林,崔荣一.基于PCA的坐姿行为识别[J].计算机应用研究,2010,27(7):2786-2788. 被引量：3
9李志强,白文斌,张亚丽,张晋.基于ARIMA模型的内蒙古羊产业分析与预测[J].山西农业科学,2011,39(7):729-732. 被引量：6
10宋仙磊,刘业政,陈思凤.基于周期项方法选择的季节性时序预测[J].计算机工程,2011,37(21):131-132. 被引量：4

引证文献14

1陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀.融合机器学习算法和多因素的禽肉交易量预测方法研究[J].数据分析与知识发现,2020,4(7):18-27. 被引量：3
2丰婧,程耀瑜,贺磊.基于PHOG特征的坐姿识别方法研究[J].国外电子测量技术,2021,40(5):83-87. 被引量：6
3焦笑,任春华,司佳顺.小样本下目标特征细分加权的汽车需求量预测[J].现代计算机,2021,27(23):36-42.
4方伟,朱润苏.基于时空相似LSTM的空气质量预测模型[J].计算机应用研究,2021,38(9):2640-2645. 被引量：9
5张倩,任春华,高雪芹,王波.基于汽车价值链业务协同资源的整车需求量预测模型[J].现代计算机,2021,27(25):26-30. 被引量：1
6冯华伟.基于深度神经网络的异常财务数据识别方法[J].电子设计工程,2022,30(10):31-35. 被引量：6
7蔡欣雨,冯翔,虞慧群.自适应权重的级联增强节点的宽度学习算法[J].计算机科学,2022,49(6):134-141. 被引量：3
8周鑫,李宝树,王涵.基于大数据集成算法的多终端接入模式自动化识别模型[J].计算技术与自动化,2022,41(2):34-39.
9张乐,冷基栋,吕学强,田驰,姜阳,李果林.EgoSF:基于区块链的食品安全数据监管集成模型[J].食品工业,2022,43(3):195-200. 被引量：1
10周杨,王春林,郭锐.基于随机森林算法的数据中心运维异常告警方法[J].现代电子技术,2023,46(8):143-148. 被引量：7

二级引证文献36

1马禹昂,王莉,赵富.基于ConvLSTM与U-Net的PM_(2.5)浓度预测方法研究[J].环境工程,2023,41(S02):1300-1304. 被引量：1
2薛阳,张舒翔,贾巍,秦瑶.基于改进Faster RCNN的电缆外护套破损检测[J].电子测量技术,2023,46(15):158-164.
3塔兰特.爱普生Photo PC—850Z数码相机[J].摄影世界,2000(6):30-31.
4柴国荣,王斌,沙勇忠.基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例[J].数据分析与知识发现,2021,5(1):90-98. 被引量：3
5高瑜璋,乔铁柱,车剑.矿用输送带纵向撕裂视听融合检测方法[J].电子测量技术,2022,45(7):131-136. 被引量：1
6张银环.基于IA-Net的人体行为识别方法[J].国外电子测量技术,2022,41(6):52-59. 被引量：1
7朱惠,冯玉.基于多价值链协同资源的配件价格预测模型[J].信息与电脑,2022,34(10):35-37.
8卢金龙.自适应梯度下降算法在金融机构交易量预测中的应用[J].信息技术与信息化,2022(12):100-103.
9朱菊香,谷卫,罗丹悦,潘斐,张赵良.基于CEEMD-ISSA-LSTM的空气质量预测[J].国外电子测量技术,2022,41(11):120-129.
10刘然,程曼.基于多传感信息融合的高校智慧食堂食品溯源系统设计[J].信息与电脑,2023,35(2):117-119.

1陈玲.统计学在大数据领域发展思考[J].经济与社会发展研究,2020(29):0231-0231.
2张红星.大数据时代对传统统计学变革的思考[J].经济与社会发展研究,2020(29):0080-0080.
3康凌.变动成本法在企业中的探析[J].财讯,2020(7):101-102.
4杨潇伟.大数据对高职统计学教学的影响[J].经济师,2020(11):207-207. 被引量：3
5李欣颖,徐恺英,张响,孟盈.基于情感视角的国内外在线评论研究动态及发展趋势研究[J].情报科学,2020,38(11):148-154. 被引量：7
6杨牧,杨江骅,王辉敏,蒋志强,刘懿.梯级蓄能调度图绘制及其调度线出力系数优化研究[J].中国农村水利水电,2020(11):166-173. 被引量：2
7周正雄,夏向阳,朱鹏,李明德,黄海,陈善求,夏君山,王瑞琪.高压电缆早期间歇性电弧接地故障识别方法[J].中国电力,2020,53(12):167-176. 被引量：13

计算机工程

2020年第12期

浏览历史

内容加载中请稍等...

基于数据集成的随机森林算法被引量：14

参考文献10

二级参考文献81

共引文献306

同被引文献144

引证文献14

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于数据集成的随机森林算法 被引量：14

参考文献10

二级参考文献81

共引文献306

同被引文献144

引证文献14

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于数据集成的随机森林算法被引量：14