基于随机森林和投票机制的大数据样例选择算法被引量：7

Instance selection algorithm for big data based on random forest and voting mechanism

下载PDF

导出

摘要针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。 To deal with the problem of instance selection for big data,an instance selection algorithm based on Random Forest(RF)and voting mechanism was proposed for big data.Firstly,a dataset of big data was divided into two subsets:the first subset is large and the second subset is small or medium.Then,the first large subset was divided into q smaller subsets,and these subsets were deployed to q cloud computing nodes,and the second small or medium subset was broadcast to q cloud computing nodes.Next,the local data subsets at different nodes were used to train the random forest,and the random forest was used to select instances from the second small or medium subset.The selected instances at different nodes were merged to obtain the subset of selected instances of this time.The above process was repeated p times,and p subsets of selected instances were obtained.Finally,these p subsets were used for voting to obtain the final selected instance set.The proposed algorithm was implemented on two big data platforms Hadoop and Spark,and the implementation mechanisms of these two big data platforms were compared.In addition,the comparison between the proposed algorithm with the Condensed Nearest Neighbor(CNN)algorithm and the Reduced Nearest Neighbor(RNN)algorithm was performed on 6 large datasets.Experimental results show that compared with these two algorithms,the proposed algorithm has higher test accuracy and smaller time consumption when the dataset is larger.It is proved that the proposed algorithm has good generalization ability and high operational efficiency in big data processing,and can effectively solve the problem of big data instance selection.

作者周翔翟俊海黄雅婕申瑞彩侯璎真 ZHOU Xiang;ZHAI Junhai;HUANG Yajie;SHEN Ruicai;HOU Yingzhen(College of Mathematics and Information Science,Hebei University,Baoding Hebei 071002,China;Hebei Key Laboratory of Machine Learning and Computational Intelligence(Hebei University),Baoding Hebei 071002,China)

机构地区河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室(河北大学)

出处《计算机应用》 CSCD 北大核心 2021年第1期74-80,共7页 journal of Computer Applications

基金河北省重点研发计划项目(19210310D) 河北大学研究生创新资助项目(hbu2020ss045)。

关键词大数据样例选择决策树随机森林投票机制 big data instance selection decision tree Random Forest(RF) voting mechanism

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献89

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：79
2熊景华,茹璟.基于随机森林算法和模糊信息粒化的汇率预测组合模型研究[J].数量经济技术经济研究,2021,38(1):135-156. 被引量：14
3Zhenghui Luo,Rui Sun,Cheng Zhong,Tao Liu,Guangye Zhang,Yang Zou,Xuechen Jiao,Jie Min,Chuluo Yang.Altering alkyl-chains branching positions for boosting the performance of small-molecule acceptors for highly efficient nonfullerene organic solar cells[J].Science China Chemistry,2020,63(3):361-369. 被引量：7
4杨泉,冯志伟.机用现代汉语“n+n”结构歧义研究[J].语言研究,2005,25(4):105-111. 被引量：10
5李世奇,赵铁军,李晗静,刘鹏远,刘水.基于特征组合的中文语义角色标注[J].软件学报,2011,22(2):222-232. 被引量：14
6刘志杰,吕学强,程涛.搜索引擎日志中“N_1+N_2”型名词短语研究[J].现代图书情报技术,2010(12):58-63. 被引量：9
7倪廓阔,吕学强,韩艳铧,王涛.搜索引擎中“N1+N2”型短语查询优化研究[J].计算机应用与软件,2012,29(9):117-121. 被引量：5
8武彤,程辉.用遗传算法改进的BP神经网络剪枝算法来优化决策树模型[J].计算机科学,2013,40(11A):278-280. 被引量：7
9范李平,张晓辉,苏伟.基于大数据挖掘的变电设备故障预警研究及应用[J].电力大数据,2019,22(1):1-7. 被引量：35
10梁栋,张凤琴,陈大武,李小青,王梦非.一种基于决策树和遗传算法-BP神经网络的组合预测模型[J].中国科技论文,2015,10(2):169-174. 被引量：22

引证文献7

1吴国万.基于大数据的智慧灌溉系统构建研究[J].自动化与仪器仪表,2021(2):148-152. 被引量：8
2杨泉.基于随机森林的N1+N2结构语法关系判定方法研究[J].重庆理工大学学报（自然科学）,2021,35(7):125-130. 被引量：5
3李偲希,白全生,舒畅,肖祥武.基于spark平台的供电煤耗并行回归预测[J].电力大数据,2021,24(11):85-92. 被引量：1
4乔健,诸佳慧,严康桓.基于随机森林CART特征选择改进算法的电信客户流失预测模型[J].电信工程技术与标准化,2022,35(3):78-82. 被引量：9
5崔铭浩,张仁博,郭恩铭.基于多模式特征聚合的未来商业预测[J].计算机系统应用,2023,32(2):25-33. 被引量：1
6刘卫明,陈伟达,毛伊敏,陈志刚.结合增益率与堆叠自编码器的并行随机森林算法[J].计算机应用研究,2023,40(3):750-759.
7牛保民,行久红.基于网格技术的大数据样例选择算法研究[J].信息与电脑,2023,35(8):114-116.

二级引证文献24

1安鑫丽,施春艳.安阳市现代农业高质量发展研究[J].山西农经,2021(9):156-158. 被引量：1
2杨甘露.基于IOT和GA-Elman的农田智慧灌溉控制系统研究[J].水利规划与设计,2021(8):83-85. 被引量：8
3牟晓燕,吴自涛.绿色发展理念视角下智慧农业发展的基本目标、关键问题实现路径[J].科学管理研究,2021,39(4):131-136. 被引量：16
4俞武,薛梦瑶,何斌,马金萍,杜子龙.面向中小型企业的废水排放水质监测模型研究[J].湖北农业科学,2022,61(10):74-79.
5谢禄江,蒋荣,皮羽茜,何轶,廖勇.联合RF-BP-LR的电力客户电费拖欠混合风险预警算法[J].重庆理工大学学报（自然科学）,2022,36(5):250-258. 被引量：2
6胡艳羽,赵龙,董祥军.一种用于癌症分类的两阶段深度特征选择提取算法[J].计算机科学,2022,49(7):73-78.
7刘译锴.智慧灌溉在现代农业节水技术中的应用[J].集成电路应用,2022,39(5):283-285. 被引量：2
8耿浦洋,施少培,郭弘,卞新伟,卢启萌,曾锦华.声纹鉴定中嗓音音质的声学界标初探——基于随机森林和决策树模型的研究[J].中国司法鉴定,2022(4):54-59.
9车维崧,祁静,白文其.基于随机森林及地理围栏的千兆宽带用户规模预测[J].现代信息科技,2023,7(1):61-63. 被引量：1
10于明鑫,郑雅匀.基于神经网络算法的电信客户流失预测[J].现代信息科技,2023,7(2):30-33. 被引量：1

1郑红,叶成,金永红,程云辉.基于Stacking集成学习的流失用户预测方法[J].应用科学学报,2020,38(6):944-954. 被引量：11
2冯倩倩,周伟刚,陈仕军.动态围堵嫌犯模型[J].复杂系统与复杂性科学,2021,18(1):48-52.
3耿韩,程格格,应沛然,李鹏.高温液态沥青表面张力测试及影响因素分析[J].建筑材料学报,2020,23(6):1512-1517. 被引量：1
4班国庆.基于栅格数据的最短路径分析[J].经纬天地,2020(6):83-86. 被引量：2
5冯进宝,武锦辉,王高,靳孝峰.基于双测试法的高精度智能爆速仪设计及应用[J].国外电子测量技术,2020,39(11):17-20.
6胡洋,喻春,周进.整车天线近场测试方法[J].电子技术与软件工程,2020(21):1-4. 被引量：1

计算机应用

2021年第1期

浏览历史

内容加载中请稍等...

基于随机森林和投票机制的大数据样例选择算法被引量：7

同被引文献89

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于随机森林和投票机制的大数据样例选择算法 被引量：7

同被引文献89

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于随机森林和投票机制的大数据样例选择算法被引量：7