Bootstrap样本大数据模型和分布式集成学习方法被引量：1

Bootstrap sample partition data model and distributed ensemble learning

下载PDF

导出

摘要传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成学习方法。BSP数据模型通过分布式生成算法将训练数据表达成分布式Bootstrap样本集的集合,存储成HDFS分布式数据文件,为后续的分布式集成学习提供数据支持。分布式集成学习方法从BSP数据模型中随机选取多个BSP数据块,读入集群各个节点的虚拟机,用串行算法对选取的数据块并行计算统计量或训练建模,再将所有的计算子结果回传至主节点中,生成最终的集成学习结果,此过程中可加入对子结果的质量选择以进一步提高预测效果。BSP数据模型的生成和分布式集成学习采用非Map-Reduce计算范式进行,每个数据块的计算独立完成,减少了计算节点间的数据通信开销。提出的算法在Spark开源系统中以新的算子方式实现,供Spark应用程序调用。实验表明,新方法可以高效地生成训练数据的BSP数据模型,提高数据样本的可重用性,在基于有监督机器学习算法构建的大规模Bagging集成学习实验中,计算效率能提高50%以上,同时预测精度进一步提高约2%。 A sequential implementation of Bootstrap sampling and Bagging ensemble learning is computationally inefficient and not scalable to build large Bagging ensemble models with a large number of component models.Inspired by distributed big data computing,a new Bootstrap sample partition(BSP)big data model and a distributed ensemble learning method for large-scale distributed ensemble learning were proposed.The BSP data model extended a dataset as a set of Bootstrap samples stored in Hadoop distributed file system.Our distributed ensemble learning method randomly selected a subset of samples from the BSP data model and read them into Java virtual machines of the cluster.Following this,a serial algorithm was executed in each virtual machine to process each sample data and build a machine learningmodel on each sample data independently and in parallel with other virtual machines.Eventually,allsub-results were collected and processed in the master node to produce the ensemble result,optionally adding a sample preferences trategy for the BSP data blocks.The BSP data model generation and the component model building were computed using a non-MapReduce computing paradigm.All component models were computed in parallel without data communication among the nodes.The algorithms proposed in this paper were implemented in spark as internal operators that can be utilized in Spark applications.Experiments have demonstrated that BSP data model of a dataset can be generated efficiently through the new distributed algorithm.It improves the reusability of data samples and increases computational efficiency by over 50%in large-scale Bagging ensemble learning,while also increasing prediction accuracy by approximately 2%.

作者罗凯靖张育铭何玉林黄哲学 LUO Kaijing;ZHANG Yuming;HE Yulin;HUANG Zhexue(Big Data Institute,College of Computer Science and Software Engineering,Shenzhen University,Shenzhen 518060,China;Guangdong Laboratory of Artificial Intelligence and Digital Economy(SZ),Shenzhen 518107,China)

机构地区深圳大学计算机与软件学院大数据技术与应用研究所人工智能与数字经济广东省实验室(深圳)

出处《大数据》 2024年第3期93-108,共16页 Big Data Research

基金国家自然科学基金项目(No.61972261) 广东省自然科学基金面上项目(No.2023A1515011667) 深圳市基础研究重点项目(No.JCYJ20220818100205012) 深圳市基础研究面上项目(No.JCYJ20210324093609026)。

关键词 Bootstrap抽样 Bagging集成学习分布式集成学习 SPARK Bootstrap sampling Bagging distributed ensemble learning Spark

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1Yanxia Lv,Sancheng Peng,Ying Yuan,Cong Wang,Pengfei Yin,Jiemin Liu,Cuirong Wang.A Classifier Using Online Bagging Ensemble Method for Big Data Stream Learning[J].Tsinghua Science and Technology,2019,24(4):379-388. 被引量：6
2黄哲学,何玉林,魏丞昊,张晓亮.大数据随机样本划分模型及相关分析计算技术[J].数据采集与处理,2019,34(3):373-385. 被引量：16
3Mohammad Sultan Mahmud,Joshua Zhexue Huang,Salman Salloum,Tamer Z.Emara,Kuanishbay Sadatdiynov.A Survey of Data Partitioning and Sampling Methods to Support Big Data Analysis[J].Big Data Mining and Analytics,2020,3(2):85-101. 被引量：17
4Xudong Sun,Yulin He,Dingming Wu,Joshua Zhexue Huang.Survey of Distributed Computing Frameworks for Supporting Big Data Analysis[J].Big Data Mining and Analytics,2023,6(2):154-169. 被引量：1

二级参考文献8

1杨草原,刘大有,杨博,池淑珍,金弟.聚类集成方法研究[J].计算机科学,2011,38(2):166-170. 被引量：15
2曹科研,栾方军,孙焕良,丁国辉.不确定数据基于密度的局部异常点检测[J].计算机学报,2017,40(10):2231-2244. 被引量：23
3吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：77
4王晨曦,吕方,崔慧敏,曹婷,John Zigman,庄良吉,冯晓兵.面向大数据处理的基于Spark的异质内存编程框架[J].计算机研究与发展,2018,55(2):246-264. 被引量：9
5魏丞昊,黄哲学,何玉林.基于统计感知的大数据系统计算框架[J].深圳大学学报（理工版）,2018,35(5):441-443. 被引量：5
6宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39-44. 被引量：20
7陈国良.大数据聚类专题序言[J].深圳大学学报（理工版）,2019,36(1):1-3. 被引量：3
8蔡毅,朱秀芳,孙章丽,陈阿娇.半监督集成学习综述[J].计算机科学,2017,44(S1):7-13. 被引量：33

共引文献36

1刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91.
2Amanpreet Kaur Sandhu.Big Data with Cloud Computing:Discussions and Challenges[J].Big Data Mining and Analytics,2022,5(1):32-40. 被引量：10
3夏火松,孙泽林.基于自编码器和集成学习的半监督异常检测算法[J].计算机工程与科学,2020,42(8):1440-1447. 被引量：7
4钟章生,陈世炉,陈志龙.利用并行惯性权重OOL-FA的大数据分类[J].计算机工程与设计,2020,41(10):2818-2824. 被引量：1
5孙静,孙静宇,李璨,魏东.融合用户兴趣表征与注意力机制的推荐算法[J].计算机工程与设计,2021,42(3):814-821. 被引量：3
6何玉林,金一,戴德鑫,黄柏皓,黄家杰.混合属性数据集分布一致性度量的新方法[J].深圳大学学报（理工版）,2021,38(2):170-179. 被引量：2
7张琳琳,王顺江,郭星池,凌兆伟,李朗,句荣滨.电力调度大数据应用平台系统技术研究[J].电力大数据,2021,24(1):48-54. 被引量：6
8王钰,刘磊.基于特征扩展的网构软件测试数据分类模型构建[J].电子设计工程,2021,29(8):29-32. 被引量：1
9舒宏,李双宏.证券客户价值指标体系及评估模型设计[J].微型电脑应用,2021,37(7):116-119. 被引量：2
10Yu Tian,Ruiqing Zheng,Zhenlan Liang,Suning Li,Fang-Xiang Wu,Min Li.A Data-Driven Clustering Recommendation Method for Single-Cell RNA-Sequencing Data[J].Tsinghua Science and Technology,2021,26(5):772-789. 被引量：3

同被引文献8

1邹新华,林善耕,童杰明,钟文明.杂交玉米“3414”施肥法肥料效应分析[J].广东农业科学,2013,40(15):76-78. 被引量：5
2怀宝付,张成胜,张品秀,韩静,王熙,庄卫东.BP-PID控制策略在变量施肥控制系统中的应用[J].黑龙江八一农垦大学学报,2015,27(1):95-98. 被引量：7
3Kenneth G.Cassman,Achim Dobermann,Daniel T.Walters,李红.农业生态系统中氮的利用效率与氮的管理[J].AMBIO－人类环境杂志,2002,31(2):131-139. 被引量：34
4王乐,韩萌,李小娟,张妮,程浩东.不平衡数据集分类方法综述[J].计算机工程与应用,2021,57(22):42-52. 被引量：36
5袁旭,张家安,常飞杨,王鑫月,李寒,张雪梅.我国肥料施用现状及化肥减量研究进展[J].农业与技术,2022,42(18):20-23. 被引量：26
6丁海萌,郭小燕.基于SMOTE_GA_XGBoost的葡萄酒质量预测[J].智能计算机与应用,2024,14(1):147-151. 被引量：1
7王秀娟.施肥量和施肥方式对小麦生长发育和产量的影响[J].特种经济动植物,2024,27(2):25-27. 被引量：5
8吴增源,金灵敏,韩香丽,王泽林,伍蓓.基于SMOTE-XGBoost的外贸企业财务危机预警模型[J].计算机工程与应用,2024,60(11):281-289. 被引量：1

引证文献1

1杜云,张婧婧,韩博,鲁子翱.基于小样本的小麦施氮量预测方法[J].湖北农业科学,2024,63(8):116-120.

1黄庆桥,兰妙苗,黄蕾宇.中国数字技术开源开放生态面临的问题与对策研究[J].科学技术哲学研究,2024,41(1):95-102. 被引量：1
2付忠良,陈晓清,任伟,姚宇.带学习过程的随机K最近邻算法[J].吉林大学学报（工学版）,2024,54(1):209-220.
3牛思琪,马睿,许晓琳,梁敖,穆春华,许金普,马德新.基于改进CBAM注意力机制的MobileNetV2玉米种子品种识别研究[J].中国粮油学报,2024,39(3):159-165. 被引量：1
4任志红.基于SOA的人力资源管理系统设计与实现[J].集成电路应用,2024,41(3):322-323.
5李小杏,焦冰,方桦,李坤彬,姚先丽,吴志远,孙平鸽,王留向.基于血清生物标志物的卒中后痴呆发生风险评估模型研究[J].广东医学,2023,44(12):1548-1553.
6田家豪,张莉,连小利,赵倩慧.基于相关性反馈的开源系统跨层需求追踪方法[J].软件学报,2024,35(3):1321-1340.
7肖诗洋,王镭,杜莹,肖汉.基于异构平台的图像中值滤波的OpenCL加速算法[J].河北大学学报（自然科学版）,2024,44(1):92-103. 被引量：1
8刘建锋,梅智聪,刘梦琪,周海,董倩雯.基于改进旋转森林算法的窃电检测研究[J].电力科学与技术学报,2024,39(1):93-104.
9刘振.应用型高校通信原理仿真教学探索与实践[J].科教导刊,2024(8):53-55.
10邢凯,盛利琴,张盼,李珊.基于非平衡数据处理和多变量筛选方法的上市公司财务困境预测研究[J].计量经济学报,2024,4(1):274-300. 被引量：2

大数据

2024年第3期

浏览历史

内容加载中请稍等...

Bootstrap样本大数据模型和分布式集成学习方法被引量：1

参考文献4

二级参考文献8

共引文献36

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

Bootstrap样本大数据模型和分布式集成学习方法 被引量：1

参考文献4

二级参考文献8

共引文献36

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

Bootstrap样本大数据模型和分布式集成学习方法被引量：1