BP-AdaBoost分类算法的MapReduce并行化实现被引量：1

MAPREDUCE PARALLEL IMPLEMENTATION OF BP-ADABOOST CLASSIFICATION ALGORITHM

下载PDF

导出

摘要在面对海量数据分类问题时,时间和空间复杂性已成为传统算法的瓶颈。在对传统的BP-AdaBoost算法进行分析的基础上,结合云计算平台,给出传统BP-AdaBoost算法的MapReduce并行化方法。Map函数完成每个弱分类器预测误差εt的计算与重新标记,Reduce函数根据Map函数得到的中间结果合并计算出平均误差,供下一轮MapReduce计算任务使用。将改进后的算法部署在Hadoop集群上,能够实现高效并行的海量数据强分类。并通过集群上的三个对比实验,验证了该算法的可行性,它不仅能处理海量数据,而且降低了算法的时间复杂度,具有较好的加速比和准确性。 While dealing with massive data classification,the time and space complexities have become the bottleneck of traditional classification algorithms. Based on analysing traditional BP-AdaBoost algorithm,we propose a MapReduce parallel implementation method for traditional BP-AdaBoost algorithm in combination with cloud computing platform. The Map function completes the calculation and retagging of the forecasting deviation εtof every weak classifier,while the Reduce function calculates the average deviation in consolidation based on the middle results derived by Map function and which is for the use in next turn of MapReduce calculation work. Deploying the improved algorithm on Hadoop cluster,it is able to achieve efficient parallel strong classification of massive data. By three comparative experiments on Hadoop cluster,the feasibility of the algorithm is verified. It can deal with massive data,and can also reduce the time complexity,as well as has better linear speedup ratio and accuracy.

作者李杨杨宝华李双

机构地区安徽农业大学信息与计算机学院安徽农业大学农业信息学安徽省重点实验室

出处《计算机应用与软件》 CSCD 北大核心 2014年第8期261-264,共4页 Computer Applications and Software

基金国家自然科学基金项目(31271615)

关键词云计算 BP-AdaBoost MAPREDUCE 海量数据 HADOOP集群 Cloud computing BP-AdaBoost MapReduce Massive data Hadoop cluster

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1李松,解永乐,王文旭.AdaBoost_BP神经网络在铁路货运量预测中的应用[J].计算机工程与应用,2012,48(6):233-234. 被引量：22
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3祝永志,李丙峰,孙婷婷,李佩.并行计算系统可扩展性的研究[J].计算机工程与应用,2011,47(21):47-49. 被引量：3
4Hansen L K,Salamon P.Neural network ensembles[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.
5柳玉,郭虎全.基于AdaBoost与BP神经网络的风速预测研究[J].电网与清洁能源,2012,28(2):80-83. 被引量：11
6曹泽文,周姚.基于MapReduce的JP算法设计与实现[J].计算机工程,2012,38(24):14-16. 被引量：6
7Robert E S.Theoretical views of boosting[C]//Proceedings of European Conference on Computational Learning Theory.Nordkirchen,Germany,Springer-Verlag,1999:1-10.
8陈国良.并行计算:结构·算法·编程[M].高等教育出版社,2011.
9龚宇,李帅,李勇,苏厉,金德鹏,曾烈光.基于云计算的网络创新实验平台[J].计算机工程,2012,38(24):5-8. 被引量：10
10余嘉元.运用概化理论和BP网络进行创造力研究[J].计算机工程与应用,2011,47(30):8-11. 被引量：3

二级参考文献76

1席景科,闫大顺.Web数据挖掘中数据集成问题的研究[J].计算机工程与设计,2006,27(8):1366-1368. 被引量：6
2刘志杰,季令,叶玉玲,耿志民.基于径向基神经网络的铁路货运量预测[J].铁道学报,2006,28(5):1-5. 被引量：45
3何争光,孙晓峰,马勇光.AdaBoost-NN模型在浊漳河水质评价中的应用[J].郑州大学学报（工学版）,2007,28(1):114-117. 被引量：1
42009年世界风能报告[EB/OL].世界风能协会网站.
5陈国良.并行计算:结构、算法、编程[M].北京:高等教育出版社,2004:88-94.
6Grama A, Gupta A, Kumar V.Isoefficiency function: a scalability metric for parallel algorithms and architectures[J].IEEE Parallel & Distributed Technology, 1993,1 (3) : 12-21.
7Sun X, Rover D.Scalability of parallel algorithm-machine combi-nations[J].IEEE Transactions on Parallel and Distributed System, 1994,5(6) : 599-613.
8Cannataro M, Talia D, Trunfio P. KNOWLEDGE GRID.. High Performance Knowledge Discovery on the Grid [C] // Lecture Notes In Computer Science, Vol. 2242, Proceedings of the Second International Workshop on Grid Computing. 2001:38-50.
9Ye Yan-bin, Chiang C-C. A Parallel Apriori Algorithm for Frequent Item sets Mining[C]//Proeeedings of the Fourth International Conference on Software Engineering Research Manage- ment and Applications(SERA'06). 2006:87-94.
10Armbrust M, Fox A, Griffith R, et al. Above the Clouds: A Berkeley View of Cloud Computing.

共引文献175

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
3凡荣荣,姚翠兰,杨巨生,张永发,谢克昌.基于PSO优化锅炉氮氧化物的排放[J].热力发电,2012,41(8):28-31. 被引量：6
4桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6屈志坚,郭亮,陈阁.基于Hadoop的电网监控信息流分布式处理研究[J].华东交通大学学报,2013,30(5):37-41. 被引量：5
7原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
8王长宾,赵书良,王春阳.基于WebGIS的计生药具数据挖掘系统[J].福建电脑,2012,28(2):23-25.
9张冰.关于云计算的Web数据挖掘方法[J].中国电子商务,2012(8):46-46.
10胡新和,杨博雄,倪玉华.面向服务的可扩展云处理物联网体系架构及其应用研究[J].计算机科学,2012,39(B06):223-225. 被引量：1

同被引文献4

1赵杰文,张建,邹小波.嗅觉可视化技术及其对5种化学物质的区分[J].江苏大学学报（自然科学版）,2008,29(1):1-4. 被引量：10
2黄星奕,周芳,蒋飞燕.基于嗅觉可视化技术的猪肉新鲜度等级评判[J].农业机械学报,2011,42(5):142-145. 被引量：24
3钱园凤,叶阳,周小芬,王博.红茶发酵技术研究现状分析[J].食品工业科技,2012,33(23):388-392. 被引量：24
4赵杰文,黄晓玮,邹小波,黄林,石吉勇.基于嗅觉可视化技术的猪肉新鲜度检测[J].食品科学技术学报,2013,31(1):9-13. 被引量：11

引证文献1

1陈琳,叶阳,董春旺,何华锋.基于嗅觉可视化技术的工夫红茶发酵程度判定方法[J].茶叶科学,2017,37(3):258-265. 被引量：16

二级引证文献16

1董春旺.茶叶智能化加工技术的创新思考[J].中国茶叶,2019,41(3):53-55. 被引量：12
2叶飞,高士伟,龚自明,罗军武,黄建安.干燥工艺对宜红茶品质及抗氧化能力的影响[J].湖南农业大学学报（自然科学版）,2018,44(6):678-682. 被引量：5
3严松,林颢.基于嗅觉可视化技术和气相色谱-质谱联用鉴别霉变小麦[J].食品科学,2019,40(2):275-280. 被引量：12
4李闯,朱瑶迪,李苗云,申润艳,闫龙刚,孙灵霞,赵改名.基于天然色素嗅觉可视化技术的牛肉新鲜度的快速检测[J].河南农业大学学报,2019,53(1):115-119. 被引量：5
5林颢,王卓,陈全胜,林金金.基于色敏传感器结合光谱技术的大米储藏期鉴别[J].农业机械学报,2019,50(6):359-364. 被引量：2
6马财万,蒋姝,王康锐,方英,王白雪,黄承洪.颜色传感阵列的应用研究进展[J].山东化工,2019,48(9):92-94.
7邓余良,胡强,夏康炎,陈伟东,董春旺.基于近红外的红茶发酵中TFs/TRs评价模型研究[J].现代农业装备,2019,40(4):64-70. 被引量：4
8薛金金,尹鹏,张建勇,王伟伟,陈琳,苏威,郭桂义,江和源.工夫红茶品质化学成分及加工工艺研究进展[J].食品研究与开发,2020,41(18):219-224. 被引量：18
9杨梅,翟晓东,黄晓玮,李崎,邹小波.嗅觉可视化技术对啤酒品质的快速检测[J].食品科学,2021,42(18):225-231. 被引量：3
10田陆川,杨俊,姜红.基于RBFNN-FDA模型对塑料拖鞋鞋底的拉曼光谱研究[J].上海塑料,2022,50(4):62-67. 被引量：3

1闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
2陈晓云,陈刚.基于最大内聚度基准的加权投票聚类集成[J].控制与决策,2014,29(2):236-240. 被引量：3
3王志丹.基于云计算的属性重要度约简算法研究[J].洛阳师范学院学报,2014,33(8):64-66.
4钱进,苗夺谦,张泽华,张志飞.MapReduce框架下并行知识约简算法模型研究[J].计算机科学与探索,2013,7(1):35-45. 被引量：17
5何佩佩,谢颖华.云环境下K-means算法的并行化[J].微型机与应用,2015,34(24):25-27. 被引量：1
6周国军,梁燕红,唐微.AprioriTid算法的MapReduce并行化实现[J].微型机与应用,2015,34(24):22-24.
7王志丹.云环境下基于二进制编码的Apriori改进算法[J].中原工学院学报,2014,25(6):69-71.
8王睿.基于MapReduce的并行KNN分类算法研究[J].计算机与数字工程,2013,41(11):1738-1740. 被引量：3
9马军,李春燕.BSD中IPv6实现方式与传输性能的分析[J].计算机与现代化,2006(9):50-53.
10翁胜彬.妙用EXCEL合并计算[J].网络与信息,2003,17(10):63-63. 被引量：1

计算机应用与软件

2014年第8期

浏览历史

内容加载中请稍等...

BP-AdaBoost分类算法的MapReduce并行化实现被引量：1

参考文献11

二级参考文献76

共引文献175

同被引文献4

引证文献1

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

BP-AdaBoost分类算法的MapReduce并行化实现 被引量：1

参考文献11

二级参考文献76

共引文献175

同被引文献4

引证文献1

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

BP-AdaBoost分类算法的MapReduce并行化实现被引量：1