基于Spark并行SVM参数寻优算法的研究被引量：7

Spark Parallel SVM Parameter Optimization Algorithm

下载PDF

导出

摘要针对传统支持向量机(SVM)参数寻优算法在处理大样本数据集时存在的寻优时间过长,内存消耗过大等问题,提出了一种基于Spark通用计算引擎的并行可调SVM参数寻优算法。该算法首先使用Spark集群将训练集以广播变量的形式广播给各个Executor,然后并行化SVM的参数寻优过程,并在在寻优过程中控制Task并行度,使各个Executor负载均衡,从而加快寻优速度。实验结果表明,本文提出的参数寻优算法,通过设置合理的Task并行度,可以在充分使用集群资源的同时提高最优参数的寻找速度,减少寻优时间。 To solve the problems of the traditional support vector machine parameter optimization algorithm in dealing with large sample data sets,such as long time-consuming and excessive memory consumption,we proposed a parallel adjustable Support Vector Machine(SVM)parameter optimization algorithm based on Spark universal computing engine. Firstly,this algorithm uses Spark cluster to distribute the training set to each executor in the form of broadcast variables,and then makes the parameter optimization process of SVM parallel. In the parameter optimization process,each executor is load-balanced by controlling the parallelisms of the tasks,thereby speeding up the parameter optimization. At last the experimental results show that the proposed algorithm in this paper can improve the search speed and reduce the optimization time by setting the reasonable tasks parallelisms with making full use of the cluster resources.

作者何经纬刘黎志彭贝付星堡 HE Jingwei;LIU Lizhi;PENG Bei;FU Xingbao(Hubei Key Laboratory of Intelligent Robot (Wuhan Institute of Technology),Wuhan 430205,China;School of Computer Science & Engineering,Wuhan Institute of Technology,Wuhan 430205,China)

机构地区智能机器人湖北省重点实验室(武汉工程大学) 武汉工程大学计算机科学与工程学院

出处《武汉工程大学学报》 CAS 2019年第3期283-289,共7页 Journal of Wuhan Institute of Technology

基金武汉工程大学第十届研究生教育创新基金(CX2018215)

关键词支持向量机参数寻优 SPARK 并行度负载均衡 support vector machine parameter optimization spark parallelism load balancing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1吴云蔚,宁芊.基于Hadoop平台的分布式SVM参数寻优[J].计算机工程与科学,2017,39(6):1042-1047. 被引量：8
2张鹏翔,刘利民,马志强.基于MapReduce的层叠分组并行SVM算法研究[J].计算机应用与软件,2015,32(3):172-176. 被引量：10
3张小琴,胡景,肖炜.基于Hadoop云平台的分布式支持向量机[J].山西师范大学学报（自然科学版）,2015,29(4):19-23. 被引量：4
4秦军,戴新华,童毅,林巧民.基于MapReduce的SVM分类算法研究[J].计算机技术与发展,2015,25(6):87-91. 被引量：1
5米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
6宋泊东,张立臣,江其洲.基于Spark的分布式大数据分析算法研究[J].计算机应用与软件,2019,36(1):39-44. 被引量：21
7张红,王晓明,曹洁,马彦宏,郭义戎,王慜.Hadoop云平台MapReduce模型优化研究[J].计算机工程与应用,2016,52(22):22-25. 被引量：10
8刘泽燊,潘志松.基于Spark的并行SVM算法研究[J].计算机科学,2016,43(5):238-242. 被引量：17
9李坤,刘鹏,吕雅洁,张国鹏,黄宜华.基于Spark的LIBSVM参数优选并行化算法[J].南京大学学报（自然科学版）,2016,52(2):343-352. 被引量：21

二级参考文献86

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2亢生彩.网格搜索法SVM参数优化在主扇风机故障诊断中的应用[J].煤炭技术,2015,34(1):295-297. 被引量：10
3张尧学.透明计算:概念、结构和示例[J].电子学报,2004,32(F12):169-174. 被引量：48
4张宝昌,陈熙霖,山世光,高文.基于支持向量的Kernel判别分析[J].计算机学报,2006,29(12):2143-2150. 被引量：10
5李国正王猛增华军译 NelloCristianini JohnShawe-Taylor著.支持向量机导论[M].北京:电子工业出版社,2004..
6刘鹏,黄宜华,陈卫卫.实战Hadoop[M].北京:电子工业出版社,2011:60-64.
7陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2012.
8WHITET.Hadoop权威指南[M].北京:清华大学出版社,2011.
9王国胤,张清华,胡军.粒计算研究综述[J].智能系统学报,2007,2(6):8-26. 被引量：111
10Theodoridis S,Koutroumbas K.模式识别[M].北京:电子工业出版社,2010.

共引文献111

1赵卓峰,陈元,梅宇生.面向数据湖存取性能优化的数据并行处理技术研究[J].北方工业大学学报,2024,36(3):1-10.
2周琴.基于科技成果转化报告管理系统的研究与应用[J].新一代信息技术,2022,5(5):86-88.
3余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
4吕艳歌,朱国魂,蔡云鹏.基于Cox回归模型的高血压并发冠心病影响因素分析[J].桂林电子科技大学学报,2016,36(2):136-139. 被引量：1
5刘泽燊,潘志松.基于Spark的并行SVM算法研究[J].计算机科学,2016,43(5):238-242. 被引量：17
6刘韵,张遥.大数据管理:概念、技术与挑战[J].数码世界,2016,0(6):16-16. 被引量：10
7王翠娥.通信网络中适应度概率正则迁徙控制数据挖掘[J].控制工程,2016,23(7):1106-1109. 被引量：4
8张勇亮,李国林,林珍玉,李高扬.一种基于粒度相关向量机的故障预测方法[J].计算机与现代化,2016,0(9):91-95.
9姚瑶,韩颖,王燕.Web网络虚拟资源中特定数据检测优化仿真[J].计算机仿真,2017,34(1):449-452. 被引量：2
10黄莹,郝新红,孔志杰,张彪.基于熵特征的调频引信目标与干扰信号识别[J].兵工学报,2017,38(2):254-260. 被引量：12

同被引文献59

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2392
3朱莹莹,尹传环,牟少敏.一种改进的局部支持向量机算法[J].计算机工程与科学,2013,35(2):91-95. 被引量：4
4程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：740
5赵云涛,王佳,周小平.基于支持向量机的公共建筑火灾风险评估[J].建筑科学,2015,31(3):98-101. 被引量：6
6张鹏翔,刘利民,马志强.基于MapReduce的层叠分组并行SVM算法研究[J].计算机应用与软件,2015,32(3):172-176. 被引量：10
7马莹莹,王黎明,王世卿.基于MapReduce的并行增量迭代支持向量机算法[J].计算机应用与软件,2015,32(4):288-291. 被引量：1
8李坤,刘鹏,吕雅洁,张国鹏,黄宜华.基于Spark的LIBSVM参数优选并行化算法[J].南京大学学报（自然科学版）,2016,52(2):343-352. 被引量：21
9刘泽燊,潘志松.基于Spark的并行SVM算法研究[J].计算机科学,2016,43(5):238-242. 被引量：17
10刘黎志,吴云韬.环境空气质量监测大数据存储模式研究[J].环境科学与技术,2016,39(5):123-128. 被引量：4

引证文献7

1彭贝,刘黎志,杨敏,张晨跃.基于Hive的空气质量大数据查询优化方法[J].武汉工程大学学报,2020,42(4):467-472. 被引量：1
2白玉辛,刘晓燕.并行SVM算法在Flink平台的应用研究[J].小型微型计算机系统,2021,42(5):1003-1007. 被引量：4
3杨敏,刘黎志,邓开巍,刘杰.基于Spark的自适应差分进化极限学习机研究[J].武汉工程大学学报,2021,43(3):318-323. 被引量：4
4范玮,罗思吟,邓轶赫,王炜,李圆媛.P300信号分类的多样本融合支持向量机算法[J].武汉工程大学学报,2021,43(6):670-674.
5刘黎志,杨敏.基于MapReduce的支持向量机参数选择研究[J].武汉工程大学学报,2022,44(1):85-91.
6蒋凤钗.Spark技术在自然资源数据管理中的应用研究[J].自动化技术与应用,2022,41(6):41-45. 被引量：1
7张冉,吴云韬,于宝成,徐文霞.基于多传感器数据融合的机房火灾检测算法[J].武汉工程大学学报,2024,46(1):79-84. 被引量：1

二级引证文献11

1陈新房,刘义卿.分布式系统数据仓库工具Hive的工作原理及应用[J].科学技术创新,2021(36):104-107. 被引量：3
2杨中刚.新型节能用电信息智能采集系统设计[J].自动化仪表,2022,43(8):73-78. 被引量：1
3于万国,袁镇濠,陈佳琪,何玉林.分布式子空间局部链接随机向量函数链接网络[J].深圳大学学报（理工版）,2022,39(6):675-683.
4张华.基于反馈思想的组合PSVM流型识别研究[J].软件,2022,43(10):4-6.
5曹张宇,钟原,周静.基于Flink的分布式在线集成学习框架研究[J].计算机应用研究,2023,40(6):1784-1788. 被引量：1
6刘屹成,刘晓燕,严馨.并行平衡级联支持向量机[J].计算机工程与科学,2023,45(7):1170-1177. 被引量：1
7刘屹成,刘晓燕,严馨.Flink平台下的分布式平衡级联支持向量机[J].云南大学学报（自然科学版）,2023,45(5):999-1006.
8肖庆琳,张加龙,曹军,刘灵,王飞平,殷唐燕,杨坤.耦合多特征多时相的普洱市优势树种分类研究[J].森林工程,2024,40(2):117-126. 被引量：1
9范晓东.基于改进极限学习机的数据智能化分析算法设计[J].电子设计工程,2024,32(5):37-40.
10马江林,邓乐富.面向PDM系统的数据存储结构优化技术[J].电子设计工程,2024,32(8):41-44.

1宋武贤.农村幼儿园如何利用本土资源开展艺术活动[J].新课程（综合版）,2019,0(4):13-13. 被引量：1
2朱东旭.视频监控系统在轨道交通中的运用分析[J].市场周刊·理论版,2018(44):0212-0212.
3马小平,李博华,张旭,吴新忠.基于GWO优化的CS-SVM轴承故障诊断[J].煤矿机械,2019,40(5):171-173. 被引量：8
4侯博文,谭泽汉,陈焕新,孙劭波,龚麒鉴.基于支持向量机的建筑能耗预测研究[J].制冷技术,2019,39(2):1-6. 被引量：16
5黎平皇.机场施工监理过程中的质量控制措施[J].建材与装饰,2019,15(13):237-238. 被引量：2
6丁丽.工程施工过程中对工程造价影响因素的控制[J].城市周刊,2018,0(48):15-15.
7蔡安江,郭宗祥,郭师虹,蔡曜,薛晓飞.云制造环境下的知识服务组合优化策略[J].计算机集成制造系统,2019,25(2):421-430. 被引量：12
8徐翔,王璐,徐延宁,杨承磊,孟祥旭.基于点的全局光照绘制方法综述[J].计算机辅助设计与图形学学报,2019,31(5):689-697. 被引量：4
9李朋,郑亮,王艺淳,姜凯,赵鑫鑫,王子彤,秦刚,郝虹,高岩,于治楼.一种基于SDN的智慧交通系统设计[J].信息技术与信息化,2019(5):36-40. 被引量：1
10李鹏,王智颖,王成山,富晓鹏,宋毅.基于多FPGA的有源配电网实时仿真器并行架构设计[J].电力系统自动化,2019,43(8):174-187. 被引量：14

武汉工程大学学报

2019年第3期

浏览历史

内容加载中请稍等...

基于Spark并行SVM参数寻优算法的研究被引量：7

参考文献9

二级参考文献86

共引文献111

同被引文献59

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Spark并行SVM参数寻优算法的研究 被引量：7

参考文献9

二级参考文献86

共引文献111

同被引文献59

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于Spark并行SVM参数寻优算法的研究被引量：7