基于Hadoop的局部支持向量机被引量：5

Local Support Vector Machine Based on Hadoop

下载PDF

导出

摘要随着物联网、云计算等技术的不断发展,产生的数据也以爆炸式的速度不断增长.如何在大数据中进行挖掘和分析成为了当前学术界研究的热点,Hadoop分布式计算也因此逐渐成为了大数据挖掘和分析的主要技术.支持向量机则是一种应用比较广泛的数据挖掘方法,局部支持向量机是在支持向量机的基础上引入局部学习算法的一种有效的分类算法.但是,局部支持向量机需要为每个测试样本分别构造分类器,在大数据上进行分类的时间复杂度较高,分类效率比较低.针对上述问题,结合Hadoop并行计算平台,提出了基于Hadoop的局部支持向量机算法.本文对局部支持向量机进行了两方面的改进:1)将计算测试样本的k近邻并行化;2)将训练模型并行化.测试实验结果表明:基于Hadoop的局部支持向量机能够有效降低分类时间,且在分类精度上与局部支持向量机基本保持一致. With the continuous development of Internet of things,cloud computing technology,the generated data is growing at an explosive rate.How to mine and analyze them has become a hot research in the present academic circles.Hadoop distributed computing platform has become the main technology of data analysis.Support vector machine is widely used in data mining,and local support vector machine is a new classification algorithm that is based on support vector machine.But local support vector machine constructs classifier for each test samples.In large data carries on the classification of high time complexity,the classification efficiency is low.In view of the above problems,combined with the Hadoop parallel computing platform,we propose a local support vector machine algorithm based on Hadoop.This paper makes two improvements on the local support vector machine:1)the calculation of k-nearest neighbor for the test sample is parallelized;2)the training of model is parallelized.Test results show that the local support vector machine based on Hadoop can effectively reduce the classification time,and the classification accuracy of this algorithm is consistent with the classification accuracy in local support vector machine.

作者崔文斌温孚江牟少敏浩庆波

机构地区山东农业大学信息科学与工程学院山东农业大学农业大数据研究中心

出处《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期116-121,共6页 Journal of Computer Research and Development

基金山东省自然科学基金项目(ZR2012FM024) 山东省农业重大应用技术创新课题基金项目

关键词 HADOOP 大数据分析局部支持向量机大数据 Hadoop big data analytics local support vector machine big data

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1闫永刚,马廷淮,王建.KNN分类算法的MapReduce并行化实现[J].南京航空航天大学学报,2013,45(4):550-555. 被引量：21
2李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1593
3尹传环,牟少敏,田盛丰,黄厚宽,朱莹莹.局部支持向量机的研究进展[J].计算机科学,2012,39(1):170-174. 被引量：9
4李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
5Satish Narayana Srirama,Pelle Jakovits,Eero Vainikko.Adapting scientific computing problems to clouds using MapReduce[J].Future Generation Computer Systems.2011(1)
6Ralf L?mmel.Google’s MapReduce programming model — Revisited[J].Science of Computer Programming.2007(1)
7Victor L. Brailovsky,Ofir Barzilay,Rabin Shahave.On global, local, mixed and neighborhood kernels for support vector machines[J].Pattern Recognition Letters.1999(11)
8Corinna Cortes,Vladimir Vapnik.Support-Vector Networks[J]Machine Learning,1995(3).
9Vapnik V N.The nature of statistical learning theory,1995.
10Cheng, Haibin,Tan, Pang-Ning,Jin, Rong.Efficient algorithm for localized support vector machine[].IEEE Transactions on Knowledge and Data Engineering.2010

二级参考文献93

1宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
2J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
3J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
4W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
5A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.
6A Verma,N Zea,et al.Breaking the mapreduce stage barrier .Proc of IEEE International Conference on Cluster Computing .Los Alamitos:IEEE Computer Society,2010.235-244.
7H C Yang,A Dasdan,et al.Map-Reduce-Merge:Simplified relational data processing .Proc of ACM SIGMOD International Conference on Management of Data .New York:ACM,2007.1029-1040.
8S V Valvag,D Johansen.Oivos:Simple and efficient distributed data processing .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2008.113-122.
9Z Vrba,P Halvorsen,et al.Kahn process networks are a flexible alternative to mapreduce .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2009.154-162.
10Apache hadoop .http://lucene.apache.org/hadoop/,2010-10-15/2010-12-28.

共引文献1816

1万瑞霖,杨言鑫(指导).大数据环境下的市场营销方式改革发展新方向[J].中外企业家,2020,0(16):83-83. 被引量：8
2张人戈,于平.运用信息技术改造传统产业正当时——大数据与实体经济融合的必要性分析[J].时代金融,2019,0(32):13-14.
3卢艺.数据治理在热轧边缘中的应用研究[J].冶金自动化,2023,47(S01):383-386. 被引量：1
4邱晨.大数据时代大学生微信隐私防护策略研究[J].新闻研究导刊,2021(5):72-73.
5金鑫,刘振彬,赵永亮,杨博.关于构建铁路智能化调度所的探讨[J].铁道运输与经济,2019,0(S01):68-71. 被引量：2
6冯刚,伍琳.大数据时代数据驱动高职教学决策研究[J].山西青年,2020,0(3):203-203.
7薛冰,李京忠,肖骁,谢潇,庞敏,姜璐,逯承鹏,任婉侠.基于大数据的城市人地关系分析与应用计算平台——2018年中国地理学会地理大数据计算环境“优秀实用案例”[J].全球变化数据学报（中英文）,2018(3):290-294. 被引量：5
8罗莉.基于大数据技术的高校计算机安全问题与对策[J].计算机产品与流通,2020(9):17-17. 被引量：2
9陈熠,王仲,任瑞瑞.大数据时代下对个性化服务的伦理思考[J].计算机产品与流通,2019,0(12):261-262.
10胡筱彤.大数据在商业银行中的应用探究[J].科技经济导刊,2019,0(33):20-20.

同被引文献28

1丁胜锋.一种改进的双支持向量机[J].辽宁石油化工大学学报,2012,32(4):76-79. 被引量：4
2祁亨年,杨建刚,方陆明.基于多类支持向量机的遥感图像分类及其半监督式改进策略[J].复旦学报（自然科学版）,2004,43(5):781-784. 被引量：14
3张小桃,倪维斗,李政,郑松.基于现场数据的中速磨煤机动态建模研究[J].热能动力工程,2004,19(6):614-616. 被引量：11
4常绿,杨涛,姚树建,李春然.基于神经网络和遗传算法的磨煤机结构和工作参数的优化[J].热能动力工程,2007,22(1):69-72. 被引量：2
5张继东,唐国华,姚树建,杨军强.基于神经网络算法计算双进双出磨煤机工作参数的研究[J].热力发电,2007,36(5):23-26. 被引量：2
6刘定平,肖蔚然.应用最小二乘支持向量机和混合遗传算法的制粉系统优化控制[J].动力工程,2007,27(5):728-731. 被引量：6
7刘福国.基于数据挖掘的钢球磨煤机运行特性建模和优化[J].煤炭学报,2010,35(5):850-854. 被引量：9
8Zhiyu Li,Junfeng Zhang,Shousong Hu.Incremental support vector machine algorithm based on multi-kernel learning[J].Journal of Systems Engineering and Electronics,2011,22(4):702-706. 被引量：7
9冯磊华,桂卫华,杨锋.改进LS-SVM的直吹式制粉出力软测量建模[J].电机与控制学报,2011,15(11):79-82. 被引量：5
10丁胜锋,孙劲光,陈东莉,姜晓林.基于模糊双支持向量机的遥感图像分类研究[J].遥感技术与应用,2012,27(3):353-358. 被引量：9

引证文献5

1张烨.基于样本关联度权重的增量支持向量机算法[J].电子科技,2017,30(3):41-44. 被引量：5
2高学伟,付忠广,孙力,张刚.基于Hadoop分布式支持向量机球磨机大数据建模[J].河北大学学报（自然科学版）,2017,37(3):309-315. 被引量：9
3周冠旭.物联网技术进展与应用思路构架[J].智能城市,2017,3(10):74-75. 被引量：1
4杨青.基于大数据分析的网络异常流量检测[J].机械设计与制造工程,2018,47(11):79-82. 被引量：5
5白灵.基于Hadoop平台下SVM的图像识别技术[J].现代电子技术,2016,39(16):98-101. 被引量：5

二级引证文献25

1张素芳,翟俊海,王聪,沈矗,赵春玲.大数据与大数据机器学习[J].河北大学学报（自然科学版）,2018,38(3):299-308. 被引量：22
2李治国.基于SVR的网络安全评价模型的建立与仿真[J].电子设计工程,2018,26(13):75-79. 被引量：2
3郭飞雁.基于数据挖掘的在线学习个性化服务方案设计[J].科技风,2018(30):2-2.
4刘倩,刘晓淞,李时,孙静.基于Hadoop的SVM在风电功率预测中的应用[J].韶关学院学报,2018,39(9):47-51.
5杨怀林.基于图像识别的钻头自动跟踪算法[J].现代电子技术,2017,40(17):56-59. 被引量：1
6王永强,李庆利,王伟志.基于Hadoop的卫生陶瓷缺陷检测研究[J].制造业自动化,2018,40(8):1-4. 被引量：2
7贾茹阁,张忠林.基于灰度混合核AR-SVM的预警模型及应用[J].计算机应用与软件,2019,36(2):200-204.
8牛玉广,潘岩,李晓彬.火力发电厂烟气SCR脱硝自动控制研究现状与展望[J].热能动力工程,2019,34(4):1-9. 被引量：33
9常青,张天宇,赵冰冰.基于机器视觉的手机异形主板非标自动化检测算法[J].华东理工大学学报（自然科学版）,2019,45(4):632-638. 被引量：1
10杨永娇,唐亮亮,王哲.一种基于深度Encoder-Decoder神经网络的智能电网数据服务器流量异常检测算法[J].计算机与现代化,2019,0(10):66-71. 被引量：5

1舒振宇,王典洪,周城,海涛洋.基于DLSVM算法的高分辨率遥感图像分类研究[J].中南民族大学学报（自然科学版）,2015,34(4):78-84. 被引量：1
2浩庆波,牟少敏,尹传环,昌腾腾,崔文斌.一种基于聚类的快速局部支持向量机算法[J].山东大学学报（工学版）,2015,45(1):13-18. 被引量：1
3尹传环,牟少敏,田盛丰,黄厚宽,朱莹莹.局部支持向量机的研究进展[J].计算机科学,2012,39(1):170-174. 被引量：9
4朱莹莹,尹传环,牟少敏.一种改进的局部支持向量机算法[J].计算机工程与科学,2013,35(2):91-95. 被引量：4
5蒋溢,刘鑫洋.K-Means算法的MapReduce并行实现[J].西南大学学报（自然科学版）,2016,38(11):180-185. 被引量：1
6周建益.数据挖掘技术分析及其应用评价[J].中国电子商务,2014(11):105-105.
7梁欣然,梁鹏,张海涛,周剑雄,周毅书,劳学礼.基于Hadoop分布式计算的图像检索方法[J].电脑知识与技术（过刊）,2015,21(6X):153-154 164.
8肖永良,夏利民.基于核的监督非保局投影镜头边界检测[J].控制工程,2011,18(4):512-514.
9戴尔将在服务器中预装开源Hadoop平台[J].微型计算机,2011(25):100-100.
10高学金,耿凌霄,薛攀娜,孙鑫,王普.相似样本选择方法在SVM发酵建模中的应用[J].仪器仪表学报,2015,36(2):401-407. 被引量：5

计算机研究与发展

2014年第S2期

浏览历史

内容加载中请稍等...

基于Hadoop的局部支持向量机被引量：5

参考文献12

二级参考文献93

共引文献1816

同被引文献28

引证文献5

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的局部支持向量机 被引量：5

参考文献12

二级参考文献93

共引文献1816

同被引文献28

引证文献5

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的局部支持向量机被引量：5