Yarn架构下基于GA的Web日志挖掘技术被引量：2

Web log mining technology using GA based on Yarn

下载PDF

导出

摘要提出了一种面向TB级别日志文件挖掘需求的日志挖掘技术。采用MapReduce编程模型设计并实现了一种基于子种群联姻策略的GA,并部署到Yarn架构上,使Yarn架构与GA有效结合。在算法Partition阶段,采用Round-Robin策略代替原有的哈希方法,使各个子种群基因更加趋向均匀分布,增加了子种群收敛效率和结果准确性,同时均衡各个节点运行负载,提高了系统性能。经测试,应用该技术的挖掘结果平均准确度达到93%以上,效率提升接近33%。 This paper proposed a Web log mining technology orienting the demand of mining for TB-level log files.It designed and implemented a genus of GA which deployed on the Yarn using the MapReduce programing model to combine the GA with the Yarn effectively.In addition,took the Round-Robin strategy instead of the hash method during the Partition stage of Ma-pReduce in order to distribute the gene among the sub populations evenly,increased the populations’rate of convergence and validity of result,and balanced the workload amid all of the nodes at the same time.Finally,the test shows that the rate of the validate result using the technology,which improves the efficiency by 33%,the average accuracy is more than 93%.

作者李静梅张宝权丁楠

机构地区哈尔滨工程大学计算机科学与技术学院清华大学计算机系

出处《计算机应用研究》 CSCD 北大核心 2014年第11期3388-3391,共4页 Application Research of Computers

基金国家自然科学基金资助项目(61003036) 黑龙江省自然科学基金资助项目(F201124) 黑龙江省教育厅科学技术研究基金资助项目(12513048)

关键词 Yarn架构日志挖掘遗传算法并行计算 Yarn log mining genetic algorithm（GA） parallel computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1MIRZOEVT,BENSONB,HILLHOUSED,etal.Employmentratesfordatacentermanagers[J].WorldofComputerScienceandInformationTechnologyJournal,2013,3(3):65-69.
2VAVILAPALLIVK,MURTHYAC,DOUGLASC,etal.ApachehadoopYARN:yetanotherresourcenegotiator[C]//Procofthe4thACMSymposiumonCloudComputing.NewYork:ACMPress,2013.
3DEANJ,GHEMAWATS.MapReduce:simplifieddataprocessingonlargeclusters[J].CommunicationsoftheACM,2008,51(1):107-113.
4CHENChenwu,CHENPochen,CHIANGWeiliang.Modifiedintelligentgeneticalgorithmbasedadaptiveneuralnetworkcontrolforuncertainstructuralsystems[J].JournalofVibrationandControl,2013,19(9):1333-1347.
5赵龙,江荣安.基于Hive的海量搜索日志分析系统研究[J].计算机应用研究,2013,30(11):3343-3345. 被引量：15
6程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
7PANDITA,DESHPANDEA,KARMARKARP.LogminingbasedonHadoop’smapandreducetechnique[J].InternationalJournalonComputerScienceandEngineering,2013,5(4):270-274.
8何翔,李仁发,唐卓.一种异构环境下的基于MapReduce任务调度改进机制[J].计算机应用研究,2013,30(11):3370-3373. 被引量：8
9RONGZhen,TANGYan,LIUSu.ResearchonWeblogmining[C]//ProcofInternationalConferenceonInformationEngineeringandApplications.London:Springer2013:849-856.

二级参考文献24

1王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
2余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
3Savasere A,Omiecinski E,Navathe S.An Efficient Algorithm for Mining Association Rules in Large Databases[C] //Proceedings of the 21st VLDB Conference.Zurich,Switzerland:[s.n.] ,1995:432-444.
4COCKBURN A,JONES S. Which way now? Analyzing and easing in- adequacies in WWW navigation [ J ]. International Journal of Hu- man-Computer Studies, 1996,45 ( 1 ) : 105-129.
5SILVERSTEIN C,MARAIS H, HENZINGEDR M,et al. Analysis of a very large Web search engine query log [ J ]. ACM SIGIR Forum, !998,33 ( 1 ) :6-12.
6DEAN J, GHEMAWAT S. MapReduce:symplified data processing on large clusters [ J ]. Communications of the ACM, 2008,51 ( 1 ) : 107-113.
7BRYANT R E. Data intensive supercomputing: the case for DISC, CMU technical report CMU-CS- 07-128 [ R]. Pittsburgh: Department of Computer Science, Carnegie Mellon University,2007.
8PAVLO A,PAULSON E,RASIN A,et al. A comparison of approaches to large-scale data analysis [ C ]//Proc of SIGMOD International Conference on Management of Data. New York :ACM Press ,2009:165-178.
9DEAN J,GHEMAWAT .S. MapReduce : simplified data processing on large clusters[ C ]//Proc of the 6th Conference on Operating Systems De- sign & Implementation. Berkeley: USENIX Association ,21304:137-150.
10Apache Hadoop [ EB/OL ]. [ 2009 - 03- 06 ]. http://hadoop, apache. otg/.

共引文献83

1沈学利,盛方严.异构资源环境下Hadoop节点能力自适应调度算法[J].计算机应用研究,2020,37(2):547-550. 被引量：4
2刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
3宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,24(11):84-89. 被引量：5
4刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24
5林大云.基于Hadoop的微博信息挖掘[J].计算机光盘软件与应用,2012,15(1):7-8. 被引量：9
6那丽春.集群资源模糊聚类划分模型[J].计算机工程,2012,38(6):34-36. 被引量：2
7李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
8丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
9冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
10陆秋,程小辉.基于MapReduce的决策树算法并行化[J].计算机应用,2012,32(9):2463-2465. 被引量：19

同被引文献15

12015年政府工作报告[R/OL].2015-03-17.http://poli-tics.people.tom.cn/n/2015/0317/e1024-26702211.html.
2互联网+[EB/OL].2015.http://baike.baidu.com/link?url=2011GGEjBsYHE6Xxe5k8yOfEQ-Krj7WfuUwE8CLoDUL90AtWDRCbsFbFmSKAM7ukwAANlQmHyhVgwx7JQ8La.
3Dean J, Ghemawat S. MapReduce:simplified data processing on large clusters [ J ]. Communications of the ACM, 2008,51(1) :107-113.
4Apache Hadoop NextGen MapReduce (YARN)[ EB/OL]. 2014-06-21. http://hadoop, apache, org/docs/r2.4. 1/ha- doop -yarn/hadoop-yam-site/YARN. html.
5Hadoop : writing YARN applications [ EB/OL ]. 2015 -06-29. http://hadoop, apache, org/docs/current/hadoop- yarn/ha- doop -yam - site/WfitingYamApplications, html.
6MapReduce tutorial [ EB/OL]. 2015 -06-29. http ://hadoop. apache, org/docs/current/hadoop- mapreduce - client/hadoop -mapreduce-client -core/MapReduceTutorial. html.
7HDFS users guide[ EB/OL]. 2015-06-29. http ://hadoop. a- pache, org/docs/current/hadoop- project- dist/hadoop- hdfs/ HdfsUserGuide. html.
8国家质量监督检验检疫总局.GB/T22388-2008,原料乳与乳制品中三聚氰胺检测方法[s].北京:国家质量监督检验检疫总局,2008.
9中华人民共和国卫生部.GB4789.4-2010,食品安全国家标准食品微生物学检验沙门氏菌检验[s].北京:中华人民共和国卫生部,2010.
10国家质量监督检验检疫总局.GB8372-2008,牙膏[s].北京:国家质量监督检验检疫总局,2008.

引证文献2

1郭先超,林宗缪,姚文勇.互联网+质量检测平台设计[J].计算机技术与发展,2016,26(5):120-124. 被引量：12
2郭先超,林宗缪,姚文勇.大数据环境下产品质量安全风险评估研究[J].信息技术,2016,40(6):76-79. 被引量：6

二级引证文献18

1戴宇欣,袁梦.大数据环境下产品质量风险评估系统的研究与设计[J].标准科学,2016(12):79-83. 被引量：4
2严文怡,梁旭,佟文博,王浩然,牛春艳.“互联网+”食品安全智慧检测平台构建[J].现代交际,2017(24):40-40. 被引量：1
3陈雪改,王飞.基于电子云平台的产业链创新与服务设计[J].信息技术,2018,42(2):62-67. 被引量：1
4倪亚晖.大数据分析在质监工作中的应用——基于大数据的产品质量风险信息监测与应用[J].电脑知识与技术,2018,14(11Z):254-255. 被引量：1
5尚整锋,郑宏.基于“互联网+技术”构建集中采购全生命周期质量管控体系[J].电信技术,2019,0(9):22-25. 被引量：2
6庞军朋.大数据技术在产品质量风险评估中的应用初探[J].现代商业,2018(21):30-31. 被引量：3
7张诚,罗傢蛴.“互联网+检测设备管理”系统的初步设计与实践[J].上海计量测试,2018,45(A01):51-54. 被引量：2
8蒋宇锋,邵永恒,唐瑶.“互联网+技能培训”学习平台建设探索[J].智能城市应用,2020,3(2):93-97.
9胡晓青,高子昂,唐孔科.信息化时代下的检测机构的服务与创新[J].中小企业管理与科技,2020(10):52-54. 被引量：1
10黎松筠,田明棋,王柠莎.“互联网+”时代检验检测服务面临的机遇与挑战[J].中国检验检测,2020,28(6):3-4. 被引量：3

1杨启文,张国宏,蒋静坪.基于“联姻”策略的并行遗传算法[J].电子学报,2000,28(11):108-110. 被引量：18
2于磊磊,李永在,黄玉,刘志磊.基于最小代价场的WSN路由算法的研究与改进[J].传感技术学报,2009,22(9):1342-1346. 被引量：2
3警惕利用Odinaff木马的攻击[J].网络安全和信息化,2016,0(11):7-7.
4刘静,王颖.决策树算法在数据挖掘中研究与应用[J].邢台职业技术学院学报,2007,24(5):30-32. 被引量：4
5石可,孟令旸.数据挖掘在通信企业管理系统中的应用[J].中国新通信,2017,19(1):14-15. 被引量：2
6刘新颖,王丽亚.基于Web的数据挖掘算法与数据仓库的接口设计[J].计算机工程,2006,32(21):88-90. 被引量：10
7王硕,顾幸生.基于改进蚁群算法的作业车间调度[J].青岛科技大学学报（自然科学版）,2012,33(5):489-494. 被引量：6
8鹿建银.无线传感网络路由算法设计与仿真[J].信息与电脑（理论版）,2011(5):87-89.
9潘巧海.把握趋数、挖掘需求、创新服务——为用户提供智能安防系统[J].A&S（安全&自动化）,2009(8):128-132.
10刘晓明,王志强,曹云东,宋超.取消变异的小生境遗传算法及应用[J].沈阳工业大学学报,2009,31(5):553-557. 被引量：1

计算机应用研究

2014年第11期

浏览历史

内容加载中请稍等...

Yarn架构下基于GA的Web日志挖掘技术被引量：2

参考文献9

二级参考文献24

共引文献83

同被引文献15

引证文献2

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Yarn架构下基于GA的Web日志挖掘技术 被引量：2

参考文献9

二级参考文献24

共引文献83

同被引文献15

引证文献2

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Yarn架构下基于GA的Web日志挖掘技术被引量：2