Hadoop平台的集群故障监控的研究与实现被引量：8

The Research and Implement of Fault Monitoring on Hadoop Platform

下载PDF

导出

摘要使用Hadoop构建的云平台已经得到广泛使用,如Amazon、Yahoo、Facebook等。集群的稳定性和可靠性对于云平台的服务质量有着重要的影响,随着企业信息化在生产实时检测、海量存储和科学分析决策等方面的需求不断提升,集群故障监控也越来越重要。PDM(Integrated Parallel Mining)是中国移动的商务智能应用需求为背景,旨在针对海量数据提供高效、准确、便捷的数据分析服务,能够对Hadoop集群进行性能监控并且进行故障告警是非常重要的。Ganglia和Nagios在集群故障监控方面各有优势,将两者的优势结合,结合企业项目设计出了一个相对完整的集群故障监控平台。 The cloud platform based on hadoop has been widely used, such as Amazon, Yahoo, Facebook and so on. Stablity and reliability of the cluster is very signiifcant for the serivce quality of the cloud platform. With the needs of enterprise information in real-time detection, the mass storage and scientiifc analysis improve, the fault monitorning of the cluster is also becoming increasingly important. PDM（Integrated Parallel Mining） is based on the needs of China Mobile＆#39;s business intelligence applications, it is designed to provide efifcient, accurate and convenient data analysis services for massive data. It’s very meaningful to carry out the performance and fault alarm of the hadoop platform. Ganglia and Nagios have their own advantages in the cluster fault monitoring, to combine the advantages of both, I designed a relatively complete cluster fault monitoring platform combined enterprise project.

作者朱娜娜

机构地区北京邮电大学计算机学院

出处《软件》 2013年第12期73-77,共5页 Software

关键词计算机应用监控故障 Hadoop Ganglia Nagios Computer Application Hadoop Ganglia Nagios monitoring fault

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王庆福.网站建设中数据库技术与WEB技术的应用对比研究[J].软件,2013,34(2):86-87. 被引量：16
2吕伟春,胡洪新,汤剑.基于NagiOS的网络监控监控系统研究[J].电脑知识和技术,2010,6(1),48-51.
3徐焕宇,孙权森,夏德深.基于NLTV的消除不规则采样遥感图像复原方法[J].新型工业化,2012,2(3):44-53.
4Sushil Bhardwaj, Leena Jain, Sandeep Jain. Cloud Computing: A Study of Infi'astructure as a Service [J]. International Journal of Engineering and Information Technology, 2010, 2(1): 60 ~ 63.
5Dejan. Opennebula: A Cloud Management Tool. Intemet Computing [J]. Intemet Computing, 2011, 15(2): 11 ~ 14.

二级参考文献2

1牛龙平,张勇.高等院校网络数据库与Web技术的融合[J].管理信息系统,1999(2):60-62. 被引量：4
2刘跃国.Web技术与数据库技术的集成方法[J].天津成人高等学校联合学报,2004,6(2):63-66. 被引量：1

共引文献15

1王贤志.基于数据挖掘的数据库安全技术研究[J].软件,2017,38(7):32-34. 被引量：1
2田昊宇,马义.Native XML数据库在电子病历存储中的应用分析[J].软件,2017,38(10):202-206.
3刘红义,董丹丹,王海燕,赵树立.基于可配置协议的智慧管网物联接入系统[J].软件,2018,39(1):121-125. 被引量：5
4彭金胜.一种新型的Web国际化解决思路及实践[J].软件,2018,39(7):143-145. 被引量：1
5王肖群,顾静,王运美,赵柳婷.基于Blackboard 9.1的插件研发探索与实现——以“北大教学网”大英网测插件为例[J].软件,2018,39(2):108-113.
6张明会,唐煜杰.基于SpringMVC的漫画交流分享平台设计与实现[J].电子元器件与信息技术,2017,1(4):37-43.
7季菁苇.计算机数据库技术在信息管理中的应用研究探讨[J].软件,2018,39(6):160-163. 被引量：24
8陈新泉.基于超图模型的关联度计算[J].软件,2014,35(5):62-68. 被引量：3
9王爱侠.JiTT—Blending Learning理念下的C++课程特色网站开发[J].软件,2014,35(7):44-48. 被引量：2
10汪正江,曲家文.使用Raphael库动态操作SVG[J].软件,2014,35(11):45-47. 被引量：3

同被引文献89

1张栋梁,谭永杰.云计算中负载均衡优化模型及算法研究[J].软件,2013,34(8):52-55. 被引量：17
2Sanjay Ghemawat, Howard Gobioff, Shun-TAK Leung. The Google file system. In Proceedings of the nineteenth ACM symposium on Operating systems principles. New York: ACM, 2003: 29-43.
3Apache Hadoop[EB/OL]. (2013-06-15). http:/Paadoop/apachc.org.
4Capacity scheduler guide[EB/OL]. (2013-06-03)[2013-06-15]. http://hadoop.apache.org/docs/stable/capacity-scheduler.html.
5Fair scheduler[EB/OL]. (2013-06-03)[2013-06-15]. http://hadoop.apache.org/docs/rl.l.2/fairscheduler.html.
6BYNA S, CHEN Yong, SUN Xian-hc. A taxonomy of data prefetching mcchanisms[C]//Proc of International Symposium on Parallel Architecures, Algorithms, and Networks. Washington DC: IISEE Computer Society, 2008: 19-24.
7IE Jiong, MENG Fan-jun, WANG Hai-long, ct el. Research on scheduling scheme for Hadoop clusters[C]//Pro of Procedia Computer Science. 2013: 2468-2471.
8SEO S, JANG I, WOO K, et al. HPMR: prefetching and pre-shuffling in shared MapReduce computation environment[C]//Proc of IEEE International Conference on Cluster Computing. Washington DC: IEEE Computer Society, 2009: 1-8.
9Matei Zaharia, Dhruba Borthakur, Joydeep SenSarma, et al. Delay schduling:a simple technique for achieving locality and fairness in cluster scheduling[C]//In Proceedings of the 5th European conference on Computer systems. New York: ACM, 2010: 265-278.
10Aprigio Bezerra, PorfDio HemANdez, Antonio Espinosa, et al. Job scheduling for optimizing data locality in Hadoop clusters[C]//In Proceedings of the 20th European MPI Users' Group Meeting. New York: ACM, 2003: 271-276.

引证文献8

1吴雨翰,于徐红,刘志杰.基于分布式脉冲星计算搜索集群的服务平台构建[J].科技传播,2022,14(11):115-119.
2陈若飞,姜文红.Hadoop作业调度本地性的研究与优化[J].软件,2015,36(2):64-68. 被引量：5
3左大鹏,徐薇.基于Hadoop处理小文件的优化策略[J].软件,2015,36(2):107-111. 被引量：6
4李红辉,关婷婷,杨芳南.云计算平台状态监控技术研究与应用[J].软件,2018,39(1):9-13. 被引量：9
5朱海伟.Hadoop集群服务监控预警系统的实现[J].工业控制计算机,2023,36(3):54-55.
6谢辉程,郭莉.基于stm32的无线环境监控系统设计[J].软件,2014,35(12):5-7. 被引量：7
7曹政.基于Mahout框架的Hadoop平台作业日志分析平台设计与实现[J].软件,2015,36(11):43-47. 被引量：6
8侯兴林,王晓云.服务可用性监控系统的设计与实现[J].软件,2016,37(2):74-76. 被引量：5

二级引证文献36

1郑澍,谢江,赵静.数据分析在自动控制系统管理中的应用[J].电力信息与通信技术,2016,14(6):1-5.
2朱永强,周珂,李丹,赵亚萌.HDFS小文件读写优化策略[J].计算机时代,2016(9):9-12.
3胡雄,汪超,唐刚.基于STM32的六自由度平台的姿态测量系统设计[J].东华大学学报（自然科学版）,2016,42(4):597-603. 被引量：2
4高宝玉,何文雪,桑文征.基于PLC的浆纱机TIA技术升级[J].软件,2017,38(4):146-149.
5龚建锋.互联网企业线上服务实时监控系统研究[J].电脑编程技巧与维护,2018(3):113-114. 被引量：1
6柴黎,王杰娟.空间维护技术试验评估方法研究[J].软件,2018,39(9):79-85.
7陈伯雄,艾中良.差异化作业调度在Storm上的实现[J].软件,2017,38(1):77-80.
8汪应龙,翟少磊,朱全聪,刘爱莲,李川,顾红波.应用于互感器校验仪自动检定的标准源设计[J].软件,2017,38(8):155-160. 被引量：1
9张文盛.基于地址重写的智能双IP双线服务高可用性研究[J].山东理工大学学报（自然科学版）,2018,32(3):74-78.
10杨朝鹏,林业贵,罗飞鹏.基于日志的机器学习方法实现故障快速定界的研究与应用[J].邮电设计技术,2018(12):23-26. 被引量：3

1卢志滨,叶蔓.哈尔滨市物流信息平台的功能与结构设计[J].中国科技信息,2013(3):83-84. 被引量：1
2杨绍禹,王世卿.MapReduce模型下数据隐私保护机制研究[J].计算机科学,2012,39(12):153-157. 被引量：7
3大数据的未来是APP？[J].网络运维与管理,2013(13):8-8.
4陈德生,郭在华,汤志亚.基于GPRS网络的气象要素自动采集系统设计与应用[J].成都信息工程学院学报,2006,21(2):161-164. 被引量：3
5徐小龙,吴家兴,杨庚,程春玲,王汝传.基于大规模廉价计算平台的海量数据处理系统的研究[J].计算机应用研究,2012,29(2):582-585. 被引量：13
6汪明军,于炯,滕海涛.基于系统效益的循环结构网格工作流调度算法[J].新疆大学学报（自然科学版）,2011,28(1):93-99.
7张鹤,崔宝同.时滞网络控制系统的模糊控制及稳定性分析[J].计算机与现代化,2011(6):63-66. 被引量：1
8王巍,方滨兴,张宏莉.并行调试中的若干关键问题[J].计算机科学,2003,30(3):132-133. 被引量：2
9赛莱默宣布收购Sensus[J].流程工业,2016(15):9-9.
10祝捷.基于SQL Server 2008的数据挖掘系统在违法犯罪人员信息分析上的应用[J].硅谷,2010,3(5):67-67.

软件

2013年第12期

浏览历史

内容加载中请稍等...

Hadoop平台的集群故障监控的研究与实现被引量：8

参考文献5

二级参考文献2

共引文献15

同被引文献89

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

Hadoop平台的集群故障监控的研究与实现 被引量：8

参考文献5

二级参考文献2

共引文献15

同被引文献89

引证文献8

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

Hadoop平台的集群故障监控的研究与实现被引量：8