基于分布式集群的高可用日志分析系统的设计被引量：14

Design on High Availability Log Analysis System Based on Distributed Cluster

下载PDF

导出

摘要在传统的访问日志分析系统中,数据采集效率较低且日志采集目录不能被递归监听,存储系统及计算系统缺乏高可用性。构建基于分布式集群的高可用日志分析系统,通过Nginx直连Kafka的方式采集实时分析的数据和自定义Source组件的Flume采集离线分析的数据,使用高可用的分布式文件系统HDFS和计算系统Spark分别提供持久化存储和计算引擎,利用Mysql和Hbase分别存储聚合数据及明细数据。实验结果表明,该系统的各项功能符合预期结果,直连Nginx-Kafka的采集方式和自定义Source组件的Flume明显提高采集效率,Zookeeper协调的分布式存储系统HDFS和计算系统Spark均满足高可用性,利用ALS算法测试存储与计算系统的功能。 In the traditional access log analysis system,the efficiency of collecting data is relatively low,and the log collection directory cannot be recursively monitored,and the storage system and the computing system lack high availability.Building a highly available log analysis system based on distributed cluster,Collecting data for real time analysis and offline analysis by the way of Nginx connecting Kafka directly and the Flume of custom Source component,the highly available Hadoop distributed file system(HDFS)and computing system Spark provide persistent storage and computing engine respectively,Using MySQL and HBase to store aggregated and detailed data respectively.The experimental results show that the functions of the improved system meet the expected results.the way of Nginx connecting Kafka directly and the Flume of custom Source component significantly improves the collecting efficiency,and distributed storage system HDFS and computing system Spark coordinated by Zookeeper meet high availability.Using ALS algorithm test the function of storage and computing system.

作者陈乐余粟王盟 CHEN Le;YU Su;WANG Meng(Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学

出处《中国电子科学研究院学报》北大核心 2020年第5期420-426,共7页 Journal of China Academy of Electronics and Information Technology

基金上海市科学技术委员会资助项目(175111110204)。

关键词分布式集群 FLUME HDFS Spark 高可用性 Zookeeper distributed cluster Flume Hadoop Distributed File System(HDFS) Spark high availability Zookeeper

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1蔡艳婧,王强,程实.基于分布式集群的网络浏览行为大数据分析平台构建[J].中国电子科学研究院学报,2019,14(1):1-7. 被引量：18
2马梅,刘东苏,李慧.基于大数据的网络舆情分析系统模型研究[J].情报科学,2016,34(3):25-28. 被引量：49
3康文杰,王勇,俸皓.云平台中MySQL数据库高可用性的设计与实现[J].计算机工程与设计,2018,39(1):296-301. 被引量：58
4雷晓凤,李强,孙功星.基于HBase的高能物理数据存储及分析平台[J].计算机工程,2015,41(6):49-55. 被引量：7
5李学龙,龚海刚.大数据系统综述[J].中国科学：信息科学,2015,45(1):1-44. 被引量：457
6孙鲁淼.基于分布式Web应用的大数据日志分析方法研究[J].电脑知识与技术,2019,15(1X):16-19. 被引量：7
7唐海东,武延军.分布式同步系统Zookeeper的优化[J].计算机工程,2014,40(4):53-56. 被引量：15
8杨俊杰,廖卓凡,冯超超.大数据存储架构和算法研究综述[J].计算机应用,2016,36(9):2465-2471. 被引量：37
9冯贵兰,李正楠,周文刚.大数据分析技术在网络领域中的研究综述[J].计算机科学,2019,46(6):1-20. 被引量：90
10罗俊,于水,杨维,孔华锋.实时大数据挖掘系统的设计与实现[J].计算机应用与软件,2020,37(3):57-60. 被引量：6

二级参考文献115

1张伟丽,江春华,魏劲超.MySQL复制技术的研究及应用[J].计算机科学,2012,39(S3):168-170. 被引量：20
2刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007(1):11-12. 被引量：312
3Apache Software Foundation. Apache Zookeeper[EB/OL]. (2013 -02-01). http://Zookeeper.apache.org/.
4Burrows M. The Chubby Lock Service for Loosely-coupled Distributed. Systems[C]//Proc. of 2006.
5Operating Systems Design and Implementation Conference. Seattle, USA: [s. n.], 2006: 6-8.
6Konstantin S, Kuang Hairong, Sanjay R. The Hadoop Distributed File System[C]//Proc. of the 26th IEEE Symposium on Mass Storage Systems and Technologies. Lake Tahoe, USA: IEEE Press, 2010: 3-7.
7Bailey D, Barszcz E, Barton J. The NSE Parallel Bencn- marks[EB/OL]. (2013-02-01). http://citeseerx.ist.psu.edu/vie wdoc/summary?doi= 10.1.1.76.4758.
8William D. Iozone[EB/OL]. (2013-02-01). http://www.iozone.org/.
9Flavio J. Zab: High-performance Broadcast for Primarybackup Systems[C]//Proc. of the 41st IEEE/IFIP International Conf- erence on Dependable Systems and Networks. Hong Kong, China: [s. n.], 2011 : 245-256.
10Becker D, Junqueira F, Serafini M. Leader Election for Replicated Services Using Application Scores[C]//Proc. of 12th ACM/IFIP/USENIX International Middleware Conf- erence. [S. 1]: ACM Press, 2011: 223-234.

共引文献751

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2周学兵.精准资助视域中高校资助育人工作机制分析[J].作家天地,2020(23):84-84.
3马献,陈丽,郝冀皖,刘陆陆,高婧怡.利用kubernetes集群搭建基于容器技术的分布式架构数据中心研究[J].中国数字医学,2021,16(12):43-48. 被引量：6
4师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
5蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：87
6赵毅宇.检察监督智能化的发展隐忧及应对逻辑[J].法制与社会发展,2023,29(2):178-194. 被引量：12
7张林.基于组复制技术的MYSQL高可用设计及部署[J].计算机产品与流通,2019,8(12):267-267.
8苏礼.大数据分析法在高校业绩评价中的应用[J].网络安全技术与应用,2020(3):66-68. 被引量：1
9郭涛,李宗南,姚延栋,黄平,王思,翁岩青.超融合时序数据库在果园大数据中存储策略分析[J].中国农业信息,2022,34(6):49-58.
10王墨晗,孟雪.患者流分析在医疗建筑设计研究中的应用与启示——基于2010-2020的国际文献回顾[J].建筑学报,2021(S02):29-35.

同被引文献98

1高志辉,秦琦,段暕,沈旭,计效园,刘智勇,廖广兰.基于实时Web技术的车间监测系统设计与实现[J].计算机应用,2023,43(S01):201-206. 被引量：5
2王振宇,郭力.基于Hadoop的搜索引擎用户行为分析[J].计算机工程与科学,2011,33(4):115-120. 被引量：21
3程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
4田兰,金石声,李波,卜英竹,李珏.基于XML和正则表达式的气象数据处理系统[J].计算机科学,2013,40(11A):432-435. 被引量：4
5唐海东,武延军.分布式同步系统Zookeeper的优化[J].计算机工程,2014,40(4):53-56. 被引量：15
6杨锋英,刘会超.基于Hadoop的在线网络日志分析系统研究[J].计算机应用与软件,2014,31(8):311-316. 被引量：11
7李峰,秦世广,周薇,徐鸣一,张乐坚,周青,夏元彩,曹婷婷,梁海河.综合气象观测运行监控业务及系统升级设计[J].气象科技,2014,42(4):539-544. 被引量：42
8钱峥,曹艳艳,赵科科,许皓皓.私有云在市级气象业务平台的实现与应用[J].气象科技,2014,42(4):641-646. 被引量：27
9张川,邓珍荣,邓星,黄文明.基于Chukwa的大规模日志智能监测收集方法[J].计算机工程与设计,2014,35(9):3263-3269. 被引量：11
10冯娟.ZooKeeper在复杂事件处理系统中的应用[J].城市轨道交通研究,2014,17(11):32-35. 被引量：3

引证文献14

1何长鹏.基于分布式平台的实时网络日志分析系统设计[J].江苏科技信息,2020,37(27):63-66. 被引量：2
2张娜,白金峰.分布式论坛系统解决方案的设计[J].软件工程,2021,24(10):10-13.
3丁兵,陈颉.疫情防控人员健康信息日报系统的设计和实现[J].科技创新导报,2021,18(18):88-91.
4杨永凯,刘彦汝,杨毅.民航运价系统多主机日志文件的数据定位方法[J].信息技术与信息化,2022(4):91-94.
5张宏海,刘亚宁.一种分布式日志采集与分析系统[J].信息技术与信息化,2022(6):87-90. 被引量：7
6张宏海,刘亚宁.一种基于Logstash的高效数据处理方法[J].信息技术与信息化,2022(7):84-87. 被引量：3
7陈涛,索海燕.Apache ZooKeeper设计理念和数据结构的研究[J].现代计算机,2022,28(21):63-68. 被引量：2
8金锐,李端有,牛广利,周华艳.小浪底安全监测资料整编分析报告系统设计与应用[J].中国水利,2023(2):38-42. 被引量：1
9马彬,李玉涛,许琪.基于Spark Streaming的气象自动站实时流处理与存储系统[J].计算机技术与发展,2023,33(3):207-214. 被引量：1
10刘洋,黄志,徐娟,唐建新,卢伟萍.气象大数据云平台监控告警系统[J].计算机系统应用,2023,32(3):86-94. 被引量：4

二级引证文献18

1刘锦鸣.分布式链路异常日志采集方法研究[J].机电信息,2022(23):36-38. 被引量：1
2唐强,马飞扬.面向嵌入式系统的分布式日志系统设计[J].信息技术与信息化,2023(4):130-133. 被引量：1
3宋立萍.基于大数据分析技术的计算机网络日志分析系统设计[J].信息记录材料,2023,24(6):215-217. 被引量：1
4朱延刚.基于WebMagic爬虫框架的网页信息系统设计[J].无线互联科技,2023,20(11):73-76.
5王沙沙.实时数据处理轻量化应用程序的设计与实现[J].漯河职业技术学院学报,2023,22(4):28-32. 被引量：1
6张宏海,刘亚宁,武学成,田丰,刘硕,刘中一.一种云上日志采集与分析系统的研究与实现[J].信息技术与信息化,2023(11):16-19. 被引量：1
7王锐.基于日志数据的窗口化异常检测方法[J].电信工程技术与标准化,2024,37(1):75-80.
8赵恩毅.大数据中的数据清洗与预处理技术研究[J].信息记录材料,2024,25(3):195-197. 被引量：2
9李雁明,刘相坤,段应杰,王凯旋.一种两地三中心高可用数据库架构设计及验证测试[J].铁路计算机应用,2024,33(4):12-17.
10谢寒生,王立俊,李晋峰,杜建华.基于气象大数据云平台的监控告警应用研究[J].电子设计工程,2024,32(10):34-38.

1张余僧,曲平路.测绘新技术在水利工程中的应用[J].写真地理,2020,0(4):0066-0066.
2张涛,戚士权.关于边坡工程稳定性信息化监测应用[J].华东公路,2020,0(1):119-121.
3赖启超,许力,王峰.智能电网支持隐私保护的数据聚合方案[J].密码学报,2019,6(5):605-614. 被引量：4
4唐蓉.论如何通过DPI大数据分析构建视频资源特征库[J].科学与信息化,2020(12):44-44.
5陆雨薇,袁彪.周期性家庭护理人员分配问题研究[J].广西科技大学学报,2020,31(3):105-113. 被引量：1
6凤继锋,周金强.复杂环境下UAV-WSN动态协作数据收集[J].现代计算机,2020,26(15):27-32.
7王磊,陈明恩,孟凯凯,温进化,周鹏程.基于深度学习算法的水位识别方法研究[J].水利信息化,2020(3):39-43. 被引量：23

中国电子科学研究院学报

2020年第5期

浏览历史

内容加载中请稍等...

基于分布式集群的高可用日志分析系统的设计被引量：14

参考文献12

二级参考文献115

共引文献751

同被引文献98

引证文献14

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于分布式集群的高可用日志分析系统的设计 被引量：14

参考文献12

二级参考文献115

共引文献751

同被引文献98

引证文献14

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

基于分布式集群的高可用日志分析系统的设计被引量：14