一种基于Kafka的可靠的Consumer的设计方案被引量：37

A Design of Reliable Consumer Based on Kafka

下载PDF

导出

摘要伴随着互联网和移动互联网的发展,各种新兴应用层出不穷,对大数据处理的实时性和高并发能力要求也在不断提高。Apache Kafka,作为一种分布式的消息系统,具有可水平扩展和高吞吐率而被广泛的使用。对于数据业务的基础支撑系统,除了能够满足高并发度和实时性以外,数据的质量即数据可靠性也是关键的一环。但是,由Kafka原生提供的数据消费者不能够保障数据的可靠性。本文首先简单介绍了Kafka的组成、架构特性等技术背景,然后阐述了原生Consumer的原理和缺陷;最后,基于Kafka提出一个可靠的消费者的设计方案。本方案是基于Kafka的low-level的接口集,解决了Kafka原生Consumer由于将用户消费数据的动作与数据消费位置的记录独立而引起的数据质量问题,保障了数据的可靠性。最后,搭建Kafka集群测试环境,验证了方案的可行性和正确性。 With the development of Internet and mobile Internet,a variety of new applications emerging for large real-time data processing and high concurrency requirements are also rising.Apache Kafka,as a distributed messaging system with high throughput can scale horizontally and is widely used.For data services on the basis of support sys-tems,in addition to be able to meet the high degree of concurrency and real-time outside the quality of the data,that data reliability is a key part.However,the native data consumer provided by Kafka cannot guarantee the reliability of the data.This article,at first,introduce the composition,architectural features of Kafka briefly and the principle and defects of native consumers,then,based on Kafka gives a design of reliable consumer.This design is based on the low-level Kafka interface,which solves the data quality problem of native Consumer that caused by making the action of the user's consumption and the offset of the data independent,thus ensuring the reliability of the data.Finally,build the test environment of Kafka cluster,and verify the feasibility and correctness of the design.

作者王岩王纯

机构地区北京邮电大学网络与交换技术国家重点实验室东信北邮信息技术有限公司

出处《软件》 2016年第1期61-66,共6页 Software

关键词 Kafka 数据可靠性 zookeeper 实时 Kafka Data reliability Zookeeper Real time

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1马浩然.基于NS3的分布式消息系统Kafka的仿真实现[J].软件,2015,36(1):94-99. 被引量：18
2张鹏,李鹏霄,任彦,林海伦,杨嵘,郑超.面向大数据的分布式流处理技术综述[J].计算机研究与发展,2014,51(S2):1-9. 被引量：16
3Apache Kafka.A high-throughput distributed messaging system(OL)http://kafka.apache.org/ .
4Khasnabish J N,Verma A P,Rao S.Implementing a Publish-Subscribe Distributed Notification System on Hadoop. ICT and Critical Infrastructure:Proceedings of the 48th Annual Convention of Computer Society of India . 2014

二级参考文献34

1莫磊,胥布工.基于分布式估计及任务分配的WSANs协同机制[J].新型工业化,2013,2(12):15-27. 被引量：5
2马建刚,黄涛,汪锦岭,徐罡,叶丹.面向大规模分布式计算发布订阅系统核心技术[J].软件学报,2006,17(1):134-147. 被引量：128
3刘云生,张童,张传富,查亚兵.异构分布式实时仿真系统的容错调度算法[J].软件学报,2006,17(10):2040-2047. 被引量：9
4Jeffrey Dean,Sanjay Ghemawat.MapReduce[J].Communications of the ACM.2008(1)
5Arvind Arasu,Shivnath Babu,Jennifer Widom.The CQL continuous query language: semantic foundations and query execution[J].The VLDB Journal.2006(2)
6Hari Balakrishnan,Magdalena Balazinska,Don Carney,U?ur ?etintemel,Mitch Cherniack,Christian Convey,Eddie Galvez,Jon Salz,Michael Stonebraker,Nesime Tatbul,Richard Tibbetts,Stan Zdonik.Retrospective on Aurora[J].The VLDB Journal.2004(4)
7Daniel J. Abadi,Don Carney,Ugur ?etintemel,Mitch Cherniack,Christian Convey,Sangdon Lee,Michael Stonebraker,Nesime Tatbul,Stan Zdonik.Aurora: a new model and architecture for data stream management[J].The VLDB Journal.2003(2)
8Jim Gray,Goetz Graefe.The five-minute rule ten years later, and other computer storage rules of thumb[J].ACM SIGMOD Record.1997(4)
9Vincenzo Gulisano,Ricardo Jimenez-Peris,Marta Patino-Martinez.StreamCloud: An Elastic and Scalable Data Streaming System[].IEEE Transactions on Parallel and Distributed Systems.2012
10Stoellberger P.S4Latin :Language-based big data streaming [D/OL][].http ://analytical-labscom/downloads/msc _BigDataStreamspdf.2011

共引文献29

1张丽珍.获取地形图的失量图形文件的方法[J].工程设计与研究（长沙）,2000(1):32-33.
2姜博.大数据分析的分布式MOLAP技术[J].通讯世界（下半月）,2015(12):331-332. 被引量：2
3朱奕健,张正卿.基于通信运营商数据的大数据实时流处理系统[J].中国新通信,2016,18(3):100-103. 被引量：5
4王仲生.基于kafka消息队列的文本处理技术研究[J].软件导刊.教育技术,2016,15(12):87-89. 被引量：4
5梁毅,侯颖,陈诚,金翊.面向大数据流式计算的任务管理技术综述[J].计算机工程与科学,2017,39(2):215-226. 被引量：10
6陶杰,廖湖声,高红雨.一种基于图归约的XPath高性能流数据查询方法[J].微型机与应用,2017,36(15):16-21.
7刘艳云,夏红雨.一种适合大数据存储系统的高效负载均衡算法设计[J].信息通信,2017,30(4):59-60. 被引量：1
8朱蔚林,木伟民,金宗泽,王伟平.基于MR的高可靠分布式数据流统计模型[J].计算机技术与发展,2018,28(1):6-10. 被引量：2
9茹新宇,刘渊.网络仿真器NS3的剖析与探究[J].计算机技术与发展,2018,28(3):72-77. 被引量：15
10刘远永,弓中强,朱佳宁,安晶晶,赵青松.安徽省市县短临监测预警系统的设计与应用[J].软件,2018,39(10):229-237. 被引量：3

同被引文献211

1杨博,赵鹏飞.推荐算法综述[J].山西大学学报（自然科学版）,2011,34(3):337-350. 被引量：85
2晏明军.基于Java的OPC客户端的实现[J].电子技术（上海）,2010(7):56-57. 被引量：2
3熊亚军,廖晓农,李梓铭,张小玲,孙兆彬,赵秀娟,赵普生,马小会,蒲维维.KNN数据挖掘算法在北京地区霾等级预报中的应用[J].气象,2015,41(1):98-104. 被引量：51
4马建刚,黄涛,汪锦岭,徐罡,叶丹.面向大规模分布式计算发布订阅系统核心技术[J].软件学报,2006,17(1):134-147. 被引量：128
5项亮,陈义,王益.推荐系统实践.人民邮电出版社,2012:45-53,131-133.
6Gediminas Adomavicius,Ramesh Sankaranarayanan,Shahana Sen,Alexander Tuzhilin.Incorporating contextual information in recommender systems using a multidimensional approach[J].ACM Transactions on Information Systems (TOIS).2005(1)
7Ungar L.H,Foster D.P.Clustering methods for collaborative filtering. Workshop on Recommendation Systems at the Fifteenth National Conference on Artificial Intelligence . 1998
8De Carolis,B,Mazzotta,I,Novielli,N,Silvestri,V.Using common sense in providing personalized recommendations in the tourism domain. Workshop on Context-Aware Recommender Systems (CARS 2009) . 2009
9王芳卫,贾学军,梁天骄,何伦华,殷雯,张绍英,朱涛,于全芝,王平.散裂中子源靶站谱仪的物理设计[J].物理,2008,37(6):449-453. 被引量：24
10张宁.群体兴趣网的统计特性研究[J].上海理工大学学报,2008,30(3):243-248. 被引量：18

引证文献37

1张丽珍.获取地形图的失量图形文件的方法[J].工程设计与研究（长沙）,2000(1):32-33.
2洪燕云.创新思维与创新技法的应用[J].茶叶机械杂志,2000(2):1-2. 被引量：2
3孙超,王永贵,常夏勤,陆鑫,顾全.面向电力大数据的异构数据混合采集系统[J].计算机系统应用,2018,27(12):62-68. 被引量：6
4王仲生.基于kafka消息队列的文本处理技术研究[J].软件导刊.教育技术,2016,15(12):87-89. 被引量：4
5蔡鲲鹏.基于Flink平台的应用研究[J].现代工业经济和信息化,2017,7(2):99-101. 被引量：6
6王郑合,王锋,邓辉,柳翠寅,张晓丽.一种优化的Kafka消费者/客户端负载均衡算法[J].计算机应用研究,2017,34(8):2306-2309. 被引量：18
7李晓蕴.煤矿现场数据库中的关键技术[J].神华科技,2017,15(10):25-28. 被引量：1
8陈慧卿.基于SNMP的容量管理系统设计[J].自动化与信息工程,2017,38(5):29-32.
9徐仕成.突发事件场景的实时性能监测设计与实现[J].移动通信,2018,42(3):59-63. 被引量：2
10裴宏祥,于晓虹.基于kafka消息平台的软件系统设计[J].电子技术与软件工程,2018(18):39-39. 被引量：4

二级引证文献127

1吴舸,袁守正,孙鼎.运营商网络监控系统高可用性设计及应用[J].计算机系统应用,2020(11):87-91. 被引量：1
2孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
3吴莹,林聪.消息队列技术在车联网综合信息平台系统的应用[J].大众标准化,2022,4(1):37-39. 被引量：2
4张丽珍.获取地形图的失量图形文件的方法[J].工程设计与研究（长沙）,2000(1):32-33.
5洪燕云.创新思维与创新技法的应用[J].茶叶机械杂志,2000(2):1-2. 被引量：2
6曹耀辉.基于Spark平台的电商推荐系统的设计分析[J].自动化与仪器仪表,2017(7):100-103. 被引量：3
7刘承启,熊艳,黄文海.浅谈校园网大数据分析[J].科技广场,2017(6):120-124. 被引量：2
8贾利娟,朱斌杰.一种基于运营商大数据的信用风险控制模型[J].电子设计工程,2018,26(1):48-51. 被引量：6
9金双喜,李永,吴骅,武文广,李俊臣,张新艳.基于Kafka消息队列的新一代分布式电量采集方法研究[J].智慧电力,2018,46(2):77-82. 被引量：16
10王同军.智能铁路总体架构与发展展望[J].铁路计算机应用,2018,27(7):1-8. 被引量：191

1周先刚,彭辉.数据库中间件在铁路综合应用系统中的应用[J].铁路计算机应用,2005,14(11):34-36.
22016 IDC亚太及中国ICT市场趋势论坛举行[J].中国金融电脑,2016,0(7):96-96.
3许成涛.物联网及云计算技术在宝钢的应用[J].机械设计与制造工程,2012,41(08X):37-39.
4孙高峰.企业低成本磁盘阵列[J].网管员世界,2007(12):13-13.
5王新.分布式数据库——海量数据的最优选择[J].信息与电脑,2015,0(5):38-40. 被引量：1
6徐宁,黄双,秦元庆,周纯杰.基于DM6467T的工业智能相机信息安全策略设计[J].电视技术,2013,37(19):102-105.
7庞有为.解决安全问题不能“头痛医头”[J].通信世界,2008(44).
8徐旭东,郭瑞,文瑞洁.分布式下MongoDB对激光点云的存储和处理研究[J].计算机应用与软件,2017,34(2):71-73. 被引量：6
9王正明,白帆,徐文钢,林正昱.一种基于Sharding碎片技术提升分布式非结构化数据库扩展能力的方法[J].兰州工业学院学报,2013,20(6):12-17. 被引量：2
10崔应霞,李龙澍,姚晟.组合测试用例集的动态生成算法[J].电子科技大学学报,2011,40(4):612-615. 被引量：3

软件

2016年第1期

浏览历史

内容加载中请稍等...

一种基于Kafka的可靠的Consumer的设计方案被引量：37

参考文献4

二级参考文献34

共引文献29

同被引文献211

引证文献37

二级引证文献127

相关作者

相关机构

相关主题

浏览历史

一种基于Kafka的可靠的Consumer的设计方案 被引量：37

参考文献4

二级参考文献34

共引文献29

同被引文献211

引证文献37

二级引证文献127

相关作者

相关机构

相关主题

浏览历史

一种基于Kafka的可靠的Consumer的设计方案被引量：37