大数据流式计算:关键技术及系统实例被引量：312

Big Data Stream Computing: Technologies and Instances

下载PDF

导出

摘要大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战. Batch computing and stream computing are two important forms of big data computing. The research and discussions on batch computing in big data environment are comparatively sufficient. But how to efficiently deal with stream computing to meet many requirements, such as low latency, high throughput and continuously reliable running, and how to build efficient stream big data computing systems, are great challenges in the big data computing research. This paper provides a research of the data computing architecture and the key issues in stream computing in big data environments. Firstly, the research gives a brief summary of three application scenarios of stream computing in business intelligence, marketing and public service. It also shows distinctive features of the stream computing in big data environment, such as real time, volatility, burstiness, irregularity and infinity. A well-designed stream computing system always optimizes in system structure, data transmission, application interfaces, high-availability, and so on. Subsequently, the research offers detailed analyses and comparisons of five typical and open-source stream computing systems in big data environment. Finally, the research specifically addresses some new challenges of the stream big data systems, such as scalability, fault tolerance, consistency, load balancing and throughput.

作者孙大为张广艳郑纬民

机构地区清华大学计算机科学与技术系符号计算与知识工程教育部重点实验室(吉林大学)

出处《软件学报》 EI CSCD 北大核心 2014年第4期839-862,共24页 Journal of Software

基金国家自然科学基金(61170008 61272055) 国家重点基础研究发展计划(973)(2014CB340402) 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K12)

关键词大数据计算流式计算流式大数据内存计算系统实例 big data computing stream computing stream big data memory computing system instance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：260
2覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
3亓开元,赵卓峰,房俊,马强.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012,35(3):477-490. 被引量：95
4覃雄派,王会举,李芙蓉,李翠平,陈红,周烜,杜小勇,王珊.数据管理技术的新格局[J].软件学报,2013,24(2):175-197. 被引量：110
5王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
6孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2391
7李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1604
8冯芷艳,郭迅华,曾大军,陈煜波,陈国青.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013,16(1):1-9. 被引量：513

二级参考文献628

1Zhou MQ, Zhang R, Zeng DD, Qian WN, Zhou AY. Join optimization in the MapReduce environment for column-wise data store. In: Fang YF, Huang ZX, eds. Proc. of the SKG. Ningbo: IEEE Computer Society, 2010.97-104. [doi: 10.1109/SKG.2010.18].
2Afrati FN, Ullman JD. Optimizing joins in a Map-Reduce environment. In: Manolescu I, Spaecapietra S, Teubner J, Kitsuregawa M, Leger A, Naumann F, Ailamaki A, Ozcan F, eds. Proc. of the EDBT. Lausanne: ACM Press, 2010. 99-110. [doi: 10.1145/ 1739041.1739056].
3Sandholm T, Lai K. MapReduce optimization using regulated dynamic prioritization. In: Douceur JR, Greenberg AG, Bonald T, Nieh J, eds. Proc. of the SIGMETRICS. Seattle: ACM Press, 2009. 299-310. [doi: 10.1145/1555349.1555384].
4Hoefler T, Lumsdaine A, Dongarra J. Towards; efficient MapReduce using MPI. In: Oster P, ed. Proc. of the EuroPVM/MPI. Berlin: Springer-Verlag, 2009. 240-249. [doi: 10.100'7/978-3-642-03770-2_30].
5Nykiel T, Potamias M, Mishra C, Kollios G, Koudas N. MRShare: Sharing across multiple queries in MapReduce. PVLDB, 2010, 3(1-2):494-505.
6Kambatla K, Rapolu N, Jagannathan S, Grama A. Asynchronous algorithms in MapReduce. In: Moreira JE, Matsuoka S, Pakin S, Cortes T, eds. Proc. of the CLUSTER. Crete: IEEE Press, 2010. 245-254. [doi: 10.1109/CLUSTER.2010.30].
7Polo J, Carrera D, Becerra Y, Torres J, Ayguad6 E, Steinder M, Whalley I. Performance-Driven task co-scheduling for MapReduce environments. In: Tonouchi T, Kim MS, eds. Proc. of the 1EEE Network Operations and Management Symp. (NOMS). Osaka: IEEE Press, 2010. 373-380. [doi: 10.1109/NOMS.2010.5488494].
8Zaharia M, Konwinski A, Joseph AD, Katz R, Stoica I. Improving MapReduce performance in heterogeneous environments. In: Draves R, van Renesse R, eds. Proc. of the ODSI. Berkeley: USENIX Association, 2008.29-42.
9Xie J, Yin S, Ruan XJ, Ding ZY, Tian Y, Majors J, Manzanares A, Qin X. Improving MapReduce performance through data placement in heterogeneous Hadoop clusters. In: Taufer M, Rfinger G, Du ZH, eds. Proc. of the Workshop on Heterogeneity in Computing (IPDPS 2010). Atlanta: IEEE Press, 2010. 1-9. [doi: 10.1109/IPDPSW.2010.5470880].
10Polo J, Carrera D, Becerra Y, Beltran V, Torres J, Ayguad6 E. Performance management of accelerated MapReduce workloads in heterogeneous clusters. In: Qin F, Barolli L, Cho SY, eds. Proc. of the ICPP. San Diego: IEEE Press, 2010. 653-662. [doi: 10.1109/ ICPP.2010.73].

共引文献5239

1万瑞霖,杨言鑫(指导).大数据环境下的市场营销方式改革发展新方向[J].中外企业家,2020,0(16):83-83. 被引量：8
2范文芳,王千.个性化智能推荐对消费者在线冲动购买意愿的影响研究[J].管理评论,2022,34(12):146-156. 被引量：24
3陈春花,梅亮,尹俊.数字化情境下组织价值主张的识别与开发:基于企业微信的案例研究[J].管理评论,2021(1):330-339. 被引量：15
4韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
5李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
6孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
7任晓宇.探究大数据统计分析方法在经济管理领域中的运用[J].质量与市场,2020(22):100-101. 被引量：1
8闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
9叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：1
10张人戈,于平.运用信息技术改造传统产业正当时——大数据与实体经济融合的必要性分析[J].时代金融,2019,0(32):13-14.

同被引文献1914

1江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
2张笑东,夏筱筠,吕海峰,公绪超,廉梦佳.大数据网络并行计算环境中生理数据流动态负载均衡[J].吉林大学学报（工学版）,2020,50(1):247-254. 被引量：11
3陆炜.智能化背景下汽车维修行业的发展[J].汽车周刊,2023(7):165-167. 被引量：1
4胡桥张,周锁,何正嘉.机械设备运行状态智能评估研究[J].振动工程学报,2004,17(z1):313-316. 被引量：4
5钱肖鲁,朱建秋,朱扬勇.DMVisualMiner:一个可视化数据挖掘分析平台[J].计算机工程,2003,29(z1):148-150. 被引量：5
6方滨兴,殷丽华.关于信息安全定义的研究[J].信息网络安全,2008(1):8-10. 被引量：22
7刘艳芳,赵欣.我国大型活动安保工作存在的问题及对策[J].中国公共安全（学术版）,2008(1):62-66. 被引量：18
8杨静,孙光民,王鹏.数字信号处理算法软件开发[J].北京工业大学学报,2000,26(z1):41-45. 被引量：2
9龚伟林,李德玉,王素格,程利涛.基于模糊区分矩阵的区间值信息系统属性约简[J].山西大学学报（自然科学版）,2011,34(3):381-387. 被引量：3
10包研科,赵凤华.多标度数据轮廓相似性的度量公理与计算[J].辽宁工程技术大学学报（自然科学版）,2012,31(5):797-800. 被引量：9

引证文献312

1张彦,谢兴生,陈晓雨.一种处理大数据的复杂适应系统框架设计[J].电子技术（上海）,2021,50(3):22-25.
2冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
3程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：739
4徐菲菲,雷景生,毕忠勤,苗夺谦,杜海舟.大数据环境下多决策表的区间值全局近似约简[J].软件学报,2014,25(9):2119-2135. 被引量：22
5崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50
6侯洁,张希坤.云计算环境聚合与协同机理研究[J].网络安全技术与应用,2015(1):67-67.
7许振佳,倪建成.一种基于双层架构的流数据聚类算法[J].电子技术（上海）,2015,0(3):34-38.
8赵苏阳,李艳军,钱小燕,曹愈远,许振腾,乔磊,汪雷.大数据基本概念、技术与挑战[J].现代计算机（中旬刊）,2015(3):51-54. 被引量：9
9熊柏祥,石国凤.流式实时分布式计算系统的设计要点[J].移动信息,2015,0(1):36-36. 被引量：1
10官思发,孟玺,李宗洁,刘扬.大数据分析研究现状、问题与对策[J].情报杂志,2015,34(5):98-104. 被引量：74

二级引证文献2970

1刘晓宁.基于大数据的电力企业物资管理模式优化探讨[J].中外企业家,2019,0(35):24-24. 被引量：2
2郭玉洁,何钰,刘家强,周英华,吴超.大数据技术在中原城市群科技服务资源池构建中的应用[J].中国基础科学,2020(5):41-44.
3杨挺,李大帅,蔡绍堂,杨风霞.面向用户隐私保护的用电数据压缩加密方法[J].中国电机工程学报,2022,42(S01):58-69. 被引量：3
4张定祥,张华,李士江.全国农业资源一张图研制技术探讨[J].中国农业资源与区划,2021,42(12):1-7. 被引量：2
5罗振威,吴少楠,曾莉,陈嘉俊,鄢天毕.数据自动校准技术在保护动作报文远程输出中的应用研究[J].自动化与仪器仪表,2020(4):205-208.
6佘硕,陈鑫.2013年以来社会安全事件应急管理研究综述[J].中国应急管理科学,2023(8):23-37.
7张庆,轩扬,吕少妮.大数据环境下信息组织课程教学改革探索[J].医学信息学杂志,2019,40(10):91-93. 被引量：2
8刘洋.谈基于结合大数据技术的用户画像推荐方法[J].新闻传播,2019,0(24):29-30.
9吕明元,苗效东.大数据能促进中国制造业结构优化吗?[J].云南财经大学学报,2020,0(3):31-42. 被引量：28
10王鹏,尚浩.任务机风机不工作故障分析[J].中国新技术新产品,2019,0(24):42-43.

1牛晨晨.大数据流式计算的关键技术研究[J].枣庄学院学报,2017,34(2):110-115. 被引量：3
2刘子英,唐宏建,肖嘉耀,张骞.基于流式计算的Web实时故障诊断分析与设计[J].华东交通大学学报,2014,31(1):119-123. 被引量：8
3占超群（离哲）.大数据[J].程序员,2012(1):32-33.
4杨栋.一脉相承的高可用技术从分布式系统到流式计算[J].程序员,2011(11):102-105.
5许承启,何利文,王延松,呼学理,牛小兵.基于流式计算的DDoS实时检测方法[J].计算机应用研究,2017,34(3):892-896. 被引量：1
6梁毅,侯颖,陈诚,金翊.面向大数据流式计算的任务管理技术综述[J].计算机工程与科学,2017,39(2):215-226. 被引量：10
7祝锡永,庞培培.大数据流式计算系统综述[J].成组技术与生产现代化,2016,33(4):49-54. 被引量：3
8丁莹.流式计算盘活大数据[J].信息方略,2012(9):57-60.
9张华,王东辉,吴烜.流式计算的分布式框架的应用[J].信息与电脑（理论版）,2014,0(10):142-143. 被引量：3
10流式计算之Storm[J].信息方略,2012(9):61-61.

软件学报

2014年第4期

浏览历史

内容加载中请稍等...

大数据流式计算:关键技术及系统实例被引量：312

参考文献8

二级参考文献628

共引文献5239

同被引文献1914

引证文献312

二级引证文献2970

相关作者

相关机构

相关主题

浏览历史

大数据流式计算:关键技术及系统实例 被引量：312

参考文献8

二级参考文献628

共引文献5239

同被引文献1914

引证文献312

二级引证文献2970

相关作者

相关机构

相关主题

浏览历史

大数据流式计算:关键技术及系统实例被引量：312