期刊文献+

基于数据湖的海量异构实时处理技术的研究与应用

Research and Application of Multi-source Heterogeneous Data Integration Based on Flink Computing Engine
下载PDF
导出
摘要 按照数字中国“2522”的整体框架要求,需持续夯实数据资源体系,充分发挥数据作为新生产要素的关键作用,在新一代数字科技的支撑和引领下,以数据为关键要素,以价值释放为核心,以数据赋能为主线,推动数字化转型,通过“上云用数赋智”行动,实现高质量的发展。随着企业业务的发展,企业数据数据量不断膨胀,在当前环境下,流批数据复用场景越来越多。传统架构使用数据仓库来处理批计算场景,使用流平台处理流计算场景。相对传统架构,数据湖可以一份存储、批流两用,实现近实时的处理能力,直接进行高效的数据分析。文中提出了一种基于数据湖的数据处理方案,在解决流式处理痛点的同时,实时批流一体处理模式。相对于传统的数据处理模式,流式数据处理有着更高的处理效率和成本控制能力。 According to the overall framework requirements of Digital Chinas“2522”,it is necessary to continuously consolidate the data resource system,give full play to the key role of data as a new production factor,and under the support and guidance of the new generation of digital technology,take data as the key element,release value as the core,take data empower as the main line,promote digital transformation,and achieve high-quality development through the“cloud with data intelligence”action.With the development of enterprise business,the amount of enterprise data data continues to expand.In the current environment,there are more and more reuse scenarios for streaming batch data.Traditional architectures use data warehouses to handle batch computing scenarios,and use streaming platforms to handle streaming computing scenarios.Compared with traditional architectures,data lakes can be used for both storage and batch streaming,achieving near-real-time processing capabilities and directly performing efficient data analytics.This paper proposes a data processing solution based on data lakes,which not only solves the pain points of streaming processing,but also integrates real-time batch and stream processing.Compared with traditional data processing models,streaming data processing has higher processing efficiency and cost control capabilities.
作者 叶浩 张承琪 张亚威 申小军 杨孟新 YE Hao;ZHANG Chenqi;ZHANG Yawei;SHEN Xiaojun;YANG Mengxin(China United Network Communications Corporation Limited,Jinan 250100,China)
出处 《移动信息》 2024年第4期298-300,315,共4页 MOBILE INFORMATION
关键词 湖仓一体 Flink 计算引擎 Integrated lake and warehouse Flink Computing engine
  • 相关文献

参考文献4

二级参考文献29

  • 1王红霞,朱喜林,马季兰,王志伟.气象数据仓库建立及数据统计与挖掘[J].太原理工大学学报,2006,37(S1):101-103. 被引量:5
  • 2沈文海,赵芳,高华云,高峰,马强.国家级气象资料存储检索系统的建立[J].应用气象学报,2004,15(6):727-736. 被引量:54
  • 3李军龙,张剑,张丛,陈全功.气象要素空间插值方法的比较分析[J].草业科学,2006,23(8):6-11. 被引量:110
  • 4刘爱容.气象信息共享平台的开发技巧[J].气象与环境科学,2007,30(B09):201-202. 被引量:15
  • 5秋黎华,卢光辉,陈文源.上海市气象数据资料建设与共享[D].电子科技大学,2009.
  • 6胡志杰,周小佳,丁里.重庆民航气象数据采集处理分析系统研究与实现[D].电子科技大学,2010.
  • 7卓为,肖冬荣.气象数据的分类挖掘和预测研究[D].南京信息工程大学,2005.
  • 8Chuanzhi Liu,Yongbin Liu. A Case Study of Data Grid and GIS Tech- nology for E-science Application [ C ]//2009 Fifth International Confer- ence on Semantics, Knowledge and Grid, Zhuhai China ,2009:12 -14.
  • 9郭旭,高福祥.气象数据管理与预报系统的设计与实现[D].东北大学,2008.
  • 10王红霞,马季兰.气象数据仓库的建立及其上数据挖掘[D].太原理工大学,2006.

共引文献49

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部