面向大规模感知数据的实时数据流处理方法及关键技术被引量：9

Real-time data stream processing and key techniques oriented to large-scale sensor data

下载PDF

导出

摘要为了在大规模历史感知数据基础上实现针对高速传感数据流的实时计算,提出一种面向大规模历史数据的数据流处理方法RTMR,通过中间结果缓存、流水化和本地化改进了MapReduce的数据流处理能力。在此基础上,为了适应性地构造RTMR集群,利用模型分析方法根据应用特征和集群环境配置节点类型和拓扑结构。为实现集群的负载均衡,通过计算负载状态转换关系分组空闲节点和过载节点,将NP难的动态负载均衡问题快速分解为规模较小的子问题,并且综合执行时间和数据移动代价作为子问题的优化目标,提高应对负载倾斜的反应速度。实验表明,上述方法和技术能够保障大规模历史数据上数据流处理的可伸缩性。 With the development of Internet of Things, how to realize real time computation for high speed data stream based on large scale history sensor data became a new challenge to cloud manufacturing. A processing meth- od named Real-Time MapReduce （RTMR） oriented to large scale historical data was proposed, which improved data stream processing capacity of MapReduce through intermediate result cache, pipelining and localization. To con- struct RTMR sets, the model analysis method was used to configure the node type and topological structure based on application characteristics and cluster environments. Furthermore, to realize cluster load balancing, the idle nodes and overload nodes were grouped by computing load state transition relation. Thus the dynamic load balancing problem of NP hard was decomposed into small scale sub-problems, and execution time as well as data cost were in- tegrated as sub-problem＇s optimization objective. The experiment result showed that the proposed method and tech- nology could ensure the scalability for data stream processing of large scale historical data.

作者亓开元韩燕波赵卓峰马强

机构地区北方工业大学云计算研究中心中国科学院计算技术研究所中国科学院大学

出处《计算机集成制造系统》 EI CSCD 北大核心 2013年第3期641-653,共13页 Computer Integrated Manufacturing Systems

基金国家自然科学基金资助项目(60903137 60970132)~~

关键词数据流处理大规模数据处理 MapReduce方法适应性架构负载均衡 data stream processing large scale data processing MapReduce adaptive architecture~ load balance

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1MOTWANI R, WIDOM J, ARASU A, et al. Query process- ing, resource management, and approximation in a data stream management system[C]//Proceedings of the 1st Biennial Con- ference on Innovative Data Systems Research. New York, N. Y., USA.- ACM Press, 2003..176-187.
2ABADI D J, AHMAD Y, BALAZINSKA M, et al. The de- sign of the Borealis stream processing engine[C]// Proceed- ings of the 2nd Biennial Conference on Innovative Data Systems Research. New York, N. Y., USA: ACM Press, 2005.. 277-289.
3金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
4DEAN J, GHEMAWAT S. MapReduce: simplified data pro- cessing on large clusters[J]. ACM Communication, 2008, 51 (1):107-113.
5SHAH M A, HELLERSTEIN J M, CHANDRASEKARAN S, et al. Apache hadoop [EB/OL]. [2011-08-17]. http..//ha- doop. apache, org/.
6RANGER C, RAGHURAMAN R, PENMETSA A, et al. E- valuating map reduce for multi-core and multiprocessor sys- tems[C]//Proceedings of the 13th International Conference on High-Performance Computer Architecture. Washington, D. C. , USA: IEEE Computer Society, 2007: 13-24.
7KAASHOEK F, MORRIS R, MAO Y. Optimizing MapRe- duce for multicore architectures[R]. Boston, Mass. , USA: MIT Computer Science and Artificial Intelligence Laboratory, 2010.
8CHANG F, DEAN J, GHEMAWAT S, et al. Bigtable: a distributed storage system for structured data[C]//Proceed- ings of the 7th Symposium on Operating Systems Design and Implementation. Berkeley, Cal. , USA: USENIX Association, 2006: 205-218.
9HEISS H, SCHMITZ M. Decentralized dynamic loadbalanc- ing: the particles approach[J]. Information Sciences, 1995, 84(2):115-128.
10刘振英,方滨兴,胡铭曾,张毅.一个有效的动态负载平衡方法[J].软件学报,2001,12(4):563-569. 被引量：37

二级参考文献68

1韩东红,王国仁.数据流系统中卸载技术研究综述[J].计算机科学,2005,32(8):102-105. 被引量：3
2温钰洪,王鼎兴,郑纬民.异构机群系统中的最优处理机分配算法[J].计算机学报,1996,19(3):161-167. 被引量：8
3Hui Chichung，J Parallel Distributed Computing，1997年，43卷，2期，139页
4Zaki M J，J Parallel Distributed Computing，1997年，43卷，2期，156页
5Babcock B, Babu S, Datar M, Motwani R, Widom J. Models and issues in data streams. In: Popa L, ed. Proc. of the 21st ACM SIGACT-SIGMOD-SIGART Symp. on Principles of Database Systems. Madison: ACM Press, 2002. 1～16.
6Terry D, Goldberg D, Nichols D, Oki B. Continuous queries over append-only databases. SIGMOD Record, 1992,21(2):321-330.
7Avnur R, Hellerstein J. Eddies: Continuously adaptive query processing. In: Chen W, Naughton JF, Bernstein PA, eds. Proc. of the 2000 ACM SIGMOD Int'l Conf. on Management of Data. Dallas: ACM Press, 2000. 261～272.
8Hellerstein J, Franklin M, Chandrasekaran S, Deshpande A, Hildrum K, Madden S, Raman V, Shah MA. Adaptive query processing: Technology in evolution. IEEE Data Engineering Bulletin, 2000,23(2):7-18.
9Carney D, Cetinternel U, Cherniack M, Convey C, Lee S, Seidman G, Stonebraker M, Tatbul N, Zdonik S. Monitoring streams?A new class of DBMS applications. Technical Report, CS-02-01, Providence: Department of Computer Science, Brown University, 2002.
10Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In: Blum A, ed. The 41st Annual Symp. on Foundations of Computer Science, FOCS 2000. Redondo Beach: IEEE Computer Society, 2000. 359-366.

共引文献207

1田李,王乐,贾焰,邹鹏,李爱平.分布式数据流上低通信开销的连续极值查询方法研究[J].计算机研究与发展,2007,44(z3):61-66.
2陈飞波,钱卫宁,周傲英.基于最窄平行四边形的数据流突变检测算法[J].计算机研究与发展,2007,44(z3):505-510.
3何月梅,杜海艳,王保民.分形技术与矢量量化相结合的网络流量异常检测研究[J].邯郸学院学报,2009,19(3):73-76.
4曾志,刘仁义,李先涛,张丰,包卫正.一种基于分块的遥感影像并行处理机制[J].浙江大学学报（理学版）,2012,39(2):225-230. 被引量：15
5秦林新,刘奇志.一种乱序数据流上的偏倚抽样算法[J].计算机研究与发展,2011,48(S3):298-303.
6张明明,芦琳.电能计量中的异常数据研究[J].电气应用,2013,0(S1):42-46. 被引量：2
7孟令奎,邓世军,赵春宇,林志勇.多服务器技术在WebGIS中的应用[J].武汉大学学报（信息科学版）,2004,29(9):832-835. 被引量：10
8魏文国,张凌,董守斌,谢赞福.一个高效可靠的Web farm系统[J].计算机工程与设计,2004,25(6):856-858.
9朱志,朱义,邢春晓.一种基于中间件的自适应动态负载平衡方法[J].计算机工程与应用,2004,40(34):71-74. 被引量：2
10冯景超.一种异构NOWs上负载均衡的适应式并行调度算法[J].计算机工程与设计,2004,25(12):2291-2293.

同被引文献106

1刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
2钟小勇,朱海平,万云龙,余钱红.基于物联网的制造资源位置服务系统[J].华中科技大学学报（自然科学版）,2012,40(S1):284-287. 被引量：2
3王国新,中岛秀人,阎艳,张祥.刀具准备过程集成建模与智能跟踪方法研究[J].兵工学报,2009,30(S1):119-125. 被引量：3
4金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
5张大为,梁宇琪,刘迪.PCI Express协议实现与验证[J].现代电子技术,2012,35(4):123-125. 被引量：3
6臧传真,范玉顺.基于智能物件的实时企业复杂事件处理机制[J].机械工程学报,2007,43(2):22-32. 被引量：21
7邓华锋,刘云生,肖迎元.分布式数据流处理系统的动态负载平衡技术[J].计算机科学,2007,34(7):120-123. 被引量：12
8刘卫宁,黄文雷,孙棣华,赵敏,郑林江.基于射频识别的离散制造业制造执行系统设计与实现[J].计算机集成制造系统,2007,13(10):1886-1890. 被引量：92
9王治森,高荣,董伯麟,黄小峰,章建科.基于Web服务的移动控制数控系统关键技术研究[J].中国机械工程,2007,18(21):2570-2575. 被引量：4
10Michael Smit,Bradley Simmons,Marin Litoiu.Distributed, application-level monitoring for heterogeneous clouds using stream processing[J].Future Generation Computer Systems.2013

引证文献9

1张雪莱,杨天剑.大数据技术在CIMS监测和分析海量工业数据中的应用[J].中国新通信,2015,17(14):78-80.
2赵勇,林辉,赵志刚,李小龙.智能电网流处理平台设计及应用[J].网络新媒体技术,2015,4(4):14-21. 被引量：1
3张东,亓开元,吴楠,辛国茂,刘正伟,颜秉珩,郭锋.云海大数据一体机体系结构和关键技术[J].计算机研究与发展,2016,53(2):374-389. 被引量：9
4王丽娜,余荣威,付楠,鞠瑞,徐鹏志.基于大数据分析的APT防御方法[J].信息安全研究,2015,1(3):230-237. 被引量：8
5张楠,柴小丽,谢彬,唐鹏.Storm流处理平台中负载均衡机制的实现[J].计算机与现代化,2017(12):65-70. 被引量：7
6陈国良,尧海昌,李航,叶青,刘尚东,季一木,王汝传.大数据一体机关键技术及应用研究[J].南京邮电大学学报（自然科学版）,2018,38(1):1-19. 被引量：4
7唐时荞.基于GIS的智慧园区动态感知数据服务平台的设计与实现[J].物联网技术,2022,12(9):32-34. 被引量：5
8朱征,于帅鹏,赵志刚,吴金龙.基于流计算的实时监控预警架构研究及应用[J].华东电力,2014,42(11):2316-2322. 被引量：3
9黄少华,郭宇,查珊珊,方伟光,王发麟.离散车间制造物联网及其关键技术研究与应用综述[J].计算机集成制造系统,2019,25(2):284-302. 被引量：58

二级引证文献95

1王钊,竺佳,金姗,张晓娜,张喆.对象代理数据库的分布式存储负载均衡算法[J].科技通报,2020(11):21-25. 被引量：3
2胡楚阳,柳先辉,赵卫东.基于规则链的网络协同制造数据融合方法研究[J].计算机科学,2022,49(S02):219-225.
3洪海波,陈锦华,左丽玲,杨辰,吕佑龙.基于数字孪生的航天制造车间设备能力评估与动态调度方法[J].航天制造技术,2022(3):12-17. 被引量：2
4刘长阳,燕小博,楼虎,李保强.制造飞轮储能装置的离散型智能工厂建设[J].成组技术与生产现代化,2023,40(3):11-17.
5冯馨锐,谢彬,唐鹏,秦健.Storm集群下基于性能感知的负载均衡策略[J].计算机系统应用,2018,27(12):181-186. 被引量：1
6董娜,张君艳,刘伟娜,常杰.电网企业APT攻击防御存在的问题及防御措施[J].河北电力技术,2016,35(4):25-27. 被引量：3
7吕欣,韩晓露.大数据安全和隐私保护技术架构研究[J].信息安全研究,2016,2(3):244-250. 被引量：49
8张新刚,于波,王保平,田燕.大数据信息安全典型风险及保障机制[J].创新科技,2016,16(10):75-77. 被引量：7
9张新刚,于波,田燕,王保平.大数据时代高校网络空间安全层次化保障体系分析[J].网络安全技术与应用,2017(1):104-105. 被引量：7
10房鹏杰.环保大数据对企业运营管理的作用[J].中国市场,2017(22):172-173.

1宋郁盛.快速分解过程文件[J].中国计算机用户,1991(4):12-13.
2阳锋,周达林.并行数据库负载平衡策略研究[J].湘潭大学自然科学学报,2008,30(2):116-119.
3孙晔慧,罗汉文.一种新型实用而简单的PCI系统配置方案[J].通信技术,2001,34(9):49-51.
4白玉杰,夏方,程顺达.基于MongoDB的文件存储系统的设计与实现[J].衡水学院学报,2016,18(4):8-9. 被引量：1
5fox.快速分解多图集合的扫描件[J].电脑迷,2008,0(16):72-72.
6杨旗,薛定宇.基于稀疏表示及分段帧差能量图的步态识别[J].信息与控制,2013,42(1):27-32. 被引量：2
7杨顺韬.基于LVS的高性能负载均衡集群系统的设计[J].广西民族大学学报（自然科学版）,2012,18(2):48-52. 被引量：1
8陶德宁.一种新的快速分解Actinide^(TM)树脂的方法及其应用[J].铀矿冶,2007,26(1):18-18.
9关文政,张义爽,别康,郑佳佳,张杰.离散小波多尺度快速分解算法Java实现[J].无线互联科技,2015,12(18):139-139.
10张德强,祁亚玲.iBatis.Net(C#)系列二:SQL数据映射[J].电脑编程技巧与维护,2013(7):5-11. 被引量：1

计算机集成制造系统

2013年第3期

浏览历史

内容加载中请稍等...

面向大规模感知数据的实时数据流处理方法及关键技术被引量：9

参考文献16

二级参考文献68

共引文献207

同被引文献106

引证文献9

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

面向大规模感知数据的实时数据流处理方法及关键技术 被引量：9

参考文献16

二级参考文献68

共引文献207

同被引文献106

引证文献9

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

面向大规模感知数据的实时数据流处理方法及关键技术被引量：9