一种正交分解大数据处理系统设计方法及实现被引量：12

An Orthogonal Decomposition Based Design Method and Implementation for Big Data Processing System

下载PDF

导出

摘要 MapReduce等计算框架的出现开启了大数据处理新纪元,以Hadoop,Spark为代表的大数据处理系统具有大吞吐率、跨平台、高可扩展的优势,并得到广泛应用.然而,为避免与具体的操作系统、硬件平台绑定,这些系统的设计与优化集中在计算模型、调度算法等方面,无法充分利用底层平台的优势.提出了一种基于正交分解的大数据处理系统设计与优化方法,将系统分解为松耦合的多个功能正交的模块,使存储、处理功能分离出来,交给能够利用底层平台操作系统甚至硬件资源的存储、执行引擎,原大数据系统退化为调度平台;进而,提出基于锁无关机制的存储底层优化策略和基于指令超级优化的执行引擎底层优化策略.以此为指导,以Hadoop作为兼容和改进的对象,实现了原型大数据处理系统Arion.Arion既能保持Hadoop的跨平台、高可扩展的优势,又能消除任务执行的瓶颈,其本地化的设计与优化手段对非Hadoop平台同样有效.通过在原型系统上的实验证明,Arion能够提升大数据处理任务的执行效率,最高达7.7%. Big data stimulates a revolution in data storage and processing field,resulting in the thriving of big data processing systems,such as Hadoop,Spark, e tc ,which build a brand new platform with platform independence,high throughput, and good scalability. On the other hand, substrate platform underpinning these systems are ignored because their designation and optimization mainly focus on the processing model and related frameworks ＆ algorithms. We here present a new loose coupled,platform dependent big data processing system designation ＆ optimization method which can exploit the power of underpinning platform, including OS and hardware, and get more benefit from these local infrastructures. Furthermore, based on local OS and hardware, two strategies, that is, lock-free based storage and super optimization based data processing execution engine, are proposed. Directed by the aforementioned methods and strategies, we present Arion, a modified version of vanilla Hadoop,which show us a new promising way for Hadoop optimization, meanwhile keeping its high scalability and upper layer platform independence. Our experiments prove that the prototype Arion can accelerate big data processing jobs up to 7.7%.

作者向小佳赵晓芳刘洋龚关俊张晗

机构地区中国科学院计算技术研究所北方工业大学计算机学院

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第5期1097-1108,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61202061 61202413) 中国科学院计算技术研究所创新课题项目(20146080)~~

关键词大数据处理系统计算框架本地化锁无关超级优化执行引擎 big data processing system computing framework localization lock free super optimization excecution engine

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：711

二级参考文献68

1Big data. Nature, 2008, 455(7209): 1-136.
2Dealing with data. Science,2011,331(6018): 639-806.
3Holland J. Emergence: From Chaos to Order. RedwoodCity,California: Addison-Wesley? 1997.
4Anthony J G Hey. The Fourth Paradigm: Data-intensiveScientific Discovery. Microsoft Research, 2009.
5Phan X H, Nguyen L M,Horiguchi S. Learning to classifyshort and sparse text Web with hidden topics from large-scale data collections//Proceedings of the 17th InternationalConference on World Wide Web. Beijing, China,2008:91-100.
6Sahami M, Heilman T D. A web-based kernel function formeasuring the similarity of short text snippets//Proceedingsof the 15th International Conference on World Wide Web.Edinburgh, Scotland, 2006: 377-386.
7Efron M, Organisciak P,Fenlon K. Improving retrieval ofshort texts through document expansion//Proceedings of the35th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval. Portland, OR, USA,2012: 911-920.
8Hong L,Ahmed A, Gurumurthy S,Smola A J, Tsioutsiou-liklis K. Discovering geographical topics in the twitterstream//Proceedings of the 21st International Conference onWorld Wide Web(WWW 2012). Lyon, France, 2012:769-778.
9Pozdnoukhov A,Kaiser C. Space-time dynamics of topics instreaming text//Proceedings of the 3rd ACM SIGSPATIALInternational Workshop on Location-Based Social Networks.Chicago-IL,USA, 2011: 1-8.
10Sun Yizhou,Norick Brandon, Han Jiawei, Yan Xifeng, YuPhilip S,Yu Xiao. Integrating meta-path selection with user-guided object clustering in heterogeneous information net-works/ /Proceedings of the 18th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.Beijing, China, 2012: 1348-1356.

共引文献710

1张丛铄.基于大数据的研究生心理危机预警机制的构建[J].中国新通信,2020,0(2):80-81. 被引量：2
2吴嘉琪.一种基于ELK框架的地理信息动态时空数据获取与挖掘方法[J].测绘通报,2020(1):45-49. 被引量：2
3谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
4韩益亮,卢万谊,武光明,杨晓元.适用于网络大数据的属性基广义签密方案[J].计算机研究与发展,2013,50(S2):23-29. 被引量：2
5邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
6梁俊杰,熊亚军.以固态硬盘为缓存的存储技术研究[J].微电子学与计算机,2015,32(1):40-44. 被引量：2
7嵇梅.中国保健食品,明天还有“戏”吗?[J].新疆人大,2000(4):35-37.
8刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013(8):112-113. 被引量：29
9马晓亭.大数据时代图书馆数据长期可用性保障研究[J].现代情报,2013,33(12):62-64. 被引量：7
10王晴.大数据时代企业竞争情报的机遇、挑战及对策研究[J].天津商务职业学院学报,2013,1(4):83-87. 被引量：1

同被引文献106

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2吴宁,宋蔷,李水清,姚强.SCR烟气脱硝过程中SO_2和SO_3的测量[J].煤炭转化,2006,29(2):84-87. 被引量：21
3王光翔.数据仓库技术在招生决策系统中的应用[J].贵州大学学报（自然科学版）,2006,23(4):389-391. 被引量：5
4阎维平,黄景立,李钧,高宝桐.回转式空气预热器最低壁温与进口风温计算[J].热力发电,2007,36(4):47-49. 被引量：14
5马健越,安恩科.350MW电站低压省煤器优化设计[J].锅炉技术,2010,41(2):13-17. 被引量：20
6赵钦新,张知翔,杜文智,张智超.模拟气氛下硫酸露点的腐蚀试验研究[J].动力工程学报,2012,32(5):420-424. 被引量：22
7宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：538
8余琦,凌捷.基于HDFS的云存储安全技术研究[J].计算机工程与设计,2013,34(8):2700-2705. 被引量：26
9袁芬,徐从富.基于机会协作的农业物联网大数据处理系统设计[J].计算机应用,2014,34(7):2136-2139. 被引量：13
10魏萍,丁卯,左信,罗雄麟.基于微分方程对称的分布参数系统稳态控制[J].自动化学报,2014,40(10):2163-2170. 被引量：4

引证文献12

1李锦华.基于计算机软件工程技术的数据处理系统设计研究[J].信息系统工程,2018,31(5):28-28. 被引量：1
2黄华林,庞欣婷.基于Hadoop的数据资源管理平台设计[J].计算机应用与软件,2018,35(7):329-333. 被引量：14
3马杰.网络大数据信息处理平台的设计与实现[J].现代电子技术,2018,41(24):75-78. 被引量：1
4向韵麟.基于虚拟仪器的数据处理系统设计与实现[J].现代电子技术,2019,42(2):5-8. 被引量：4
5潘文秀.基于微分方程的大数据分类系统设计[J].现代电子技术,2019,42(4):27-30. 被引量：6
6谢梅源.基于大数据技术的高职招生平台建设研究[J].中国教育信息化,2019,25(7):62-65. 被引量：8
7李慧.基于大数据的智能高校信息综合处理平台设计[J].现代电子技术,2019,42(10):31-34. 被引量：4
8李芳菊.基于Hadoop的网络行为大数据安全实体识别系统设计[J].现代电子技术,2019,42(17):75-79. 被引量：15
9肖敏,张卫,周舟涛.大数据过程质量控制系统在钢铁生产中的应用[J].新一代信息技术,2019,2(20):14-19. 被引量：1
10詹青.基于数字标签的电子档案序列大数据并行分类系统设计[J].现代电子技术,2020,43(14):152-155. 被引量：3

二级引证文献56

1陈宁,陈孝文,冯世杰,吕志鹏,陈习,张娜,王岩.基于Hadoop的电力客户用电地址存储与结构化管理系统设计[J].微型电脑应用,2020,36(2):97-101. 被引量：4
2李蹊然.大数据分析基础上高职院校招生机制的构建研究——以宜春职业技术学院为例[J].大众标准化,2019,0(12):150-151. 被引量：1
3汤勇峰.计算机信息处理技术分析[J].信息与电脑,2019,0(14):11-12.
4余战秋,文晶晶.基于Hadoop云计算的在线考试题库管理系统设计与研发[J].鄂州大学学报,2019,26(6):98-100. 被引量：8
5朱春燕,杨燕艳.基于Hadoop区域智慧教育云平台的教育应用研究[J].科技传播,2019,11(23):100-102.
6王浩淼.用于智能电网大数据分析Lambda架构[J].信息技术,2020,44(2):161-166. 被引量：4
7任培花,李健浩.基于大数据车辆模拟运行及日志收集仿真研究[J].计算机技术与发展,2020,30(2):197-201. 被引量：1
8刘昕林,邓巍,黄萍,刘睿臻.基于Hadoop和Spark的可扩展性大数据分析系统设计[J].自动化与仪器仪表,2020,0(3):132-136. 被引量：9
9谢梅源.基于互联网运营模式的高职招生运营平台探索[J].中国教育信息化,2020,26(10):19-22. 被引量：2
10王海.大数据技术背景下高校计算机安全问题与对策讨论[J].信息记录材料,2020,21(5):33-34. 被引量：1

1段贵恒.客户端互动：随需用心凸显价值[J].中国电业,2014(2):19-21.
2cLinuxer.Vista大管家[J].计算机应用文摘,2007(01X):77-77.
3John C.Dvorak,江卫.操作系统的退化:何时能解决?[J].个人电脑,1996,0(9):54-54.
4李世胜,程歩奇,李晓峰,孙广中,陈国良.基于预测的JavaScript类型系统研究[J].计算机研究与发展,2012,49(2):421-431. 被引量：9
5董新峰,张为民,邓松.基于Lempel-Ziv指标的主轴系统退化[J].振动．测试与诊断,2015,35(1):17-23. 被引量：2
6魏勇,孙波,杨观赐.基于乘数交替方向法的系统图像退化恢复方法[J].重庆邮电大学学报（自然科学版）,2017,29(1):113-120. 被引量：2
7张力,钱恭斌,肖薇薇,纪震.基于双通道检测的多比特盲水印最优检测器的设计[J].电子与信息学报,2007,29(7):1717-1721. 被引量：2
8赖旭芝,张镇,吴敏,潘昌忠.欠驱动三连杆机器人的混杂控制方法[J].中国科学：信息科学,2013,43(2):287-302. 被引量：2
9孙佳佳.长江科学院承办欧盟第七框架项目第一次全体会议[J].长江科学院院报,2011,28(6).
10张华兵,刘红玉.盐城海滨湿地景观变化的生态环境效应分析[J].水土保持研究,2011,18(6):256-259. 被引量：2

计算机研究与发展

2017年第5期

浏览历史

内容加载中请稍等...

一种正交分解大数据处理系统设计方法及实现被引量：12

参考文献1

二级参考文献68

共引文献710

同被引文献106

引证文献12

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

一种正交分解大数据处理系统设计方法及实现 被引量：12

参考文献1

二级参考文献68

共引文献710

同被引文献106

引证文献12

二级引证文献56

相关作者

相关机构

相关主题

浏览历史

一种正交分解大数据处理系统设计方法及实现被引量：12