分布式系统下大数据存储结构优化研究被引量：7

Research on optimizing big data storage structure in distributed system

下载PDF

导出

摘要在分布式系统中,数据的存储结构直接影响了大数据的存储效率和处理性能。在行式存储结构下,数据从本地读取,加载速度快,但压缩效率低且存在数据冗余;在列式存储结构下,数据压缩效率高,但数据的跨节点访问增加了网络传输消耗。针对行式存储结构和列式存储结构的缺点,提出一种以行列结合的存储方式,对数据存储结构进行改进。实验结果表明,改进的数据存储结构在加载速度上略低于行式存储;在数据压缩上,比行式存储和列式存储的效率都高。行列结合的存储结构不仅避免行式存储的额外磁盘I/O开销,同时也减少了列式存储不必要的网络传输,极大地提高分布式系统对大数据存储效率及处理性能。 In a distributed system, the data storage structure directly affects the storage efficiency and processing performance of big data. In the row store structure, the data is loaded locally and the speed is fast, but it also loads additional columns, and it＇s hard to compress. The column store structure has high compression efficiency, but it has additional network transferring overhead. To overcome their storages and improve the data storage structure, this paper presents a new data storage structure combining row and column. The experiment result shows that it＇ s inferior a little in data loading to the row store structure, and it has high compression efficiency comparing with the row store structure and column store structure. It not only avoids additional disk I/O, but also cuts down the unnecessary network transfer time in column store. So, the row - column store can greatly improve big data storage and processing performance in distributed system.

作者冯汉超周凯东

机构地区河北工程大学信息与电气工程学院

出处《河北工程大学学报（自然科学版）》 CAS 2014年第4期69-73,共5页 Journal of Hebei University of Engineering:Natural Science Edition

关键词大数据分布式行列存储 big data distributed system row- column store

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

同被引文献86

1李志聪.数据挖掘中的分类分析算法及其应用[J].哈尔滨师范大学自然科学学报,2007,23(4):60-62. 被引量：1
2周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344. 被引量：41
3施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
4王新英,陈语林.数据抽取、转换、装载综述[J].企业技术开发,2004,23(8):3-5. 被引量：18
5罗会兰.数据提取、转换和装载技术研究[J].计算机工程与设计,2004,25(5):761-765. 被引量：6
6邹翔,张巍,刘洋,蔡庆生.分布式序列模式发现算法的研究[J].软件学报,2005,16(7):1262-1269. 被引量：19
7司徒浩臻.数据挖掘技术在图书馆信息服务中的应用[J].现代图书情报技术,2005(10):15-18. 被引量：37
8董云鹏.数据挖掘技术在图书馆中的应用[J].现代情报,2006,26(11):131-132. 被引量：23
9王曰芬,章成志,张蓓蓓,吴婷婷.数据清洗研究综述[J].现代图书情报技术,2007(12):50-56. 被引量：76
10Lü Linyuan, MEDO Matú?, CHI Hoyeung, et al. Recommender systems[J]. Physics Reports, 2012, 519(1):1-49.

引证文献7

1曾建国.网络化存储系统在大数据时代应用与探讨[J].网络安全技术与应用,2015(5):101-101. 被引量：2
2何东之,张吉沣,赵鹏飞.不确定性传播算法的MapReduce并行化实现[J].山东大学学报（工学版）,2015,45(5):22-28. 被引量：1
3张振友,孙燕,丁铁凡,刘鹏飞.一种新型的基于Hadoop框架的分布式并行FP-Growth算法[J].河北工业科技,2016,33(2):169-177. 被引量：7
4邵彧.大数据云存储中的并行优化处理方法仿真[J].计算机仿真,2016,33(4):395-398. 被引量：8
5任柯.大数据云存储的技术优化的仿真分析[J].计算机仿真,2016,33(5):385-388. 被引量：5
6张宁,李雪.国家图书馆数据管理与分析平台建设[J].国家图书馆学刊,2016,25(6):80-89. 被引量：16
7潘巍,晋松.分布式Web数据爬取系统的分析与设计[J].信息与电脑,2020,32(2):78-80.

二级引证文献39

1王会青,孙宏伟,张建辉.基于Map/Reduce的时间序列相似性搜索算法[J].山东大学学报（工学版）,2016,46(1):15-21. 被引量：4
2张霞.大数据场景下的云存储技术与应用[J].电子技术与软件工程,2017(3):173-173. 被引量：6
3焦润海,张谦,陈超.基于Spark改进的最大频繁项集挖掘算法[J].计算机工程与设计,2017,38(7):1839-1843. 被引量：8
4骆斌.云存储融合技术在安防领域的应用研究[J].中国安全防范认证,2017,0(3):56-59. 被引量：2
5刘斌.基于云环境下的海量大数据存储系统设计[J].电子世界,2017,0(18):99-99. 被引量：3
6李忠,安建琴,刘海军,宋奕瑶.关联挖掘算法及发展趋势[J].智能计算机与应用,2017,7(5):22-25. 被引量：8
7曾俊.一种基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,41(1):117-119. 被引量：13
8宋清昆,侯玉杰.基于MFOA的锅炉热效率及NO_X排放建模与优化[J].计算机仿真,2018,35(1):98-102. 被引量：8
9马海群.2016-2018年我国图书馆学学术热点及发展趋势[J].图书馆理论与实践,2017,0(12):1-4. 被引量：10
10陈晨健.大数据环境下民办高校图书馆的知识服务之路[J].传播与版权,2017(11):96-98. 被引量：1

1叶兆瑜,韩国强,徐智俊,李俊达.压缩感知在图像去噪和重构中的研究进展[J].机械制造与自动化,2017,46(1):173-176. 被引量：1
2边耐政,袁惠.Swift云存储环境下基于I/O的负载均衡算法[J].计算机工程与应用,2016,52(2):70-73. 被引量：5
3申新鹏,李战怀.基于P2P的数据库管理系统研究[J].计算机应用研究,2008,25(8):2514-2517. 被引量：3
4任刚,吴晶晶,谢志鹏,孙未未.自组织网络有效的组合服务执行路径发现方法[J].计算机工程与应用,2010,46(1):77-80.
5朱琳,关佶红,周水庚.基于结构化对等网络的skyline计算[J].计算机应用与软件,2009,26(4):5-7.
6曹忠升,杨良聪,唐曙光.基于热点内容的动态数据调整方法[J].计算机工程与应用,2006,42(19):174-176. 被引量：1
7张颖,沈中,常义林.一种信号强度感知的Ad Hoc网络节点移动控制算法[J].西安交通大学学报,2011,45(2):107-110. 被引量：1
8孙艳峰,刘毓,徐永安.基于传感器网络的图像质量与能耗关系的探讨[J].传感器与微系统,2007,26(7):38-40.
9李亚如,刘建华.大数据环境下MapReduce准入控制的设计与实现[J].计算机测量与控制,2016,24(2):114-117. 被引量：4
10Frank J.Derfler,张松涛.远程节点服务扩展了你的活动范围[J].个人电脑,1994,0(2):121-140.

河北工程大学学报（自然科学版）

2014年第4期

浏览历史

内容加载中请稍等...

分布式系统下大数据存储结构优化研究被引量：7

同被引文献86

引证文献7

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

分布式系统下大数据存储结构优化研究 被引量：7

同被引文献86

引证文献7

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

分布式系统下大数据存储结构优化研究被引量：7