基于并行处理机制的数据复用策略研究被引量：2

Data reuse strategy research based on parallel processing mechanism

下载PDF

导出

摘要针对频繁出现的数据冗余、数据复用效率低下等问题,将列存储方式结合并行处理机制对数据复用策略进行优化。构建了基于MapReduce的数据复用并行化处理模型,利用改进型CSM模式匹配算法结合数据挖掘过程中的数据筛选算法,提出并行化数据复用算法。该算法利用数据属性的模式匹配确定属性列之间的对应关系,使用数据检测方式验证属性列数据复用的可行性,从而进行属性列数据筛选,实现并行化的数据复用策略。在大数据环境下的数据仓库中,对大规模基准数据属性集SSB和TPCH中提取的数据实证进行分析,实验结果分析中存储量和处理时间分别减少了17%和35%,验证了并行化数据复用策略在数据存储量、数据处理时间等方面比普通数据复用策略更具高效性。 Aiming at frequently appear data redundancy and data reusable inefficiency problems, this paper combined the col- umn-storage mechanism with parallel processing to optimize data reuse strategy. It built a parallel processing model based on MapReduee of data reuse, and used the improved pattern matching algorithm CSM combine the data screening algorithm to pro- pose parallel data reuse algorithm. This algorithm used the pattern matching algorithm to determine the correspondence be- tween the attribute columns, and through data detected method verifies the feasibility of reusing data attribute columns, thereby filtered the data columns and realized the parallel data reuse strategy. Under the big data, it used the data tables of large scale data sets SSB and TPCH in data warehouse to experiment. The resuhs of storage and treatment time are decreased by 17% and 35% , and verified parallel data reuse strategy has more optimized than the general strategy in data storage and data processing time.

作者魏玲郭新朋

机构地区哈尔滨理工大学管理学院

出处《计算机应用研究》 CSCD 北大核心 2017年第8期2324-2328,共5页 Application Research of Computers

基金国家自然科学基金资助项目(71272191)

关键词并行处理数据复用数据仓库模式匹配 parallel processing data reuse data warehouse pattern matching

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1巫小婷,邓家先,任玉莉,杨扬.基于OpenMP的压缩感知多描述并行处理算法[J].计算机应用研究,2013,30(4):1278-1280. 被引量：1
2王珏,胡长军,张纪林,李建江.一种数据并行中的群通信优化策略[J].计算机学报,2008,31(2):318-328. 被引量：3
3田斌,何强,王佳,郑雨西.采用MapReduce模型的甚长基线干涉测量并行处理方法[J].西安交通大学学报,2015,49(4):61-66. 被引量：2
4张琦,王梅,乐嘉锦,刘国华.列存储数据仓库查询执行中重用缓冲区调度算法[J].计算机研究与发展,2011,48(10):1942-1950. 被引量：6
5亓开元,韩燕波,赵卓峰,房俊.支持高并发数据流处理的MapReduce中间结果缓存[J].计算机研究与发展,2013,50(1):111-121. 被引量：21
6钱颖.发掘数据库模式间的复杂语义匹配[J].小型微型计算机系统,2008,29(5):817-824. 被引量：2
7李亮,王恩东,朱正东,颜康,张保,董小社.应用动态生成树的GPU显存数据复用优化[J].西安交通大学学报,2013,47(10):44-50. 被引量：1
8白洪涛,欧阳丹彤,李熙铭,李亭,何丽莉.基于GPU的稀疏矩阵向量乘优化[J].计算机科学,2010,37(8):168-171. 被引量：14

二级参考文献99

1韩松涛,唐歌实,刘成军,陈略.VLBI并行处理方式比较分析[J].遥测遥控,2013,34(1):29-33. 被引量：4
2吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
3金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
4李元飞,郑为民.VLBI数据软件相关处理方法研究[J].中国科学院上海天文台年刊,2004(25):150-158. 被引量：10
5张冬冬,李建中,王伟平,郭龙江.数据流历史数据的存储与聚集查询处理算法[J].软件学报,2005,16(12):2089-2098. 被引量：17
6Saad Y.Iterative methods for sparse linear systems[M].Society for Industrial Mathematics,2003.
7Foley T,Houston M,Hanrahan P.Efficient partitioning of fragment shaders for multiple-output hardware[C] ∥Proceedings of the ACM SIGGRAPH/EUROGRAPHICS Symposium on Gra-phics Hardware.Grenoble,France,Eurographics Association,2004:45-53.
8CUDPP:CUDA data parallel primitives library[OL].http://www.gpgpu.org/developer/cudpp/.
9Bell N,Garland M.Efficient sparse matrix-vector multiplication on CUDA[R].NVIDIA Technical Report NVR-2008-004.Dec.2008.
10Im E J,Yelick K A,Vuduc R.Sparsity:Framework for optimizing sparse matrix-vector multiply[J].International Journal of High Performance Computing Applications,2004,18(l):135-158.

共引文献42

1王珏,胡长军,张纪林,李建江.面向分布式存储系统结构的OpenMP编译系统[J].中国科学：信息科学,2010,40(5):678-691. 被引量：2
2杜洋,侯英,赵文涛,赵军.激光推进数值模拟程序优化研究[J].计算机工程与科学,2009,31(A01):286-288.
3吴思颖,吴扬扬.一种实体模式匹配算法[J].郑州大学学报（理学版）,2011,43(1):50-56. 被引量：1
4李熙铭,欧阳丹彤,白洪涛.基于GPU的混合精度平方根共轭梯度算法[J].仪器仪表学报,2012,33(1):97-104. 被引量：6
5狄鹏,胡长军,李建江.一种高效直方图生成算法在GPU上的实现[J].计算机科学,2012,39(3):304-307. 被引量：2
6原建伟,王坤,李爱国.基于GPU的K-means并行算法研究与实现[J].陕西理工学院学报（自然科学版）,2012,28(5):44-48.
7王梅,周娇玲,乐嘉锦.一种列存储数据仓库中的数据复用策略[J].计算机学报,2013,36(8):1626-1635. 被引量：8
8赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014,51(3):606-617. 被引量：14
9袁文礼.基于数据仓库技术设计与实现的科技数据管理系统[J].电脑知识与技术,2014(4):2192-2194. 被引量：3
10何燕.基于VSRA算法的数据仓库联机维护优化研究[J].科技通报,2014,30(3):165-167. 被引量：1

同被引文献16

1DENG Xiao-Ming WU Fu-Chao WU Yi-Hong.An Easy Calibration Method for Central Catadioptric Cameras[J].自动化学报,2007,33(8):801-808. 被引量：12
2解维国,张文.一种先进的系统、综合的生产数据分析方法[J].国外油田工程,2008,24(11):16-21. 被引量：1
3毛新军.面向Agent软件工程:现状、挑战与展望[J].计算机科学,2011,38(1):1-7. 被引量：19
4董红斌,王建华.多Agent技术研究[J].计算机应用研究,1999,16(10):29-30. 被引量：32
5黄斌,许舒人,蒲卫.基于MapReduce的数据挖掘平台设计与实现[J].计算机工程与设计,2013,34(2):495-501. 被引量：45
6李建中,hlju.edu.cn,高宏.一种数据仓库的多维数据模型[J].软件学报,2000,11(7):908-917. 被引量：75
7赵龙文,侯义斌.Agent的概念模型及其应用技术[J].计算机工程与科学,2000,22(6):75-79. 被引量：69
8高波,费奇,陈学广.Agent交互层次模型[J].计算机科学,2001,28(8):105-109. 被引量：11
9姜高霞,王文剑.时序数据曲线排齐的相关性分析方法[J].软件学报,2014,25(9):2002-2017. 被引量：16
10周浩,刘萍,邱桃荣,白小明.基于粒计算的决策树并行算法的应用[J].计算机工程与设计,2015,36(6):1504-1509. 被引量：5

引证文献2

1李春生,张勇,张可佳,宋佳.基于MAS的时序数据集成管理模型设计[J].计算机与数字工程,2018,46(5):928-932.
2吕国,肖瑞雪,白振荣,孟凡兴.大数据挖掘中的MapReduce并行聚类优化算法研究[J].现代电子技术,2019,42(11):161-164. 被引量：21

二级引证文献21

1陈建煊.利益相关者管理[J].经济管理,2000,26(4):58-58. 被引量：3
2杨丽君.基于云计算的数据挖掘聚类算法研究[J].数字通信世界,2020(5):131-131. 被引量：1
3赵彦,孙俊.一种并行化的改进型灰狼分簇算法[J].电讯技术,2020,60(10):1214-1221. 被引量：1
4贾丽娜.基于大数据处理平台的计算任务调度的配置优化[J].电脑编程技巧与维护,2021(1):106-107. 被引量：1
5李晶,张滨.基于并行挖掘大数据的无损云取证模型仿真[J].计算机仿真,2021,38(2):9-12.
6赵彦,孙俊.基于MapReduce模型的并行粒子群分簇算法研究[J].现代电子技术,2021,44(7):137-141. 被引量：1
7于萧榕,黄健荣.数据并行传输程序中代码坏味检测算法研究[J].计算机仿真,2021,38(5):403-407.
8王玉贤.基于云计算的大数据并行搜索聚类算法研究[J].自动化与仪器仪表,2021(10):33-36. 被引量：2
9胡琼.大数据环境中计算机网络安全存储研究[J].佳木斯大学学报（自然科学版）,2021,39(6):73-75.
10张婷曼,牛奕翔,李娜.基于fg-growth算法的大数据频繁项集挖掘方法[J].现代雷达,2021,43(11):63-67. 被引量：5

1孙晓坤,李泽宇,张信.实现西门子840D双通道数据交换的方法[J].金属加工（冷加工）,2012(5):56-57.
2褚龙现,李晓英,陈旭,楚纯洁.一种支持高效并行处理的矢量数据索引方法[J].计算机工程与应用,2017,53(11):79-84. 被引量：4
3李文明,崔俊交,贾宏举.业务支撑能力开放平台的设计与实现[J].电信工程技术与标准化,2017,30(7):31-36. 被引量：1
4魏玲,郭新朋.行列混合存储的数据压缩策略研究[J].小型微型计算机系统,2017,38(6):1267-1272.
5史姣丽,黄传河,何凯,沈燮阳,华超.支持多用户协同编辑的云存储访问控制方法[J].计算机研究与发展,2017,54(7):1603-1616. 被引量：2
6张福铮,黄文琦,陈华军,郭晓斌,陈承志.基于HBase的配用电海量时序数据存取研究[J].现代电子技术,2017,40(13):159-163. 被引量：6
7王丽婧,MOISEENKO Ilya,何文博,汪东升.NDNlive:命名数据网络下的视频直播系统[J].计算机科学与探索,2017,11(7):1033-1043.
8王东旭,陈方县.基于开源软件构建云存储平台[J].电信工程技术与标准化,2017,30(7):10-13. 被引量：2

计算机应用研究

2017年第8期

浏览历史

内容加载中请稍等...

基于并行处理机制的数据复用策略研究被引量：2

参考文献8

二级参考文献99

共引文献42

同被引文献16

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于并行处理机制的数据复用策略研究 被引量：2

参考文献8

二级参考文献99

共引文献42

同被引文献16

引证文献2

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于并行处理机制的数据复用策略研究被引量：2