多核的并行相似连接

Parallel Similarity Join of Multi-core

下载PDF

导出

摘要相似连接(similarity join)是指在给定的数据集中,根据给定的相似度度量函数来衡量数据之间的相似度,并找出所有相似度不小于给定阈值的数据对的操作。随着网络和移动应用等信息技术的不断发展,数据呈现爆炸式增长,海量数据的分析需要强大的计算能力,相似连接成为大数据处理领域的热点方式之一。传统的单核计算机平台的处理能力已经很难满足海量数据处理的计算要求。为了提高计算效率和性能,利用基于多核平台的多线程并行编程发挥多核体系结构的优势,已经成为实现个人低成本并行计算和多核技术发展的趋势。因此,为了提高相似连接的效率,充分利用现代体系结构的多核特性和多线程技术,提出了相似连接并行化的改进方法。实验结果表明,使用该方法极大地提升了效率。 Similar join is an operation which is using a given similarity function to measure the similarity between data and find out all similarity less than a given threshold in a given data set. With the continuous development of Internet and mobile applications, the amount of data is increasing explosively, and along with the analyzing of huge amount of data,it requires a strong ability of calculation, so similar joins become one of the leading way of hotspots in the field of data processing. The processing capacity of traditional single-core comput- er platform has been difficult to meet the calculation of mass data processing requirements. Programming based on multi-core platform and using the multi-thread parallel can make full use of the advantage of multi-core architecture and improve the computational efficien- cy and computational performance, which has become the trend to realize personal low cost calculation and the development of multi-core technology. Therefore, based on the characteristics of multi-core and multi-thread technology, the improved method of similar connected parallelization is proposed. The experimental results show that the efficiency has been obviously improved.

作者冯林静

机构地区天津工业大学

出处《计算机技术与发展》 2017年第7期43-46,50,共5页 Computer Technology and Development

基金国家自然科学基金资助项目(61402329)

关键词多核多线程并行相似连接 multi-core multi-thread parallel similar join

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1刘雪莉,王宏志,李建中,高宏.基于实体的相似性连接算法[J].软件学报,2015,26(6):1421-1437. 被引量：8
2庞俊,谷峪,许嘉,于戈.相似性连接查询技术研究进展[J].计算机科学与探索,2013,7(1):1-13. 被引量：15
3蔡进国,郭宏,李伟强,江若成.多核多线程环境下的程序并行优化方法[J].现代计算机（中旬刊）,2014(3):3-5. 被引量：1
4于方.多核平台下的多线程并行编程[J].阴山学刊（自然科学版）,2010,24(3):33-36. 被引量：7
5眭俊华,刘慧娜,王建鑫,秦庆旺.多核多线程技术综述[J].计算机应用,2013,33(A01):239-242. 被引量：46

二级参考文献34

1薛巍.多核课程建设[J].计算机教育,2007(06S):40-43. 被引量：9
2GRAMAA.并行计算导论[M].张武,译.北京:机械工业出版社,2005.
3Intel软件学院教材编写组.多核多线程技术[M].上海:上海交通大学出版社,2011.
4AKHTEH S, ROBERTS J.多核程序设计技术-通过软件多线程提升性能[M].李宝峰,富弘毅,李韬,译.北京:电子工业出版社’2007.
5周伟明.多核编程中的负载平衡难题[EB/OL].[2013-04-01].http: //blog. csdn. net/drzliouweimin^archive/2007/04/17/1568364. aspx.
6Alfred J. Park, Kalyan S. Perumalla. Efficient Heterogeneous Execution on Large Multicore and Accelerator Platforms: Case Study Us- ing a Block Tridiagonal Solver[C]. Journal of Parallel and Distributed Computing, 2013, 73( 12): 1578-1591.
7Meng-Ju WU, Min-shu ZHAO, Donald Yeung. 2013. Studying Muhicore Processor Scaling Via Reuse Distance Analysis[C]. SIGARCH Computer Architecture News, 2013, 41 (3): 499-510.
8(美)戈夫(Darryl Gove).多核应用编程实战[M].郭晴霞译.北京:人民邮电出版社,2013(6).
9Bertossi L, Kolahi S, Lakshmanan L. Data cleaning and query answering with matching dependencies and matching functions. In: Abiteboul S, B6hm K, Koch C, Tan KL, eds. Proc. of the 27th Int'l Conf. on Data Engineering. Hannover: IEEE Computer Society, 2011. 268-279. [doi: 10.1145/1938551,1938585].
10Dong X, Halevy AY, Yu C. Data integration with uncertainty. In: Koch C, Gehrke J, Garofalakis MN, Srivastava D Aberer K, Deshpande A, Florescu D, Chart CY, Ganti V, Kanne CC, Klas WJ, Neuhold E, eds. Proc. of the 33rd Int'l Conf. on Very Large Data Bases. Vienna: ACM Press, 2007. 687-698.

共引文献71

1马占飞,李克见,史国振.基于多引擎并发的密码服务软件架构[J].北京电子科技学院学报,2022,30(1):43-49. 被引量：2
2李德建,陈琦,沈冲飞.电力分布式智能配电终端控制芯片实时增强技术概述[J].微纳电子与智能制造,2022,4(4):94-101.
3刘向娇,赵学武.改进的并行快速排序[J].计算机与数字工程,2014,42(5):782-784. 被引量：1
4董春,袁卫平,亢晓琛,张玉,乔庆华.地理国情大数据基本统计的多进程并行计算[J].测绘科学,2014,39(5):13-17. 被引量：5
5任沂斌,陈振杰,李飞雪,周琛,杨云丽.简单要素模型多边形拓扑检查并行算法[J].计算机应用,2014,34(7):1852-1856. 被引量：2
6曾光,陈性元,杜学绘,夏春涛.基于图相似匹配的政务网络结构一致性验证方法[J].计算机应用,2014,34(7):1909-1914.
7徐媛媛,陈华辉.基于MapReduce的增量式数据集的相似性连接[J].计算机应用研究,2014,31(11):3369-3374. 被引量：2
8张维琪,樊斐.自适应SSDA图像匹配并行算法设计与实现[J].计算机工程与应用,2014,50(20):64-67. 被引量：7
9李梅.基于OpenMP编程模型的多线程程序性能分析[J].电子设计工程,2014,22(23):42-44. 被引量：1
10马友忠,慈祥,孟小峰.海量高维向量的并行Top-k连接查询[J].计算机学报,2015,38(1):86-98. 被引量：10

1李婧.基于线程调度顺序控制的多线程程序测试[J].计算机与现代化,2017(6):50-55. 被引量：3
2胡凯,张腾,尚利宏,杨志斌,Jean-Pierre TALPIN.面向同步规范的并行代码自动生成[J].软件学报,2017,28(7):1698-1712. 被引量：3
3徐汉良.“法”“治”并举数据长安[J].中国信息安全,2017(6):100-101.
4孙林,刘弱南,张霄雨,孙印杰,宋黎明.一种基于粗糙均方残基的模糊双聚类方法[J].河南师范大学学报（自然科学版）,2017,45(5):93-100. 被引量：4
5黄静,薛书田,肖进.基于半监督学习的客户信用评估集成模型研究[J].软科学,2017,31(7):131-134. 被引量：7
6马超.引力搜索优化ELM的企业财务危机预警方法[J].计算机应用研究,2017,34(7):2049-2054. 被引量：1
7石祥滨,钟刘倍,张德园.Hadoop环境下图像内容检索方法的研究[J].沈阳航空航天大学学报,2017,34(3):63-69. 被引量：1
8袁帅英,郭大波.一种基于彩色+深度的人脸识别算法[J].测试技术学报,2017,31(3):241-249.
9朱坤,黄瑞章,张娜娜.一种基于MapReduce模型的高效频繁项集挖掘算法[J].计算机科学,2017,44(7):31-37. 被引量：9
10廖军,蒋朝惠,郭春,平源.一种基于权重属性熵的分类匿名算法[J].计算机科学,2017,44(7):42-46. 被引量：19

计算机技术与发展

2017年第7期

浏览历史

内容加载中请稍等...

多核的并行相似连接

参考文献5

二级参考文献34

共引文献71

相关作者

相关机构

相关主题

浏览历史