不确定性传播算法的MapReduce并行化实现被引量：1

Parallel implementing probabilistic spreading algorithm using MapReduce programming mode

导出

摘要为了克服单机串行不确定性传播算法处理大规模数据集的局限,采用MapReduce编程模型对算法进行并行化实现。将单机算法按照算法流程进行拆分,每一步对应一个MapReduce程序。每一步的输入及输出数据都存储在Hadoop分布式文件系统上。用命中率对比并行化的不确定性传播算法与全局排名算法的性能。对比不同数据量、不同节点数时并行化的不确定性传播算法的加速比。试验结果表明,不确定性传播算法MapReduce并行化后部署在Hadoop集群上运行,命中率显著高于全局排名算法,且有着较好的并行性,扩大了单机算法所能处理的数据规模且提高了算法的运算速度。 In order to overcome the limitations of the serial probabilistic spreading algorithm in dealing with large-scale dataset,a parallelization of the algorithm was put forth by using MapReduce. The complex computing tasks were decomposed into a series of MapReduce job flow for distributed parallel processing on Hadoop. The input and output data of every step were stored in the Hadoop distributed file system. Hit ratio was used to compare the parallelizable probabilistic spreading algorithm versus the global ranking method performance. Speedups of the parallelizable algorithm were compared while the amount of data and the number of nodes was different. Experiment results showed that the probabilistic spreading algorithm based on MapReduce had good parallelism and had higher hit ratio than the global ranking method. Data scale that can be handled by the serial algorithm was expanded,and the operation speed of the algorithm was raised.

作者何东之张吉沣赵鹏飞

机构地区北京工业大学软件学院

出处《山东大学学报（工学版）》 CAS 北大核心 2015年第5期22-28,共7页 Journal of Shandong University（Engineering Science）

基金北京市教委基金资助项目(PXM2011_014204_09_000232)

关键词 MAPREDUCE 云计算平台二分网络不确定性传播算法分布式 MapReduce cloud computing paltform bipartite network probabilistic spreading algorithm distributed

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献21

1王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76. 被引量：334
2Lü Linyuan, MEDO Matú?, CHI Hoyeung, et al. Recommender systems[J]. Physics Reports, 2012, 519(1):1-49.
3朱郁筱,吕琳媛.推荐系统评价指标综述[J].电子科技大学学报,2012,41(2):163-175. 被引量：249
4ZHOU Tao, REN Jie, MEDO Matú?, et al. Bipartite network projection and personal recommendation[J]. Physical Review E, 2007, 76(4):046115.
5LATAPY Matthieu, MAGNIEN Clémence, DELVECCHIO Nathalie. Basic notions for the analysis of large two-mode networks[J]. Social Networks, 2008, 30(1):31-48.
6吴亚晶,张鹏,狄增如,樊瑛.二分网络研究[J].复杂系统与复杂性科学,2010,7(1):1-12. 被引量：38
7刘亮亮,曹菡,韩亚楠.基于群体动力学的协同过滤算法及应用[J].计算机应用研究,2014,31(12):3603-3605. 被引量：2
8KOREN Yehuda, BELL Robert. Recommender systems handbook[M]. New York: Springer, 2011:145-186.
9ADOMAVICIUS G, TUZHILIN A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. Knowledge and Data Engineering, 2005, 17(6):734-749.
10陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：117

二级参考文献131

1赫南,淦文燕,李德毅,康建初.一个小型演员合作网的拓扑性质分析[J].复杂系统与复杂性科学,2006,3(4):1-10. 被引量：16
2庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
3傅林华 ,郭建峰 ,朱建阳 .图书馆图书借阅系统与单标度二元网络模型[J].情报学报,2004,23(5):571-575. 被引量：14
4刘玮.电子商务系统中的信息推荐方法研究[J].情报科学,2006,24(2):300-303. 被引量：31
5陈君,唐雁.基于Web社会网络的个性化Web信息推荐模型[J].计算机科学,2006,33(4):185-187. 被引量：11
6李宝林,兰芸,张翼英.基于动态遗传算法的用户模型进化研究[J].计算机工程与应用,2006,42(14):200-203. 被引量：7
7赵鹏,耿焕同,王清毅,蔡庆生.基于聚类和分类的个性化文章自动推荐系统的研究[J].南京大学学报（自然科学版）,2006,42(5):512-518. 被引量：13
8余力,董斯维,郭斌.电子商务推荐攻击研究[J].计算机科学,2007,34(5):134-138. 被引量：11
9张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J].现代图书情报技术,2007(6):52-55. 被引量：24
10Watts D J, Strogatz S H. Collective dynamics of small world networks[J]. Nature, 1998, 393:440 -442.

共引文献826

1李沁园,吴晨程,孙修纯,方志军.基于复杂网络分析的脾虚证大肠癌中医治疗症药规律研究[J].亚太传统医药,2021,17(4):142-147.
2唐宁.融合视听传播的创新逻辑与价值再造[J].中国新闻传播研究,2019,0(4):171-180. 被引量：3
3杨梦月,何洪波,王闰强.基于反事实学习及混淆因子建模的文章个性化推荐[J].计算机系统应用,2020(10):53-60. 被引量：1
4陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
5董云薪,林耿,张清伟,陈颖婷.基于Apriori算法填充数据及改进相似度的推荐算法[J].计算机科学,2022,49(S02):307-311. 被引量：7
6吴飞贤,段华斌,扈乐华,朱珍珠,宋均.基于Spark的商品推荐系统的设计与实现[J].办公自动化,2021,26(3):60-62. 被引量：3
7王玫申,张鹏,薛乐洋.基于扩散的推荐算法的可预测性[J].中国科技论文在线精品论文,2021(4):462-467. 被引量：1
8许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
9宋雅婷,徐天伟.基于用户兴趣的个性化推荐技术综述[J].云南大学学报（自然科学版）,2012,34(S1):20-23. 被引量：6
10张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29

同被引文献10

1周大镯,吴晓丽,闫红灿.一种高效的多变量时间序列相似查询算法[J].计算机应用,2008,28(10):2541-2543. 被引量：16
2穆斌,闫金来.高效的时间序列下界技术[J].计算机工程与应用,2009,45(11):168-171. 被引量：4
3周大镯,姜文波,李敏强.一个高效的多变量时间序列聚类算法[J].计算机工程与应用,2010,46(1):137-139. 被引量：9
4程苗.基于云计算的Web数据挖掘[J].计算机科学,2011,38(B10):146-149. 被引量：51
5陈光鹏,杨育彬,高阳,商琳.一种基于MapReduce的频繁闭项集挖掘算法[J].模式识别与人工智能,2012,25(2):220-224. 被引量：18
6丁静,杨善林,罗贺,丁帅.云计算环境下的数据挖掘服务模式[J].计算机科学,2012,39(B06):217-219. 被引量：29
7杨来,史忠植,梁帆,齐保元.基于Hadoop云平台的并行数据挖掘方法[J].系统仿真学报,2013,25(5):936-944. 被引量：38
8李伟卫,赵航,张阳,王勇.基于MapReduce的海量数据挖掘技术研究[J].计算机工程与应用,2013,49(20):112-117. 被引量：35
9李正欣,张凤鸣,李克武,张晓丰.一种支持DTW距离的多元时间序列索引结构[J].软件学报,2014,25(3):560-575. 被引量：39
10田国会,许亚雄.云机器人:概念、架构与关键技术研究综述[J].山东大学学报（工学版）,2014,44(6):47-54. 被引量：15

引证文献1

1王会青,孙宏伟,张建辉.基于Map/Reduce的时间序列相似性搜索算法[J].山东大学学报（工学版）,2016,46(1):15-21. 被引量：4

二级引证文献4

1颜飞,张兴,李万杰,李帅.桥梁建筑质量运营监测数据处理仿真研究[J].计算机仿真,2019,36(1):441-444. 被引量：7
2曹子昱,冯军,陈彬,杨华昌,栾德杰.基于并行加速的优化相似性搜索的车站调车作业工作量预测[J].计算机应用,2022,42(S02):155-160.
3徐金华,罗义凯,李昱燃,李岩.基于时频分解与深度学习的轨道客流预测[J].山东大学学报（工学版）,2024,54(2):60-68.
4杨思,李思童,张进东,白羽.高速光通信激光器带宽模型改进与并行计算优化[J].山东大学学报（工学版）,2019,49(1):17-22. 被引量：1

1王洪伟.电脑变示波器——新一代虚拟测试系统（3）[J].无线电,2009(6):62-66.
2肖凯提.买苏提.关于使用刻录机[J].和田师范专科学校学报,2005,25(1):175-175.
3梅昌利.控制系统计算机故障的快速处理恢复探讨[J].中小企业管理与科技,2016(22):106-107.
4易小华,刘杰,叶丹.面向MapReduce的数据处理流程开发方法[J].计算机科学与探索,2011,5(2):161-169. 被引量：14
5孙彦超,李忠刚.基于Hadoop的高校日志分析应用架构的研究[J].中国教育信息化（基础教育）,2015(8):82-84.
6金若梅,章国宝.智能配电数字终端开关量输入及输出模块的设计与实现[J].工业控制计算机,2015,28(5):156-157. 被引量：1
7何彬彬,方涛,郭达志.空间数据挖掘不确定性及其传播[J].数据采集与处理,2004,19(4):475-480. 被引量：6
8殷宝麟,姜国栋,于峰,于影,梁艺.3-RRR型并联机构运动学研究[J].佳木斯大学学报（自然科学版）,2011,29(5):703-706. 被引量：1
9王晓华.一种新型的Hadoop本地化测试模型[J].赤峰学院学报（自然科学版）,2013,29(19):20-21.
10蒋铁金,任艳丽.基于单个服务器的双线性对运算外包算法[J].计算机应用,2016,36(7):1866-1869. 被引量：2

山东大学学报（工学版）

2015年第5期

浏览历史

内容加载中请稍等...

不确定性传播算法的MapReduce并行化实现被引量：1

参考文献21

二级参考文献131

共引文献826

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

不确定性传播算法的MapReduce并行化实现 被引量：1

参考文献21

二级参考文献131

共引文献826

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

不确定性传播算法的MapReduce并行化实现被引量：1