基于MapReduce的并行PageRank算法实现被引量：12

Implementation of Parallel PageRank Algoirthm Based on MapReduce

下载PDF

导出

摘要分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。 The emergence of distributed Web crawl largely expands the scale of related Web information. Since PageRank needs to process the topology of entire existed page set, the limitation of CPU, I/O and memory becomes the big issue when it confronts the data in TB or PB level. Aiming at these problems, this paper proposes a parallel PageRank algorithm based on MapReduce. In a certain iteration of algorithm, it processes the files containing the topology of Web page graph by Map function and calculates the pages＇ scores by Reduce function. Using the global Web page score as convergence to control iterations and get more precise Web page sorting result. Experimental result shows that the improved algorithm has better clustering performance and faster execution speed on the basis of keeping the overall Web page sorting accuracy of single machine PageRank algorithm.

作者平宇向阳张波黄寅飞

机构地区同济大学计算机科学与技术系上海师范大学信息与机电工程学院上海证券交易所

出处《计算机工程》 CAS CSCD 2014年第2期31-34,38,共5页 Computer Engineering

基金国家自然科学基金资助项目(61103069 71170148) 国家科技支撑计划基金资助项目(2012BAD35B01) 上海市科技创新计划基金资助项目(11DZ1501703) 陈家镇智慧社区和智能交通基金资助项目(11dz1210600)

关键词搜索引擎 PAGERANK算法 MAPREDUCE框架并行计算 HADOOP平台 search engine PageRank algorithm MapReduce framework parallel computing Hadoop platform

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献108

1于留宝,胡长军,苏林晗.基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(S3):143-145. 被引量：5
2戚华春,黄德才,郑月锋.具有时间反馈的PageRank改进算法[J].浙江工业大学学报,2005,33(3):272-275. 被引量：27
3陈再良,凌力,周强.dPageRank——一种改进的分布式PageRank算法[J].计算机应用,2006,26(1):21-24. 被引量：7
4黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
5李长玲,翟雪梅.基于PageRank的引文分析方法探讨[J].情报理论与实践,2007,30(1):122-124. 被引量：23
6钱功伟,倪林,MIAO Yuan,曹荣.基于网页链接和内容分析的改进PageRank算法[J].计算机工程与应用,2007,43(21):160-164. 被引量：25
7王胜海,宋丽哲,于晓松,石子夜.文献检索系统排序指标研究与实践[J].数字图书馆论坛,2007(12):36-40. 被引量：4
8CHA M, HADDADI H, BENEVENUTO F, et al. Measuring user influence in Twitter: the million follower fallacy [ C]// Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. Menlo Park: AAAI Press, 2010:10 - 17.
9BAKSHY E, HOFMAN J M, MASON W A, et al. Everyone's an influencer: quantifying influence on Twitter [ C]// Proceedings of the 4th ACM International Conference on Web Search and Data Min- ing. New York: ACM Press, 2011:65-74.
10HIRSCH J E. An index to quantify an individual's scientific research output [ J]. Proceedings of the National academy of Sciences of the United States of America, 2005, 102(46) : 16569 - 16572.

引证文献12

1贾冲冲,王名扬,车鑫.基于HRank的微博用户影响力评价[J].计算机应用,2015,35(4):1017-1020. 被引量：5
2沈俊鑫,郭晓军,王文浩,杨旭.基于协议组降低策略的二次并行k均值聚类算法[J].计算机工程,2015,41(8):150-155. 被引量：1
3王敏,曹宝香,王蕾,冯晓兵.介度中心和PageRank算法应用场景分析[J].计算机工程,2015,41(12):299-304.
4汪志伟,邹艳妮,吴舒霞.PageRank算法应用在文献检索排序中的研究及改进[J].情报理论与实践,2016,39(11):126-130. 被引量：15
5邱苓芸,王铭,赵卫东.PageRank算法改进研究[J].软件导刊,2017,16(2):74-76. 被引量：1
6田霏霏,沈记全.基于用户影响力的微博数据提取算法[J].计算机应用与软件,2017,34(1):55-61. 被引量：2
7李兰英,周秋丽,孔银,董义明.子图估算PageRank网页排序算法研究[J].哈尔滨理工大学学报,2017,22(2):117-123. 被引量：3
8付蓉.基于Hadoop的大数据挖掘理论与方法研究[J].科技创业月刊,2017,30(5):23-24. 被引量：3
9全拥,贾焰,张良,朱争,周斌,方滨兴.在线社交网络个体影响力算法测试与性能评估[J].通信学报,2018,39(10):1-10. 被引量：2
10刘玮,邹璐琨,霸元婕,李广力,张志刚.基于凸函数证据理论的关联感知云服务信任模型[J].计算机工程与科学,2019,41(1):47-55. 被引量：2

二级引证文献38

1单晓红,何强,刘晓燕,杨娟.群智创新社区领先用户识别方法与应用研究[J].科技促进发展,2021,17(3):400-408.
2张鹏威,刘红丽,俞丽娟,崔书航.微博信息传播中的用户影响力研究综述[J].情报科学,2016,34(8):160-164. 被引量：3
3刘发升,韩青菊.融合博文内容和行为属性的Page Rank排序算法[J].科学技术与工程,2017,17(22):243-248.
4何胜,熊太纯,柳益君,叶飞跃,赵小荣.内存计算框架下的图书馆文献服务及案例研究[J].图书馆论坛,2017,37(12):87-94. 被引量：4
5张琛,汤鲲,彭艳兵.社交网络用户影响力的模糊综合评价[J].计算机系统应用,2017,26(12):18-24. 被引量：2
6陈志涛,李书琴,刘斌,何进荣.多特征因子融合的引文推荐算法[J].计算机工程与设计,2018,39(7):1895-1903. 被引量：2
7李秀霞,宋凯.STCF值:基于研究主题的学术文献影响力评价新指标[J].图书情报工作,2018,62(20):88-94. 被引量：13
8张伟.基于Hadoop的大数据分析管理平台架构设计[J].信息技术与网络安全,2018,37(11):30-33. 被引量：7
9吕鹏辉.基于网络爬虫的新浪微博数据获取方式研究[J].电脑知识与技术,2017,13(11X):9-12. 被引量：3
10邵怡琳.链接访问结合页面权重的加权网页排序算法[J].武汉职业技术学院学报,2019,18(2):104-106.

1一啸倾城.差钱了，我也能有加密型U盘[J].软件指南,2009(10):30-31.
2石菲.关注移动开发全周期[J].中国信息化,2012(17):51-51.
3徐绘然.基于Ajax技术和Html的故障跟踪系统门户网站的设计与实现[J].空中交通,2017,0(3):63-67.
4赵家雷.“以图搜图”算法浅析[J].网友世界,2014(7):34-34. 被引量：1
5赵珊.Java千万级别数据处理与优化[J].数字技术与应用,2016,34(9):239-239.
6希捷Barracuda 7200.10750GB硬盘抢鲜评测[J].电脑爱好者,2006,0(12):100-100.
7BlueDot DIVITA光盘存储塔[J].新潮电子,2006(10):157-157.
8李艺铭.用跨界融合的方式开启科技创业的春天[J].机器人产业,2016,0(3):96-96.
9徐科,康健,刘进.舆情服务领域如何运用大数据挖掘技术[J].中国科技纵横,2017,0(1):50-51.
10王利民.高校图书馆数字资源建设[J].科技信息,2011(3):214-214. 被引量：1

计算机工程

2014年第2期

浏览历史

内容加载中请稍等...

基于MapReduce的并行PageRank算法实现被引量：12

同被引文献108

引证文献12

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行PageRank算法实现 被引量：12

同被引文献108

引证文献12

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行PageRank算法实现被引量：12