期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于MapReduce的并行PageRank算法实现 被引量:12
1
作者 平宇 向阳 +1 位作者 张波 黄寅飞 《计算机工程》 CAS CSCD 2014年第2期31-34,38,共5页
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭... 分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。 展开更多
关键词 搜索引擎 pagerank算法 mapreduce框架 并行计算 HADOOP平台
下载PDF
Nutch中PageRank的并行实现 被引量:4
2
作者 梁正友 潘涛 《计算机工程与设计》 CSCD 北大核心 2010年第20期4354-4356,4409,共4页
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce... 针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。 展开更多
关键词 nutch搜索引擎 pagerank算法 mapreduce模型 机群 并行计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部