期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于MapReduce的并行PageRank算法实现
被引量:
12
1
作者
平宇
向阳
+1 位作者
张波
黄寅飞
《计算机工程》
CAS
CSCD
2014年第2期31-34,38,共5页
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭...
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
展开更多
关键词
搜索引擎
pagerank
算法
mapreduce
框架
并行计算
HADOOP平台
下载PDF
职称材料
Nutch中PageRank的并行实现
被引量:
4
2
作者
梁正友
潘涛
《计算机工程与设计》
CSCD
北大核心
2010年第20期4354-4356,4409,共4页
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce...
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。
展开更多
关键词
nutch
搜索引擎
pagerank
算法
mapreduce
模型
机群
并行计算
下载PDF
职称材料
题名
基于MapReduce的并行PageRank算法实现
被引量:
12
1
作者
平宇
向阳
张波
黄寅飞
机构
同济大学计算机科学与技术系
上海师范大学信息与机电工程学院
上海证券交易所
出处
《计算机工程》
CAS
CSCD
2014年第2期31-34,38,共5页
基金
国家自然科学基金资助项目(61103069
71170148)
+2 种基金
国家科技支撑计划基金资助项目(2012BAD35B01)
上海市科技创新计划基金资助项目(11DZ1501703)
陈家镇智慧社区和智能交通基金资助项目(11dz1210600)
文摘
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
关键词
搜索引擎
pagerank
算法
mapreduce
框架
并行计算
HADOOP平台
Keywords
search
engine
pagerank
algorithm
mapreduce
framework
parallel
computing
Hadoop platform
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Nutch中PageRank的并行实现
被引量:
4
2
作者
梁正友
潘涛
机构
广西大学计算机与电子信息学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第20期4354-4356,4409,共4页
基金
广西科学基金项目(桂科自0832059)
文摘
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法。实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。
关键词
nutch
搜索引擎
pagerank
算法
mapreduce
模型
机群
并行计算
Keywords
nutch search engine pagerank algorithm mapreduce model compute clusters parallel computation
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于MapReduce的并行PageRank算法实现
平宇
向阳
张波
黄寅飞
《计算机工程》
CAS
CSCD
2014
12
下载PDF
职称材料
2
Nutch中PageRank的并行实现
梁正友
潘涛
《计算机工程与设计》
CSCD
北大核心
2010
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部