期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
两种对URL的散列效果很好的函数 被引量:45
1
作者 李晓明 凤旺森 《软件学报》 EI CSCD 北大核心 2004年第2期179-184,共6页
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐... 在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数. 展开更多
关键词 散列 elfhash URL 均匀分布 WEB挖掘 负载平衡
下载PDF
一个实用的针对URL的哈希函数 被引量:3
2
作者 肖明忠 闵博楠 +1 位作者 王佳聪 代亚非 《小型微型计算机系统》 CSCD 北大核心 2006年第3期538-541,共4页
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明它能有效使得URL集在哈希表... 在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明它能有效使得URL集在哈希表中均匀散布.并通过与MD5和SHA-1的对比,认为它是实用的.最后,指出了进一步的研究方向. 展开更多
关键词 URL 哈希函数 elfhash 均匀分布 MD5 SHA-1
下载PDF
Heritrix在电子信息垂直搜索平台中的应用 被引量:2
3
作者 赵永鑫 雷霖 《成都大学学报(自然科学版)》 2013年第2期156-158,共3页
介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向... 介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源. 展开更多
关键词 HERITRIX elfhash算法 多线程 电子信息 垂直搜索引擎
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部