-
题名两种对URL的散列效果很好的函数
被引量:45
- 1
-
-
作者
李晓明
凤旺森
-
机构
北京大学计算机科学技术系
-
出处
《软件学报》
EI
CSCD
北大核心
2004年第2期179-184,共6页
-
基金
国家重点基础研究发展规划(973)No.G1999032706~~
-
文摘
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列操作.针对两种典型的应用场合,即Web结构分析中的信息查询和并行搜索引擎中的负载平衡,基于一个含有2 000多万个URL的序列,进行了大规模的实验评测.说明在许多文献中推荐的对字符串散列效果很好的ELFhash函数对URL的散列效果并不好,同时推荐了两种对URL散列效果很好的函数.
-
关键词
散列
elfhash
URL
均匀分布
WEB挖掘
负载平衡
-
Keywords
Data mining
Information retrieval
Parallel processing systems
Search engines
-
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
-
-
题名一个实用的针对URL的哈希函数
被引量:3
- 2
-
-
作者
肖明忠
闵博楠
王佳聪
代亚非
-
机构
北京大学计算机系网络实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第3期538-541,共4页
-
基金
国家"九七三"项目(G1999032706)资助
北大"九八五"项目资助.
-
文摘
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明它能有效使得URL集在哈希表中均匀散布.并通过与MD5和SHA-1的对比,认为它是实用的.最后,指出了进一步的研究方向.
-
关键词
URL
哈希函数
elfhash
均匀分布
MD5
SHA-1
-
Keywords
URL
hashing function
elfhash
even distribution
MD5
SHA-1
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Heritrix在电子信息垂直搜索平台中的应用
被引量:2
- 3
-
-
作者
赵永鑫
雷霖
-
机构
西华大学数学与计算机学院
成都大学电子信息工程学院
-
出处
《成都大学学报(自然科学版)》
2013年第2期156-158,共3页
-
基金
四川省科技基础条件平台资助项目
-
文摘
介绍了垂直搜索引擎和网络爬虫的基本概念,以及Heritrix系统的体系结构,分析了Heritrix工作流程,针对Heritirx中存在的一些不完善的地方,引入了ELFHash算法并通过扩展Heritrix实现了电信信息搜索平台信息的定向与多线程抓取,为建立面向电子信息的垂直搜索引擎提供了信息源.
-
关键词
HERITRIX
elfhash算法
多线程
电子信息
垂直搜索引擎
-
Keywords
Heritrix
elfhash algorithm
multi-threaded
electronic information
vertical search engine
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-