URL分级散列在分布式搜索引擎中的应用
被引量:3
摘要
搜索引擎在采用分布式技术的信息搜集中存在URL匹配和系统负载平衡的问题。针对现有的几种分布式信息搜集系统设计的不足,提出了对URL分级散列进行定位和匹配的方法,给出了两种适用于中文信息搜集的URL散列函数,并进行了实验分析。
出处
《电子技术应用》
北大核心
2006年第7期25-28,共4页
Application of Electronic Technique
参考文献5
-
1McKenzie B J, Harries R, Bell T.Selecting a hasing algorithm[J].Software Practice and Experience, 1990 ;20(2):209-224
-
2Junghoo C, Hector G M, Lawrence P.Efficient crawling through URL ordering[J].Computer Networks and ISDN Systems,1998 ; 30(4) : 161- 172
-
3李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量:45
-
4CNNIC.2004年中国互联网络信息资源数量调查报告[R].中国互联网络信息中心,2005
-
5燕彩蓉,彭勤科,沈钧毅,武红江.基于两阶段散列的Web集群服务器内容分配研究[J].西安交通大学学报,2005,39(8):812-815. 被引量:5
二级参考文献15
-
1Schroeder T, Steve G, Byrav R. Scalable Web server clustering technologies [J]. IEEE Network. 2000, 14(3):38-45.
-
2Aron M, Sanders D, Druschel P, et al. Scalable content-aware request distribution in cluster-based network servers [A]. The USENIX 2000 Annual Technical Conference, San Diego, USA, 2000.
-
3Chandra A, Shenoy P. Effectiveness of dynamic resource allocation for handling Internet flash crowds[R]. Technical Report, TR03-37. Massachusetts, USA: Department of Computer Science, University of Amherst, 2003.
-
4Ferragina P, Grossi R. The string B-tree: a new data structure for string search in external memory and its applications [J]. Journal of the ACM, 1999, 46(2): 236-280.
-
5Cormen TH,Leiserson CE.Introduction to Algorithms.2nd ed.,Cambridge:MIT Press,2001.221-252.
-
6Knuth DE.Sorting and Searching,Volume 3 of the Art of Computer Programming.New York:Addison-Wesley,1973.506-549.
-
7McKenzie BJ,Harries R,Bell T.Selecting a hashing algorithm.Software Practice and Experience,1990,20(2):208-210.
-
8Tong MCF.General hashing [Ph.D.Thesis].Computer Science Department,University of Auckland,1996.
-
9Peter K.Pearson,fast hashing of variable length text strings.Communications of the ACM,1990,33(6):676-678.
-
10Berners-Lee T.Universal resource locator.2003.http://www.w3.org/Addressing/URL/Overview.html
共引文献48
-
1张智江,王志军,张尼.一种可应用于大流量环境的双层散列算法研究[J].电信科学,2011,27(S1):280-284.
-
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量:8
-
3燕彩蓉,彭勤科,沈钧毅,武红江.基于两阶段散列的Web集群服务器内容分配研究[J].西安交通大学学报,2005,39(8):812-815. 被引量:5
-
4李玉玲.厦门高校学生对本地就业意愿的调查[J].中国大学生就业,2005(16):37-38. 被引量:1
-
5詹川,卢显良,侯孟书,邢茜.一种快速的基于URL的垃圾邮件过滤系统[J].计算机科学,2005,32(8):55-56. 被引量:3
-
6徐凤刚,许俊奎,潘清.可扩展Hash方法的一种改进算法[J].计算机工程与应用,2006,42(4):95-97. 被引量:3
-
7肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量:3
-
8吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量:8
-
9孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量:22
-
10高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量:13
同被引文献14
-
1鲍泓,刘宏哲.基于Web Services的虚拟文物博物馆架构[J].系统仿真学报,2005,17(6):1412-1417. 被引量:11
-
2陆宜梅.Web搜索技术现状分析[J].沈阳大学学报,2006,18(2):34-36. 被引量:6
-
3张绚丽.基于搜索技术的科技期刊网站建设要点研究[J].武汉科技大学学报(社会科学版),2006,8(5):76-78. 被引量:8
-
4姚全珠,张杰.基于数据挖掘的搜索引擎技术[J].计算机应用研究,2006,23(11):29-30. 被引量:7
-
5王郁新.Web服务在数字博物馆中的应用.计算机科学,2007,(10):58-60.
-
6黎文.数字博物馆关键技术.北京科协,2005,(5):40-43.
-
7龚正伟.数字博物馆的建设与发展.北京科协,2005,(5):17-19.
-
8王永平.基于.Web的数字博物馆虚拟空间的分类索引研究.计算机科学,2007,(10):58-60.
-
9王永平.基于Web的数字博物馆虚拟空间分类索引研究.计算机科学,2007,(10):58-60.
-
10张佳强,周锦程,王士同.基于领域模型的信息系统分析与应用[J].微计算机信息,2009,25(9):195-196. 被引量:3