搜索引擎中Robot搜索算法的优化被引量：21

Improvement of the Robot Search Algorithm

下载PDF

导出

摘要目前的搜索引擎越来越暴露出不足之处 ,当用户使用搜索引擎时输入特定关键词之后 ,返回的查询结果往往有数千甚至几百万之多 ,而且其中包含大量的重复信息与垃圾信息 ,用户从中筛选出自己感兴趣的网页仍然需要耗费很长的时间。另外一种情况就是 ,Web上明明存在某些重要网页 ,却没有被搜索引擎的robot发现。本文针对这种现象 ,重点讨论搜索引擎中的搜索策略 ,改善搜索算法 ,使Robot在搜索阶段就能够充分处理与Robot频繁交互的URL列表。根据网页的内容、HTML结构以及其中包含的超链信息计算网页的PageRank ,使URL列表能够根据重要性调整排列顺序。初步的试验结果表明。 With the explosive growth of the WWW,search engine is becoming more and more important.A large amount of users are relying on search engine for interesting information.But now,after the user inputting the query,such search engines often result in a huge set of retrieved documents,many of which are irrelevant to the user.It is very difficult to sifting the specific document.On the other hand,robots cannot retrieve some important homepages.In this paper we present a search algorithm that based on processing the queue of the URL efficiently.According to the content of the papge,the HTML structure of the page and the hyperlinks among these pages,we evaluate the importance of these homepages.So the robot can adjust the order of our URL list.Preliminary experiments show significant improvements over the original search algorithm.

作者宋聚平王永成滕伟许欢庆

机构地区上海交通大学电子信息学院

出处《情报学报》 CSSCI 北大核心 2002年第2期130-133,共4页 Journal of the China Society for Scientific and Technical Information

关键词搜索引擎超链接 ROBOT PAGERANK 搜索策略搜索模块搜索算法优化算法 search engine,hyperlink,Robot,PageRank.

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1[1]Mark A.C.Overmeer.My personal search engine.Computer Networks,1999,31:2271～2279
2[2]S.Lawrence,C.Lee Giles.Accessibility of information on the Web.Nature,1999,400
3[3]M.Koster.Robots in the web:threat or treat.Conne Xions,1995,9(4) http://info.webcrawler.com/mak/projects/robots/threat-or-treat.html
4[4]Krishan Bharat,Andrei Broder,Monika Henzinger,etc..The connectivity derver:fast access to linkage information on the web.Proc.7th International World Wide Web Conference,1998
5[5]Soumen Chakrabarti.Mining the Web's link structure.Computer,IEEE,1999,August:60～67
6[6]Altigran S.Da Silva,Eveline A.Veloso,Paulo B.Golgher,etc..CoBWeb--A crawler for the Brazilian Web.String Processing and Information Retrieval Symposium,1999:184～191
7[7]C.M.Bowman,P.B.Danzig,D.R.Hardy,U.Manber,and M.F.Schwartz.Harvest:a scalable,customizable discovery and access system.Technical Report CU-CS-732-94,1994
8[8]H.Yamana,K.Tamur,H.Kawano,S.Kamei,M.Harada,etc.Experiments of collecting www information using distributed www robots.In Proceedings of the 21st International ACM SIGIR Conference,Australian,1998
9[9]Y.S.Maarek,et al.WebCutter:a system for dynamic and tailorable site mapping.Proc.of 6th WWW Conference,Santa Clara,USA,April,1997
10[10]Gun-Woo Nam,Jong-Hee Park,Tai-Yun Kim.Dynamic management of URL based on object-oriented paradigm.Parallel and Distributed Systems,IEEE,1998:226～230

同被引文献144

1龙宇巍,王永成,许欢庆.定题搜索引擎Robot的设计与算法[J].计算机仿真,2004,21(4):69-72. 被引量：9
2彭波,李晓明.搜索引擎倒排文件的一种分块组织技术[J].电子学报,2005,33(2):358-362. 被引量：9
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：156
4费巍,黄如花.基于用户行为分析的搜索引擎优化策略[J].图书情报工作,2005,49(10):75-77. 被引量：21
5马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例[J].图书情报知识,2005,22(5):77-79. 被引量：28
6文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
7郭一平,王亮.域内资源整合系统及其标准协议体系[J].大学图书馆学报,2005,23(6):40-47. 被引量：8
8李栋,史晓东.一种支持高效检索的实时更新倒排索引策略[J].情报学报,2006,25(1):16-20. 被引量：6
9常为领,孙瑞志,高万林.基于ROBOT的农业信息搜索引擎设计[J].农业网络信息,2006(8):59-61. 被引量：3
10王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量：44

引证文献21

1吴楠.Robot算法分析[J].舰船电子工程,2008,28(1):107-108.
2江禅志,王才元.Robot算法分析[J].舰船电子工程,2008,28(6):160-161.
3高磊,徐东平.启发式算法在搜索引擎的应用[J].电脑知识与技术（过刊）,2007(2):426-427.
4郭一平,王亮.资源整合系统中搜索引擎的研究[J].高等工程教育研究,2006,54(S1):108-110. 被引量：4
5蒯晓童,王银娣.搜索引擎Robot技术的优化算法研究[J].地理空间信息,2004,2(4):32-34.
6胡卓颖,徐可,万中英,陆玉昌,丁树良.专题型网页搜集系统的设计与实现[J].计算机与现代化,2004(10):1-5.
7葛蓉.利用网络日志分析提高搜索引擎的检准率[J].情报科学,2004,22(10):1250-1253. 被引量：5
8高波,张忠能,查志琴.基于文字链接比的网页分类的研究[J].计算机工程与应用,2004,40(27):151-153. 被引量：1
9王曙光,张莉,张春元.中文搜索引擎的原理与改进策略[J].福建电脑,2004,20(11):12-13.
10郭一平,王亮.一种基于DNS的分层式网页搜索引擎研究[J].高校图书情报论坛,2006,5(2):7-11. 被引量：2

二级引证文献57

1王丽华.我国图书馆联盟研究综述[J].图书与情报,2008(2):29-33. 被引量：27
2张岌秋.论网络环境下情报学研究方法的演化[J].图书情报工作,2005,49(10):33-36. 被引量：11
3董河鱼.高校院系资料室对毕业论文的收集与利用[J].内蒙古图书馆工作,2005(3):71-72.
4刘智浓,张永利.搜索引擎技术简析[J].电脑知识与技术,2006,1(1):79-80. 被引量：1
5付东来,李元.Web多媒体数据实时索引的设计与实现[J].计算机与数字工程,2006,34(3):16-19.
6马国俊,韩利凯.Web站内检索系统的研究与实现[J].西安文理学院学报（自然科学版）,2006,9(4):70-72.
7季拥政.搜索引擎检索技术与检索效果探析[J].青海大学学报（自然科学版）,2006,24(6):98-100. 被引量：1
8张帆,林建.智能搜索引擎信息过滤机制研究[J].图书与情报,2007(4):52-56. 被引量：4
9杨大全,王斓樾.利用服务器日志优化搜索引擎[J].沈阳工业大学学报,2008,30(1):94-97.
10黄旭,朱艳琴,罗喜召.基于内容评价的爬虫搜索策略研究[J].微电子学与计算机,2008,25(11):25-28. 被引量：4

1高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
2吴楠.Robot算法分析[J].舰船电子工程,2008,28(1):107-108.
3江禅志,王才元.Robot算法分析[J].舰船电子工程,2008,28(6):160-161.
4快乐的网上购物之旅[J].电脑校园,2005(4):12-13.
5张泊平,郭超峰.基于网页结构挖掘算法研究[J].计算机与信息技术,2006,0(6):9-11.
6栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
7郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
8homey.TT部分散热产品简评散热、超频相得益彰[J].电子与电脑,2003(10):47-47.
9胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：39
10崔慧超,刘莉.应用聚类技术分类提取Web页面[J].电脑知识与技术,2010,6(1):212-213.

情报学报

2002年第2期

浏览历史

内容加载中请稍等...

搜索引擎中Robot搜索算法的优化被引量：21

参考文献15

同被引文献144

引证文献21

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

搜索引擎中Robot搜索算法的优化 被引量：21

参考文献15

同被引文献144

引证文献21

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

搜索引擎中Robot搜索算法的优化被引量：21