自适应最优搜索算法的网络蜘蛛的设计与实现被引量：1

Design and implementation of adaptive best-first Web spider

下载PDF

导出

摘要主题搜索引擎NonHogSearch改进了采用最优搜索算法的网络蜘蛛的搜索过程,控制了搜索的贪婪程度;并引入网页信噪比概念,从而判断网页是否属于所要搜索的主题页面;进一步,NonHogSearch在爬行过程中自动更新链接的权重,当得到主题相关页面时产生回报,将回报沿链接链路逆向反馈,更新链路上所有链接的Q值,这样避免了网络蜘蛛过早陷入Web搜索空间中局部最优子空间的陷阱,并通过并行方式实现多条链路的同时搜索,改进了搜索引擎的性能。实验证实了该算法在查全率与查准率两方面都有一定的优越性。 NonHogSeareh, a topic-specific search engine based on improved best-first search algorithm was designed and implemented, which decreased the searching greed degree. Signal-to-noise ratio of Web page was used to judge whether or not the page belonged to the search topic. Further NonHagSearch Web spider made online-lncremental adaptive learning, the reward generated directly by the on-topic pages would be feedback along the link-chaln to update all the value Q of the links. NonHogSearch avoids going into local best solutions space earlier, and the performance of Web spider was improved. Experiments prove that it has better recall rate and precision rate than others.

作者魏文国谢桂园

机构地区广东技术师范学院电子与信息学院广东技术师范学院培训中心

出处《计算机应用》 CSCD 北大核心 2007年第11期2857-2859,共3页 journal of Computer Applications

基金广东省自然科学基金资助项目(06025383)

关键词个性化网络蜘蛛最优搜索算法在线增量自学习网页信噪比 topic-specific Web spider best-first search algorithm online-incremental adaptive learning signal-to-noise ratio of Web page

分类号 TP393.09 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1MEGHABGHAB G,KANDEL A.Stochastic simulations of web search engines:RBF versus second-order regression models[J].Information Sciences,2004,159(1/2):1-28.
2龙宇巍,王永成,许欢庆.定题搜索引擎Robot的设计与算法[J].计算机仿真,2004,21(4):69-72. 被引量：9
3CHING W-K.Optimizing web servers using page rank prefetching for clustered accesses[J].Information Sciences,2005,169(3/4):245-247.
4卢亮.网页自动分类引擎[EB/OL].[2007-05-10].http://www.wespoke.com/archives/000798.html.
5傅向华,冯博琴,马兆丰,何明.可在线增量自学习的聚焦爬行方法[J].西安交通大学学报,2004,38(6):599-602. 被引量：18
6路晓伟,蒋馥.基于模拟退火的复合嵌套分割算法[J].系统工程与电子技术,2004,26(1):99-102. 被引量：10

二级参考文献10

1McCallum A, Nigam K, Rennie J, et al. Building domain-specific search engine with machine learning techniques [A]. AAAI Spring Symposium on Intelligent Agents in Cyberspace, Stanford University,USA,1999.
2Chakrabarti S M, van den Berg H, Dom B. Focused crawling: a new approach to topic-specific Web resource discovery [J]. Computer Networks,1999,31(11-16):1 623-1 640.
3Diligenti M, Coetzee F M, Lawrence S, et al. Focused crawling using context graphs [A]. 26th International Conference on Very Large Database, Cairo,Egypt, 2000.
4Chakrabarti S, Kunal P, Mellela S. Accelerated focused crawling through online relevance feedback [A]. The Eleventh International Conference on World Wide Web, Hawaii,USA,2002.
5Nigam K. Using unlabeled data to improve text classification [D]. Pittsburgh, USA: School of Computer Science, Carnegie Mellon University, 2001.
6Jing Peng, Williams R. Incremental multi-step Q-learning [J]. Machine Learning,1996,22(1-3):283-290.
7Wiering M, Schmidhuber J. Fast online Q(λ)[J]. Machine Learning,1998,33(1):105-115.
8杨湘龙,王飞,冯允成.仿真优化理论与方法综述[J].计算机仿真,2000,17(5):1-5. 被引量：35
9宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量：28
10雷鸣,王建勇,陈葆珏,李晓明.Improved Relevance Ranking in WebGather[J].Journal of Computer Science & Technology,2001,16(5):410-417. 被引量：4

共引文献34

1张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
2路晓伟,蒋馥,侯立文.基于NP算法的CRM中客户识别特征的选择[J].系统工程学报,2005,20(6):600-605. 被引量：4
3王斌,谢庆生,刘丹,王晓.Web教学资源主题检索系统的设计与实现[J].现代图书情报技术,2006(1):62-65. 被引量：2
4傅向华,冯博琴.一种支持复杂查询的有组织P2P搜索方法[J].小型微型计算机系统,2006,27(3):401-406. 被引量：3
5傅向华,冯博琴.主题驱动的P2P分布式信息搜索机制研究[J].小型微型计算机系统,2006,27(4):609-613. 被引量：10
6郑健珍,林坤辉,周昌乐,康恺.基于本体语义的定题爬虫[J].山东大学学报（理学版）,2006,41(3):106-110. 被引量：11
7傅向华,明仲.基于P2P的个性化Web搜索系统的设计与实现[J].计算机工程与应用,2007,43(7):111-113. 被引量：2
8刘德仿,王斌.面向教学领域的智能搜索引擎的研究与开发[J].电化教育研究,2007,28(5):48-51. 被引量：3
9张林刚,严广乐,路晓伟.嵌套分割算法:一种新的并行随机优化算法[J].计算机应用研究,2007,24(6):79-81. 被引量：4
10刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130

同被引文献7

1J Akilandeswari, N P Gopalan. Design of an Enhanced Rule based Focused Crawler[ C ]. First International Conference on Emerging Trends in Engineering and Technology ( IEEE Xplore). ICETET. 2008. 798 - 801.
2Animesh Tripathly, Prashanta K Patra. A web mining architectural model of distrbuted crawler for Internet searches using pageRank algorithm[ C]. Asia - Pacific service Computing Conference ( IEEE Xplore). APSCC 2008. 513 -518.
3刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130
4刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量：14
5张玲,秦拯,易先卉.基于遗传算法的Web信息采集策略研究[J].情报理论与实践,2008,31(2):303-306. 被引量：2
6关慧芬,师军,马继红.基于遗传算法的主题爬行技术研究[J].计算机与数字工程,2008,36(10):50-53. 被引量：4
7刘朋,林泓,高德威.基于内容和链接分析的主题爬虫策略[J].计算机与数字工程,2009,37(1):22-24. 被引量：5

引证文献1

1陈一峰,赵恒凯,余小清,万旺根.基于遗传算法的主题爬虫策略改进[J].计算机仿真,2010,27(10):87-90. 被引量：4

二级引证文献4

1卓志宏.一种基于语义信息的主题相关性判别模型[J].计算机与现代化,2013(9):157-159.
2钱竞远,杨辉华,刘振丙.基于布谷鸟搜索算法的主题爬虫策略设计[J].仪器仪表用户,2017,24(6):20-23.
3刘灿,任剑宇,李伟,张强强.面向个性化推荐的教育新闻爬取及展示系统[J].软件工程,2018,21(2):38-40. 被引量：8
4邢丽.基于云计算的信息推荐系统研究[J].物流技术（装备版）,2013(2):185-188. 被引量：3

1刘海客,李集林,尤启迪,张华健.一种OpenFlow网络的动态负载均衡方法[J].计算机工程,2016,42(8):85-90. 被引量：6
2褚衍杰,徐正国.基于行为规律的搜索资源分配新算法[J].电讯技术,2014,54(2):195-200. 被引量：4
3索坤,刘金虎.一种OFDM系统中峰均功率比的抑制算法[J].自动化与仪器仪表,2010(4):129-130. 被引量：1
4傅向华,冯博琴,马兆丰,何明.可在线增量自学习的聚焦爬行方法[J].西安交通大学学报,2004,38(6):599-602. 被引量：18
5尹清波,王慧强,张汝波,申丽然,李雪耀.半监督在线增量自学习异常检测方法研究[J].计算机研究与发展,2006,43(z2):419-424. 被引量：2
6谭冠政,肖宏峰,王越超.具有不完全微分的最优模糊PID控制器及其在智能人工腿中应用的仿真研究(英文)[J].控制理论与应用,2002,19(3):462-466. 被引量：6
7陈科,朱清新,杨曦.最优搜索机制下寻找最优插入-删除种子[J].电子科技大学学报,2011,40(2):292-295.
8李少芳,胡山立.基于势结构的给定限界的联盟结构生成算法[J].计算机应用研究,2009,26(9):3232-3234. 被引量：1
9李尧,张勇,李了了.1种新颖的图像超分辨率算法的设计与实现[J].计算机与应用化学,2009(7):953-960.

计算机应用

2007年第11期

浏览历史

内容加载中请稍等...

自适应最优搜索算法的网络蜘蛛的设计与实现被引量：1

参考文献6

二级参考文献10

共引文献34

同被引文献7

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

自适应最优搜索算法的网络蜘蛛的设计与实现 被引量：1

参考文献6

二级参考文献10

共引文献34

同被引文献7

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

自适应最优搜索算法的网络蜘蛛的设计与实现被引量：1