网络爬行虫智能化研究分析被引量：3

Analysis of the Study Status on Web Crawler with Certain Intelligence

下载PDF

导出

摘要 Web爬行虫是当今搜索引擎的主要组成部分,也是信息检索领域研究的热点问题。本文综述了具有一定智能性的网络爬行虫的研究历史与现状,主要包括两个方面:传统的人工智能方法如神经网络、遗传算法、蚁群算法等在网络爬行虫的应用,以及借助这些方法发展起来的主题爬行虫;多网络爬行虫系统中爬行虫的协调的Agent技术。在此基础上,提出了一个语义概念背景图的网络爬行的基本思路。 At present, web crawler is a major component of the current search engine, also a hot point for the research on information retrieval. In this paper, the author reviews the research history and current situation about web crawler with certain intelligence, mainly in two aspects： first, the application of traditional artificial intelligence methods in web crawler, such as neural network, genetic algorithm, ant colony optimization and so on, as well as the focused crawler which is developed based on these methods; second, the agent technology about the coordination of the web crawler in multi-network crawling system. On this basis, a basic idea about web crawling based on semantic concept context graph is proposed.

作者杜亚军

机构地区西华大学数学与计算机学院

出处《西华大学学报（自然科学版）》 CAS 2010年第2期217-222,共6页 Journal of Xihua University:Natural Science Edition

基金国家自然科学基金(60872089)

关键词网络爬行虫智能化概念背景图搜索引擎 web crawler intelligent cencept context graph search engine

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1肖诗源,叶俊,刘贤德.一种基于Agent的分布式搜索引擎[J].计算机工程,2002,28(7):38-39. 被引量：13
2刘大有,杨鲲,陈建中.Agent研究现状与发展趋势[J].软件学报,2000,11(3):315-321. 被引量：313
3王靖,肖明君,蔡庆生.一种基于Web的智能搜索方法[J].计算机应用研究,2001,18(11):22-23. 被引量：3
4蒋伟进,王璞.基于MAS市场机制的动态计算资源调度模型研究[J].计算机研究与发展,2007,44(1):29-36. 被引量：9
5杨烁颖,白万民.一个基于MAS的搜索引擎模型[J].计算机技术与发展,2006,16(12):195-198. 被引量：3
6李学勇,欧阳柳波,李国徽.基于模拟退火机制的网络蜘蛛搜索策略[J].湖南理工学院学报（自然科学版）,2004,17(2):60-63. 被引量：4
7杜亚军.智能信息处理及其在搜索引擎中的应用[J].西华大学学报（自然科学版）,2007,26(2):1-5. 被引量：3
8宋斌,余凯.基于Agent的个性化搜索模型[J].南京理工大学学报,2002,26(3):295-298. 被引量：7

二级参考文献72

1李学勇,欧阳柳波,李国徽.基于模拟退火机制的网络蜘蛛搜索策略[J].湖南理工学院学报（自然科学版）,2004,17(2):60-63. 被引量：4
2翁楚良,陆鑫达.一种基于市场机制的网格资源调价算法[J].计算机研究与发展,2004,41(7):1151-1156. 被引量：26
3蒋伟进,王璞.基于MAS的复杂系统分布式求解策略与推理研究[J].计算机研究与发展,2006,43(9):1615-1623. 被引量：15
4Girarratano J Riley G.专家系统原理和编程[M].北京:机械工业出版社,2000..
5[4]R.A.Butafogo,B.Schneiderman.Identifying Aggregates in Hypertext Structures[C].The Proceeding of 3rd ACM Conference on Hypertext.Texas,USA.1991:63-74.
6[8]S.Brin,L.Page.The Anatomy of a Large-Scale Hypertextual Web Search Engine[J].Source,Computer Networks and ISDN Systems Archive.1998,30(7):107-117.
7[9]J.M.Kleinberg.Authoritative Sources in a Hyperlinked Environment[C].//Tarjan RE,Baecker T,eds.Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms.New Orleans.ACMPress,1997:668-677.
8[12]L.A.Zadeh.The Concept of a Linguistic Variable and Its Application to Approximate Reasoning[J].Part I,Information Sciences.1975(8):199-249.
9[13]Y.Xu,D.Ruan,K.Y.Qin,J.Liu.Lattice-valued Logic:An Alternative Approach to Deal with Fuzziness and Uncertainty[M].Springer,2003:305-359.
10[14]Z.Pawlak.Rough Set Approach to Multi-Attribute Decision Analysis[J].European Journal of Operational Reseach.1994,72 (3):443-459.

共引文献343

1王领.物联网智能决策平台中的多条件约束决策[J].舰船科学技术,2019,0(20):190-192. 被引量：2
2孙中红.一个基于Multi-agent理论的个性化计算机导师系统[J].鲁东大学学报（自然科学版）,2008,24(1):34-37.
3张庆生,齐勇,赵季中,候迪.基于移动代理的上下文感知系统研究[J].计算机研究与发展,2006,43(z1):250-255.
4李凡长.基于Agent的遗传算法描述与演化模型研究[J].小型微型计算机系统,2003,24(1):118-122. 被引量：3
5王媛丽,殷建平,赵建民,毛晓青.MAS研究的历史与现状[J].计算机科学,2002,29(z1):265-267.
6张晓章,薛领,黄玮.基于agent的区域经济智能决策支持系统研究[J].兰州大学学报（自然科学版）,2008,44(S1):201-205.
7孟磊,王学军,王领.基于MAS的计算机辅助动态集成系统建模研究[J].风机技术,2008,50(3):60-62.
8田俊峰,朱叶.Trust Shell Based Constitution Model of Trusted Software[J].China Communications,2011,8(4):11-22. 被引量：2
9罗红兵,王伟,张晓霞,武林平.基于预算的资源管理模型[J].华中科技大学学报（自然科学版）,2011,39(S1):125-129.
10李刚,孙林岩,李海泉,Ingo Bohg.自组织柔性ERP研究[J].计算机工程与应用,2004,40(24):61-63. 被引量：2

同被引文献44

1吴亮.搜索引擎中网络爬虫的设计[J].决策与信息（财经观察）,2008(7):139-140. 被引量：3
2刘洁清,吴京慧.面向主题的个人实时搜索引擎的设计与实现[J].现代图书情报技术,2006(5):40-43. 被引量：6
3杨烁颖,白万民.一个基于MAS的搜索引擎模型[J].计算机技术与发展,2006,16(12):195-198. 被引量：3
4李晓明,闫宏飞,王继民.搜索引擎原理、技术与系统[M].北京:科学出版社.2004.
5徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
6刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
7Cho J, Hector G. M. Effective Page Refresh Policies for Web Crawlers[J].ACM Transactions on Database Systems, 2003,28 (4) :390 - 426.
8Przemyslaw K, Tomasz K. Label - Dependent Node Classification in the Network [ J ]. NeuroComputing, 2012, 75 ( 1 ) : 199 - 209.
9Diligenti M, Coetzee F M, Lawrence S. Focused Crawling Using Context Graphs [ C ]//The Proceedings of the International Coference on Very Large Database (VLDB). San Francisco, CA, USA : Morgan Kaufmann Publishers Inc ,2000 : 527 - 534.
10Hsu C C, Wu F. Topic-Specific Crawling on the Web with the Measurements of the Relevancy Context Graph[J]. Information System, 2006,31:232 - 246.

引证文献3

1张安妮,姜华,郝相莲.面向主题的快速搜索引擎的设计与研究[J].淮阴工学院学报,2011,20(3):12-15. 被引量：1
2张安妮,姜华,郝相莲.面向主题爬虫改进算法的个性化搜索引擎应用研究[J].海南大学学报（自然科学版）,2011,29(3):221-225. 被引量：1
3杜亚军.多Agent主题爬虫协作策略的研究与分析[J].西华大学学报（自然科学版）,2013,32(1):31-38. 被引量：2

二级引证文献4

1李兆锋.主题搜索引擎中的高效网页分类器构建方法[J].科技通报,2013,29(8):109-111. 被引量：1
2王沐心.门户网站保密检查系统[J].计算机与现代化,2013(10):121-124.
3刘佳,杜亚军.基于市场匹配的多Agent智能爬虫系统[J].西华大学学报（自然科学版）,2016,35(1):67-72.
4黄微,许烨婧,刘熠.大数据环境下多媒体网络舆情并发获取的数据驱动机理研究[J].情报理论与实践,2019,42(6):42-48. 被引量：7

1向桂林.WEB超链分析及应用[J].大学图书馆学报,2002,20(2):48-51. 被引量：4
2杜亚军.多Agent主题爬虫协作策略的研究与分析[J].西华大学学报（自然科学版）,2013,32(1):31-38. 被引量：2
3关卫国,骆永成.基于概念背景图的主题爬虫设计与实现[J].计算机工程与设计,2016,37(10):2679-2684. 被引量：4
4黄莉,王成良,杨铮.面向主题网络爬行的智能隧道穿越算法研究[J].计算机应用研究,2009,26(8):2931-2933. 被引量：6
5关慧芬,师军,马继红.网络爬行技术研究[J].郑州轻工业学院学报（自然科学版）,2008,23(6):69-73. 被引量：4
6李广丽,张红斌,刘觉夫.分布式网络机器人的设计与实现[J].计算机工程与设计,2010,31(3):591-594.
7吴麒,刘毅,陈兴蜀,王文贤,郑炳伦.eDonkey的网络爬行技术及特性分析[J].计算机应用研究,2009,26(3):1047-1049. 被引量：1
8彭寒,郭雷.Web应用安全漏洞测试工具Punks的设计与实现[J].西安航空技术高等专科学校学报,2008,26(5):62-64. 被引量：1
9金国华,陈福接.并行化技术与工具[J].计算机研究与发展,1996,33(7):481-492.
10黄可,马廷灿,冯瑞华,姜山.全息光存储技术研究进展[J].光机电信息,2007,24(11):26-28. 被引量：3

西华大学学报（自然科学版）

2010年第2期

浏览历史

内容加载中请稍等...

网络爬行虫智能化研究分析被引量：3

参考文献8

二级参考文献72

共引文献343

同被引文献44

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

网络爬行虫智能化研究分析 被引量：3

参考文献8

二级参考文献72

共引文献343

同被引文献44

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

网络爬行虫智能化研究分析被引量：3