基于移动爬虫的专用Web信息收集系统的设计被引量：3

Design of a Specific Web Information-Collecting System Based on Mo bile Crawler

下载PDF

导出

摘要搜索引擎已经成为网上导航的重要工具。为了能够提供强大的搜索能力,搜索引擎对网上可访问文档维持着详尽的索引。创建和维护索引的任务由网络爬虫完成,网络爬虫代表搜索引擎递归地遍历和下载Web页面。Web页面在下载之后,被搜索引擎分析、建索引,然后提供检索服务。文章介绍了一种更加有效的建立Web索引的方法,该方法是基于移动爬虫(MobileCrawler)的。在此提出的爬虫首先被传送到数据所在的站点,在那里任何不需要的数据在传回搜索引擎之前在当地被过滤。这个方法尤其适用于实施所谓的“智能”爬行算法,这些算法根据已访问过的Web页面的内容来决定一条有效的爬行路径。移动爬虫是移动计算和专业搜索引擎两大技术趋势的结合,能够从技术上很好地解决现在通用搜索引擎所面临的问题。 Search engines have become important tools for Web navigation.In order to provide powerful search facili-ties,search engines maintain comprehensive indices of documents available on the Web.The creation and maintenance of Web indices is done by Web crawlers,which recursively traverse and download Web pages on behalf of search engines.Analysis of the collected information is performed after the data has been downloaded.This paper presents an alterna-tive,more efficient approach to building Web indices based on mobile crawlers.The proposed crawlers are transferred to the source(s)where the data resides in order to filter out any unwanted data locally before transferring it back to the search engine.Our approach to Web crawling is particularly well suited for implementing so-called″smart″crawling al-gorithms which determine an efficient crawling path based on the contents of Web pages that have been visited so far.Mobile crawler is the result of the two technology tendencies,specific search engine and mobile computing,it promises to solve the difficult issues faced by current general search engines.

作者潘春华冯太明武港山

机构地区南京大学计算机科学与技术系

出处《计算机工程与应用》 CSCD 北大核心 2003年第36期153-156,共4页 Computer Engineering and Applications

基金国家自然科学基金资助(编号:60073030) 国家教育部"现代远程教育关键技术研究重点项目"资助富士通研究项目资助

关键词互联网搜索引擎 WEB 信息收集系统设计移动爬虫 Information-gathering,Search engine,Mobile crawler,World Wide Web

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1潘春华,常敏,武港山.面向Web的信息收集工具的设计与开发[J].计算机应用研究,2002,19(6):144-147. 被引量：14

二级参考文献15

1[1]Martijn Koster. Guidelines for Robot Writers [EB/OL]. http ://info. webcrawler. com/mak/projects/robots/guidelines. html.
2[2]Oskari Heinonen, et al. WWW Robots and Search Engines[Z].(1996).
3[3]David Pallmann. Progrmming Bots, Spiders , and Intelligent Agent in Microsoft Visual C++[M].北京:北京希望电子出版社,1999.41-59.
4[4]M Koster. A Standard for Robot Exclusion[EB/OL] .http://info. webcrawler. com/mak/ projects/ robots/norobots. html.
5[5]HTML4.01规范[EB/OL].http://www.3c.org/TR/html4.
6[6]http://www.w3.org/TR/html4/references.html # ref-RFC2616[EB/OL].
7[7]David Eichmann. The RBSE Spider - Balancing Effective Search Aginst Web Load [ C ]. In Proceedings of the First International World Wide Web Conference 1994. 113-120.
8[8]Oliver A McBryan. GENV and WWW: Tools for Taming the Web[C]. In Proceedings of the First International World Wide Web Conference 1994.79-90.
9[9]Brian Pinkerton. Finding What Peolple Want: Experiences with the WebCrawler[C]. In Proceedings of the Second International World Wide Web Conference, 1994.
10[10]Sergey Brin,Lawrence Page. The Anatomy of a Large-scale Hypertextual Web Search Engine [C]. In Proceedings of the Seventh International World Wide Web Conference, April 1998,107-117.

共引文献13

1郭晔.基于Agent的智能个性化信息检索系统模型研究[J].微电子学与计算机,2005,22(6):210-213. 被引量：12
2孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
3马辉民,王超一,方轶.B2C电子商务网站商品信息搜索系统研究[J].武汉理工大学学报（信息与管理工程版）,2008,30(1):121-123.
4赵靖华.网络性能指标预测法指导任务分配的分布式网页信息获取技术[J].通化师范学院学报,2008,29(10):21-23.
5李卫疆,赵铁军,朴星海.一种新的面向主题的爬行算法[J].计算机应用研究,2009,26(5):1663-1666. 被引量：5
6陈勇,刘勇.中医药主题搜索网络机器人的设计与实现[J].计算机技术与发展,2010,20(5):162-166. 被引量：2
7汪维熙,马静.一种动态更新知识体系模型及其在专题信息采集中的应用研究[J].情报学报,2012,31(6):583-588. 被引量：2
8徐春凤,王艳春,翟宏宇.全自动网页信息采集系统[J].长春理工大学学报（自然科学版）,2015,38(2):151-154. 被引量：5
9唐勇.网络论坛爬虫的设计[J].电脑知识与技术,2012,8(1X):570-572. 被引量：2
10刘寿臣.网页爬虫技术的关键技术研究探索[J].电脑知识与技术（过刊）,2016,22(6X):16-17. 被引量：6

同被引文献18

1唐凯林,赵亮.5年企业管理“白皮书”[J].英才,2002(10):69-73. 被引量：2
2徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究[J].现代图书情报技术,2004(11):46-48. 被引量：9
3邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44
4王知津,郑红军,张收棉.网络计量学的理论、方法及应用[J].中国图书馆学报,2005,31(4):11-14. 被引量：10
5赵长林.科学学的发展与命题[J].聊城大学学报（哲学社会科学版）,2005(5):13-15. 被引量：4
6刘则渊.科学学理论体系建构的思考——基于科学计量学的中外科学学进展研究报告[J].科学学研究,2006,24(1):1-11. 被引量：56
7赵雪琴,宋利敏.一种新的聚类算法在入侵检测中的应用研究[J].信息安全与通信保密,2006,28(4):84-86. 被引量：5
8文胜,朱东华,任智军,胡望斌.基于数据挖掘的管理科学面上项目分析[J].情报探索,2006(9):120-124. 被引量：2
9章勤,余洋,陶文兵.图像搜索中基于网页分块的图像分类研究[J].计算机工程与科学,2007,29(6):42-44. 被引量：1
10黄培红.自然语言理解的机器认知形式系统[J].计算机工程与科学,2007,29(6):113-116. 被引量：11

引证文献3

1李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
2于波,俞培果.管理科学发展新动态的网络计量分析[J].现代情报,2008,28(3):8-11.
3肖楠,赵恩格,颜柄文.网络内容安全研究进展[J].网络安全技术与应用,2008(11):30-32. 被引量：1

二级引证文献2

1李爱国,王月强.多线程Web图像搜索器的磁盘I/O缓冲方法[J].郑州大学学报（理学版）,2010,42(1):33-37.
2王子强,张文阁,王洪艳.基于内容的网络异常信息过滤[J].硅谷,2012,5(18):9-10. 被引量：2

1金钊,陈艳.一种目标Web信息收集系统的设计与实现[J].信息技术,2013,37(3):172-175. 被引量：1
2肖基毅,陈坚祯,朱常春.基于Agent的信息发现和收集系统研究[J].微机发展,2001,11(4):48-49. 被引量：1
3罗雪山,满广志.多媒体技术在C^3I系统中的应用[J].国防科技参考,1997,18(1):66-93.
4卫锋.通用煤炭行业信息收集系统的设计与实现[J].煤炭技术,2013,32(5):205-206.
5岁丰.决策用地区信息收集系统的改善[J].管理观察,1994,0(4):46-47.
6别祖杰.网上导航的指南针——介绍几个著名的搜索引擎[J].重庆石油高等专科学校学报,1999,1(1):61-64.
7潘春华,武港山.面向主题的Web信息收集系统的设计与实现[J].小型微型计算机系统,2003,24(12):2150-2154. 被引量：12
8荣波,蔡安妮,孙景鳌.数字化多媒体信息收集系统的分析与设计[J].计算机应用,2000,20(5):28-30. 被引量：1
9干晓婷.搜索引擎分析[J].图书馆杂志,2000,19(5):44-46. 被引量：1
10赵亮,周巍.Web搜索引擎分析设计和实现[J].武汉科技学院学报,2006,19(3):70-72. 被引量：1

计算机工程与应用

2003年第36期

浏览历史

内容加载中请稍等...

基于移动爬虫的专用Web信息收集系统的设计被引量：3

参考文献1

二级参考文献15

共引文献13

同被引文献18

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于移动爬虫的专用Web信息收集系统的设计 被引量：3

参考文献1

二级参考文献15

共引文献13

同被引文献18

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于移动爬虫的专用Web信息收集系统的设计被引量：3