一个Web抓取器的实现

An Implementation of Web Grabber

下载PDF

导出

摘要本文介绍一个Web抓取器的实现。Web抓取器能够根据用户输入的URL和一定的约束条件自动地搜索Web上的超文本文档 ,建立URL索引 ,根据该索引有选择的下载Web资源 ,同时保持了原有的链接关系。本文实现了一种Web遍历过程 ,并根据遍历结果抓取文档 ,从而完成对指定URL抓取文本。 This paper introduces an implementation of Web grabber. The primary purpose of the Web grabber is to fetch hypertext documents according to the given URL and some restrictions. After specifying the options, our program will fetch the start Web document, extract the links from document.Having traveled the URLs,it will finally download the hyperlinked documents.The authors analyse an implementation of such a Web grabber. After presenting a scheme of Web crawling,this paper describes the details of fetching Web documents according to the result of crawling . [

作者吕强郭蕾贡正仙杨季文

机构地区苏州大学江苏省计算机信息处理重点实验室

出处《微机发展》 2001年第1期32-35,共4页 Microcomputer Development

关键词 WEB抓取器超文本文档 URL INTERNET Web Grabber Hypertext Document UR4

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1（美）Kris Jamsa 刘素丽等（译）.INTERNET编程[M].电子工业出版社,1995,5..

共引文献1

1傅勇.CWMIS网络与访问安全设计与实现[J].计算机应用与软件,2000,17(12):39-44.

1什么是WWW[J].中小学电教（综合）,2003(1):57-57.
2陈冈,舒建文.构造基于Intranet的Web信息搜索服务[J].计算机与数字工程,2005,33(3):118-120.
3刘务华,罗铁坚,王文杰.一个Web社区搜索引擎系统[J].计算机应用研究,2007,24(2):275-278. 被引量：2
4肥猫.明明白白网的“心”[J].新浪潮．学网络,2000(5):95-96.
5图书推荐[J].信息安全与通信保密,2015,13(8):71-71.
6郝艳玲.利用CSS技术创建灵活多变的Web信息[J].中国计算机用户,1997(13):60-61.
7李振宏,郑关胜,李含光.一种基于超文本标签修改和附加字符实现信息隐藏的方法[J].现代计算机,2008,14(10):123-125. 被引量：2
8黄宜华,尤晓白,张福炎.常规文本到超文本的自动转换[J].今日电子,1997(2):65-67.
9夏道藏.国际互联网络和内部网络[J].中国金融电脑,1996(5):7-9.
10罗杰.Google“内置聊天机器人助手”的应用[J].计算机与网络,2015,41(24):34-34.

微机发展

2001年第1期

浏览历史

内容加载中请稍等...

一个Web抓取器的实现

参考文献1

共引文献1

相关作者

相关机构

相关主题

浏览历史