-
题名网络爬虫软件的研究与开发
被引量:3
- 1
-
-
作者
李琳琢
-
机构
大连大窑湾边防检查站
-
出处
《软件导刊》
2011年第5期142-144,共3页
-
文摘
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。
-
关键词
主题爬虫
向量空间模型
主题相关度
爬虫阻止协议
-
Keywords
Topic crawler
Vector Space Model
Theme
crawler stop agreement
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-