-
题名网络蜘蛛在网络论坛领域的研究与设计
- 1
-
-
作者
滕召生
胡德敏
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2011年第2期492-494,520,共4页
-
文摘
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构展现给用户。而这种布局结构可以通过DOM树体现出来,对DOM树进行操作,提取出URL,然后对重复的URL进行过滤。实验表明该爬行策略提高了网络蜘蛛爬行效率,节省网络带宽及本地存储空间。
-
关键词
网络蜘蛛
文档对象模型树
页面重复区域
爬行策略
重复模板
-
Keywords
Web spider
DOM(document object model)tree
repetitive region
crawling strategies
repetitive template
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-