期刊文献+

Web数据的深度定向采集 被引量:1

Deep directional collection of Web data
原文传递
导出
摘要 通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率。 Based on the Web surf behaviors of human beings,crawling directions are restricted by extracted crawling sub-pages,and the associated relationships of cross-page compound object are realized through the properties′ inheritance between crawl datum.Then,the generalized crawl process with deep directional collection support is designed and implemented.Experimental results about the hot posts of the Tianya site show that this method can achieve data collection of complicated objects without changing the main procedure,and has high collection efficiency.
作者 夏天
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2011年第5期34-38,共5页 Journal of Shandong University(Natural Science)
基金 国家社会科学基金资助项目(09CTQ027)
关键词 深度采集 定向网络爬虫 公共网络舆情 deep collection; directional web crawler; public web opinion;
  • 相关文献

参考文献12

二级参考文献38

共引文献183

同被引文献11

引证文献1

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部