期刊文献+

网页文本数据自动采集方法综述

原文传递
导出
摘要 随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。
作者 王益强 赵静
出处 《信息与电脑(理论版)》 2012年第9期81-82,共2页 China Computer & Communication
  • 相关文献

参考文献7

二级参考文献31

  • 1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报(自然科学版),2005,45(S1):1896-1902. 被引量:28
  • 2彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量:7
  • 3郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量:13
  • 4陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量:3
  • 5[1]Eich B. JavaScript C Engine Embedder's Guide[EB/OL]. Http://www.mozilla.org/js/spidermonkey/apidoc/jsguide.html, mozilla.org, march 16, 2000.
  • 6[2]ECMA. ECMA-Script Language Specification Edition 3[EB/OL]. Http://www.mozilla.org/js/language/E262 3.pdf, European Computer manufacturer Association, march 24, 2000.
  • 7[3]Netscape. JavaScript C Engine API Reference[EB/OL]. http://developer.netscape.com/docs/manuals/javascriptapi/index.htm, Netscape Communications Corp., December 17, 1998.
  • 8[4]Netscape. JavaScript 1.5 References[EB/OL]. http://devedge.netscape.com/library/manuals/2000/javascript/1.5/guide/, Netscape Communications Corp., September 28, 2000.
  • 9孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量:2
  • 10Yiyao Lu, Hal He, Hongkun Zhao, Weiyi Meng. Annotating Structured Data of the Deep Web, IEEE, 2007:376 - 385.

共引文献81

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部