网页文本数据自动采集方法综述

导出

摘要随着互联网的快速发展,网页中的文本数据越来越丰富,人们对互联网数据的自动获取的需求也变得越来越高。例如,各大网站最新新闻、股票信息、天气信息、交通信息、商品信息、博客和微博信息等等。但是,由于网页开发技术的发展,往往通过传统的直接下载网页的方法很难获得所需要的数据。需要针对不同网页的具体特点,设计相应的数据采集方法。本文首先从文本数据采集的角度,对网页类型进行了划分;然后基于这个划分,归纳和整理了相应的数据采集方法;最后对这些方法进行综合对比分析。

作者王益强赵静

机构地区山西省电力公司检修公司煤炭工业(太原)设计研究院

出处《信息与电脑（理论版）》 2012年第9期81-82,共2页 China Computer & Communication

关键词深层网页数据采集 DEEPWEB 网络爬虫

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1李若鹏,李翔,林祥,李建华.基于DK算法的互联网热点主动发现研究与实现[J].计算机技术与发展,2008,18(9):1-4. 被引量：10
2曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
3王映,于满泉,李盛韬,王斌,余智华.JavaScript引擎在动态网页采集技术中的应用[J].计算机应用,2004,24(2):33-36. 被引量：36
4张媚.Ajax友好的网络爬虫设计与实现[D].暨南大学.2011
5Bergman M K.The Deep Web:surfacing hidden value[].The Journal of Electronic Publishing.2001
6J. Madhavan,D. Kao.Google’’s DeepWeb crawl[].Proceedings of the VLDB Endowment.2008
7Alvarez M,Pan A,Raposo J.Client-Side Deep Web Data Extraction[].CEC-EAST.2004

二级参考文献31

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
3郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
4陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
5[1]Eich B. JavaScript C Engine Embedder's Guide[EB/OL]. Http://www.mozilla.org/js/spidermonkey/apidoc/jsguide.html, mozilla.org, march 16, 2000.
6[2]ECMA. ECMA-Script Language Specification Edition 3[EB/OL]. Http://www.mozilla.org/js/language/E262 3.pdf, European Computer manufacturer Association, march 24, 2000.
7[3]Netscape. JavaScript C Engine API Reference[EB/OL]. http://developer.netscape.com/docs/manuals/javascriptapi/index.htm, Netscape Communications Corp., December 17, 1998.
8[4]Netscape. JavaScript 1.5 References[EB/OL]. http://devedge.netscape.com/library/manuals/2000/javascript/1.5/guide/, Netscape Communications Corp., September 28, 2000.
9孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量：2
10Yiyao Lu, Hal He, Hongkun Zhao, Weiyi Meng. Annotating Structured Data of the Deep Web, IEEE, 2007:376 - 385.

共引文献81

1陈健瑜.网页动态页面采集关键技术研究[J].硅谷,2009,2(12):68-68. 被引量：1
2王莎.基于Internet的EDI[J].中国科技信息,2006(6):227-227. 被引量：2
3李政,孟德光,董艳英,鲁艳丽,姚素玲.网络课程通用术语查询系统设计[J].河北科技师范学院学报,2006,20(3):44-47.
4金晓鸥,钟宝燕,李翔.基于Rhino的JavaScript动态页面解析研究与实现[J].计算机技术与发展,2008,18(2):1-4. 被引量：18
5曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
6曾伟辉,李淼.基于JavaScript切片的AJAX框架网络爬虫技术研究[J].计算机系统应用,2009,18(7):169-171. 被引量：10
7胡燕,嵇启春,赵佳,王瑞.开放式实验室管理信息系统设计[J].现代计算机,2009,15(8):141-142. 被引量：1
8范轩苗,郑宁,范渊.一种基于Ajax的爬虫模型的设计与实现[J].计算机应用与软件,2010,27(1):96-99. 被引量：3
9陈源恩,陈志伟,曾文华.脚本语言在核磁共振谱仪软件系统中的应用[J].福建电脑,2010,26(1):3-4. 被引量：1
10陈丽君.深层网查询表单标签识别技术研究[J].电脑开发与应用,2010,23(2):66-68. 被引量：1

1刘炳芳.网络搜索引擎技术发展方向的分析研究[J].中国新技术新产品,2011(20):11-12.
2鲜学丰,崔志明,方立刚,顾才东,孙逊.面向Deep Web本地化数据集成的数据源两层选择模型[J].计算机工程,2017,34(3):32-39. 被引量：3
3邵辉,李芳.基于树模型算法的动态网页信息抽取研究和实现[J].计算机应用与软件,2007,24(10):99-100. 被引量：2
4薛丽敏,薛虹军.一种新型的网页去噪及网页类型判断方法[J].信息网络安全,2013(6):30-34.
5陈翰,周杰,李弼程.一种基于综合特征的网页类型识别方法[J].信息工程大学学报,2011,12(6):738-744. 被引量：1
6王平根.基于DOM的动态网页信息抽取方法[J].科技信息,2010(31). 被引量：1
7王玉,张伟红,刘雨.基于Apriori关联规则在信息无障碍网站的应用[J].吉林大学学报（信息科学版）,2013,31(1):101-106. 被引量：3
8杜大龙,蔡琦,孙小朋.网页艺术设计目的之思考[J].艺术与设计（理论版）,2009(9X):71-73.
9杜大龙,蔡琦,孙小朋.网页艺术设计目的之思考[J].艺术与设计（理论版）,2009(8X):94-96.
10杨良斌,黄国彬,周静怡.近两年来国外有关本体基本问题的主要研究述评[J].图书馆建设,2008(8):80-83. 被引量：2

信息与电脑（理论版）

2012年第9期

浏览历史

内容加载中请稍等...

网页文本数据自动采集方法综述

参考文献7

二级参考文献31

共引文献81

相关作者

相关机构

相关主题

浏览历史