Deep Web爬虫爬行策略研究被引量：13

On research of deep web crawler's crawling strategy

下载PDF

导出

摘要如今Web上越来越多的信息可以通过查询接口来获得,为了获取某DeepWeb站点的页面用户不得不键入一系列的关键词集。由于没有直接指向DeepWeb页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明DeepWeb站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的DeepWeb爬虫,它可以自动发现和下载DeepWeb页面。由于DeepWeb惟一“入口点”是查询接口,DeepWeb爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际DeepWeb站点上的实验证明了此方法是非常有效的。 As an ever-increasing amount of information on the web today is available through search interfaces, users have to key in a set ofkeywords in order to access the pages from certain web sites, which are often referred to as the hidden web or the deep web. Since there is no static links to the hidden web pages, search engines cannot discover and index such pages. However, according to recent studies, the content provided by many hidden web sites is often of very high quality and can be extremely valuable to many users. How to build an effective hidden web crawler that can autonomously discover and download pages from the hidden web is studied. Since the only ＂entry point＂ to a hidden web site is a query interface, the main challenge to a hidden web crawler is how to automatically generate meaningful queries for issue to the site. A theoretical framework to investigate the query generation problem for the hidden web and we propose effective policies for generating queries automatically is provided. Experiment shows that these policies are effective.

作者郑冬冬崔志明

机构地区苏州大学智能信息处理及应用研究所

出处《计算机工程与设计》 CSCD 北大核心 2006年第17期3154-3158,共5页 Computer Engineering and Design

基金教育部高校博士学科点科研基金项目(20040285016) 江苏省高技术研究基金项目(BG2005019)。

关键词 DEEP WEB DEEP WEB爬虫查询选择查询效能适应性爬行算法 deep web deep web crawler query selection query efficiency adaptive algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Bin He,Mitesh Patel,Zhen Zhang,et al.Accessing the deep web:A survey[EB/OL].2004.http://eagle.cs.uiuc.edu/tr/dwsurvey-tr-hpzc-ju 104.pdf
2Chang K C C,He B,Li C,et al.Structured databases on the web:Observations and implications[C].SIGMOD Record,33 (3),2004-09.
3Raghavan S,Garcia-Molina H.Crawling the hidden web[C].Roma,Italy:Proceedings of the 27th International Conference on Very Large Data Bases,2001.129-138.
4Cormen T H,Leiserson C E,Rivest R L.Introduction to algorithms[M].2nd Edition.MIT Press/McGraw Hill,2001.
5Ipeirotis P,Gravano L.Distributed search over the hidden web:Hierarchical database sampling and selection[C].VLDB,2002.
6Ntoulas A,Cho J,Olston C.What's new on the web? The evolution of the web from a search engine perspective[Z].WWW,2004.
7Barbosa L,Freire J.Siphoning hidden-web data through keyword-based interfaces[C].SBBD,2004.
8Cope J,Craswell N,Hawking D.Automated discovery of search interfaces on the web[C].14th Australasian conference on Data Base technologies,2003.
9He B,Chang K C C.Statistical schema matching across web query interfaces[C].SIGMOD Conference,2003.
10Ipeirotis P G,Gravano L,Sahami M.Probe,count,and classify:Categorizing hidden web databases[C].SIGMOD,2001.

同被引文献93

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2马志新,陈晓云,王雪,李龙杰.最大频繁项集挖掘中搜索空间的剪枝策略[J].清华大学学报（自然科学版）,2005,45(S1):1748-1752. 被引量：5
3辛玉玲.搜索引擎相关技术研究概述[J].舰船电子工程,2008,28(10):37-39. 被引量：2
4傅灵丽,代俊秋,刘金河.Web应用系统的自动化测试解决方案[J].河北工业大学学报,2010,39(4):23-26. 被引量：4
5高弋坤.新浪微博用户数再创新高[J].通信世界,2011(46):11-11. 被引量：3
6王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
7周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
8彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
9陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
10许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11

引证文献13

1董旻,方曙.Deep Web信息抽取研究[J].图书情报工作,2007,51(10):25-28. 被引量：5
2曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
3张云冬,徐和祥,胡运发,邓河.基于个性化图书馆的Deep Web Crawler研究与实现[J].计算机应用与软件,2009,26(4):148-149. 被引量：1
4周二虎,张水平,胡洋.基于Deep Web检索的查询结果处理技术的应用[J].计算机工程与设计,2010,31(1):106-109.
5黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
6李贵,韩子扬,郑新录,李征宇.基于Apriori算法的Deep Web网页关系挖掘研究[J].山东大学学报（理学版）,2011,46(5):67-70.
7郭少友,赵善义,李建平,王斌.基于数据库分类的deep web爬行器研究[J].情报科学,2011,29(10):1575-1579.
8周杨.支持Ajax的Deep Web爬虫研究与设计[J].计算机系统应用,2012,21(2):167-171. 被引量：1
9钱程,阳小兰.一种支持Ajax框架的网络爬虫的设计与实现[J].计算机与数字工程,2012,40(4):69-71. 被引量：3
10赵昊,卫刚,赵晓东.基于主题Deep Web数据挖掘的研究与探索[J].电脑知识与技术,2012,8(6):3792-3795.

二级引证文献93

1陈丽君.深层网查询表单标签识别技术研究[J].电脑开发与应用,2010,23(2):66-68. 被引量：1
2黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
3张云坤.基于数据集成的高校图书馆个性化信息服务研究[J].图书馆工作与研究,2010(7):25-27. 被引量：4
4张志平,张云坤,李文骏.Deep web在个性化信息服务中的应用[J].电子商务,2010,11(8):62-63.
5范纯龙,袁滨,余周华,徐蕾.基于陷阱技术的网络爬虫检测[J].计算机应用,2010,30(7):1782-1784. 被引量：4
6张云坤.基于Deep Web数据集成的个性化信息服务研究[J].现代情报,2010,30(10):74-76.
7于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
8张安妮,姜华,郝相莲.面向主题的快速搜索引擎的设计与研究[J].淮阴工学院学报,2011,20(3):12-15. 被引量：1
9刘凤华,罗菁,崔岩.基于J2EE的服装虚拟企业社区平台的设计与实现[J].中原工学院学报,2011,22(4):39-42.
10张安妮,姜华,郝相莲.面向主题爬虫改进算法的个性化搜索引擎应用研究[J].海南大学学报（自然科学版）,2011,29(3):221-225. 被引量：1

1陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
2温蕴.基于领域本体的Web服务发现探讨[J].长江大学学报（自科版）（上旬）,2010,7(2):282-283. 被引量：1
3田野,丁岳伟.基于关键词相关度的Deep Web爬虫爬行策略[J].计算机工程,2008,34(15):220-222. 被引量：7
4肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
5荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5
6周宇.基于领域本体的Web服务发现研究[J].制造业自动化,2010,32(A7):217-220. 被引量：3
7郭若飞,蔡欣宝,赵朋朋,崔志明.面向Deep Web的Ajax查询接口技术研究[J].苏州大学学报（工科版）,2010,30(3):1-4.
8段青玲,华松青.使用CGI编写网络机器人程序[J].程序员,2001(3):99-100.
9曹琨.基于HMM的主题爬虫问题研究[J].河南科技,2016,35(17):27-28.
10WANG.增加BT搜索引擎，让IE更智能[J].计算机应用文摘,2007(11X):108-108.

计算机工程与设计

2006年第17期

浏览历史

内容加载中请稍等...

Deep Web爬虫爬行策略研究被引量：13

参考文献12

同被引文献93

引证文献13

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

Deep Web爬虫爬行策略研究 被引量：13

参考文献12

同被引文献93

引证文献13

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

Deep Web爬虫爬行策略研究被引量：13