基于关键词相关度的Deep Web爬虫爬行策略被引量：7

Crawlers Crawling Strategy of Deep Web Based on Keywords Relevant Weight

下载PDF

导出

摘要 Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下载Deep Web页面。由于该页面只提供一个查询接口,因此Deep Web爬虫设计面对的主要挑战是怎样选择最佳的查询关键词产生有意义的查询。实验证明文中提出的一种基于不同关键词相关度权重的选择方法是有效的。 There is plenty high-quality information in Deep Web, but user has to input several keywords to search and reach the pages of Deep Web. Traditional crawlers cannot get to the Hidden Web pages because there are no direct links to pages of Deep Web. This paper presents a crawling strategy that can download the pages of Deep Web effectively. As the result of the only interface that Deep Web provides, the biggest challenge for Deep Web crawler is how to choose the best keywords to query effectively. This paper brings forward a new selecting method that based on the relevant weight of different keywords. The experiment shows that this method is efficient.

作者田野丁岳伟

机构地区上海理工大学计算机工程学院

出处《计算机工程》 CAS CSCD 北大核心 2008年第15期220-222,共3页 Computer Engineering

关键词 Deep WEB页面爬行策略关键词选择相关度权重覆盖率 Deep Web crawling strategy keywords selection relevant weight covering rate

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Bergman M K. The Deep Web: Surfacing Hidden Value[EB/OL]. (2001-07-01). http://www.press.umich.edu/j ep/07-01/bergman.html.
2Chang K C C, He B, Li C, et al. Structured Databases on the Web: Observations and Implications[J]. SIGMOD Record, 2004, 33(3): 61-70.
3He Bin, Patel M, Zhen Zhang, et al. Accessing the Deep Web: A Survey[EB/OL]. (2004-10-18). http://eagle.cs.uiuc.edu/tr/dwsurveytr-hpzc-ju 104.pdf.
4Arasu A, Garcia-Molina H. Extracting Structured Data from Web Pages[C]//Proc. of the ACM SIGMOD International Conference on Management of Data. San Diego, California, USA: ACM Press, 2003: 337-348.
5He H, Meng W, Yu C, et al. Wise-Integrator: An Automatic Integrator of Web Search Interfaces for E-commerce[C]//Proc. of the 29th Int'l Conf. on Very Large Data Bases. San Fransisco, USA: Morgan Kaufmann Publishers, 2003: 357-368.
6Cormen T H, Leiserson C E, Rivest R L. Introduction to Algorithms[M]. 2nd ed. [S. l.]: MIT Press/McGraw Hill 2001.
7Cope J, Craswell N, Hawking D. Automated Discovery of Search Interfaces on the Web[C]//Proc. of the 14th Australasian Conference on Database Technologies. 2003.
8Chang K C C, He B, Zhang Z. Toward Large Scale Integration: Building a MetaQuerier over Databases on the Web[C]//Proc. of the 2nd Conference on Innovative Data Systems Research. Asilomar, California, USA: [s. n.], 2005.

同被引文献58

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
3汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
4杨楠,弓丹志,李忺,孟小峰.Web社区发现技术综述[J].计算机研究与发展,2005,42(3):439-447. 被引量：35
5文继军,王珊.SEEKER:基于关键词的关系数据库信息检索[J].软件学报,2005,16(7):1270-1281. 被引量：45
6周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
7郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
8庄超,蒋文超.面向数字版权管理的搜索引擎技术综述[J].计算机工程,2006,32(17):225-226. 被引量：2
9刘东飞,陈智贤,邓俊涛,余俊.一种辅助翻译搜索引擎的研究与实现[J].计算机工程,2007,33(1):216-218. 被引量：2
10Chang KCC,He B,Li C,et al.Structured databases on the web:observations and implications[J].SIGMOD Record,2004,33(3): 61-70.

引证文献7

1黄聪会,张水平,胡洋.主题Deep Web爬虫框架研究[J].计算机工程与设计,2010,31(5):929-931. 被引量：3
2李明,李秀兰.基于启发式信息的Deep Web结果模式获取方法[J].计算机应用研究,2011,28(8):3026-3029.
3郭少友,赵善义,李建平,王斌.基于数据库分类的deep web爬行器研究[J].情报科学,2011,29(10):1575-1579.
4胡敏.企业工商注册信息自动搜集软件的性能设计与实现[J].商情,2011(39):179-179.
5吴华亮.企业工商注册信息自动搜集软件的功能研究[J].商情,2012(2):218-218.
6王文焕,赵卓峰.关系数据库的关键词查询性能优化[J].计算机与数字工程,2012,40(11):18-20. 被引量：1
7吴修庆.基于更新信息的网页机器理解及其在站内搜索引擎中应用[J].工业控制计算机,2018,31(2):112-114. 被引量：1

二级引证文献5

1邱春艳.基于开放存取组织分析的隐形网络资源显性化[J].图书馆学刊,2011,33(11):32-35.
2刘晨,尚博祥,倪家明.关系数据库的关键词查询性能优化[J].电子技术与软件工程,2015(22):176-177. 被引量：2
3胡鹏.学习资源爬虫系统设计与实现[J].软件导刊,2017,16(4):111-113. 被引量：2
4尹长青,杨单稷.基于视频的智能推荐算法[J].科技传播,2011,3(22):204-204.
5杨亚仿,吴昊.网页更新检测的研究与应用[J].信息与电脑,2022,34(23):150-154.

1中国科协《关于在学术论文中规范关键词选择的规定（试行）》[J].系统工程,2004,22(5). 被引量：1
2搜索技巧杂谈[J].计算机与网络,2004,30(16):41-41.
3陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
4唐正军,刘代志.智能化网络入侵检测中的关键词选择[J].计算机工程与应用,2004,40(6):178-180.
5肖毅,张林,聂笑一.基于WEB挖掘的网络爬虫设计与实现[J].计算机系统应用,2013,22(9):60-63. 被引量：9
6荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5
7关键词选择[J].光子学报,2005,34(2):190-190.
8郭若飞,蔡欣宝,赵朋朋,崔志明.面向Deep Web的Ajax查询接口技术研究[J].苏州大学学报（工科版）,2010,30(3):1-4.
9郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
10曹琨.基于HMM的主题爬虫问题研究[J].河南科技,2016,35(17):27-28.

计算机工程

2008年第15期

浏览历史

内容加载中请稍等...

基于关键词相关度的Deep Web爬虫爬行策略被引量：7

参考文献8

同被引文献58

引证文献7

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于关键词相关度的Deep Web爬虫爬行策略 被引量：7

参考文献8

同被引文献58

引证文献7

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于关键词相关度的Deep Web爬虫爬行策略被引量：7