期刊文献+

深度搜索中下一页链接获取策略的研究 被引量:2

The Research of Finding Next Page Hyperlink Strategy in Deep Search
下载PDF
导出
摘要 高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。 The high quality, structured data is invaluable for many applications. These data always hidden in the Deep Web databases. Deep Web databases are not directly crawled by Web crawlers through hyperlinks and are only accessible through Web query forms interfaces. Recent research efforts have been focusing on two aspects: one is to understand these Web query forms, the other is to efficiently acquire the structured information inside Web databases through iteratively issuing meaningful queries. A critical but still largely unresolved question is: how to acquire all the pages from one query? And this question esseni^e turns to how to find the "next page" hyperlinks. In this paper we focus on this issue and bring forward a strategy that find the "next page" hyperlinks from the structure of the "next page" hyperlinks. We do experiments in many cases, and the results seem good.
出处 《微计算机信息》 北大核心 2007年第33期183-184,176,共3页 Control & Automation
基金 国家科技基础条件平台科技部(2003DKA5G015)
关键词 下一页 深度搜索 next page, deep web, hidden web, invisible web
  • 相关文献

参考文献6

  • 1CHANG KCC, HE B, L I C, et al. Structured databases on the Web: Observations and imp libations [J]. SIGMOD Record, 2004, 33 (3): 61-70.
  • 2LEDDLE S, EMBLEY D, SCOTT D, et al. Extracting data behind Web forms [A]. Proceedings of the Workshop on Conceptual Modeling App roaches for e2Business [C].Tampered, Finland,2002,38-49.
  • 3ARASU A, HECTOR GARCIA2MOL INA. Extracting Structured Data From Web Pages [A]. SIGMOD 2003[C],2003.
  • 4杨海东,叶小岭,张颖超.基于Hash算法实现搜索引擎中重复WEB页面的消除[J].微计算机信息,2006,22(09X):299-301. 被引量:6
  • 5Deep Web爬虫爬行策略研究.郑冬冬,崔志明(苏州大学智能信息处理及应用研究所,江苏苏州215006).
  • 6Deep Web查询接口选择.郑冬冬,崔志明(苏州大学智能化信息处理及应用研究所,江苏苏州215006).

二级参考文献10

共引文献5

同被引文献8

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部