期刊文献+

基于子树匹配的交互式Web数据抽取方法 被引量:8

Approach for Interactive Web Data Extraction Based on Sub-tree Matching
下载PDF
导出
摘要 查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。 There is high structural comparability among the HTML codes of Web data rows in query-related Web pages, Naturally, the structures of sub DOM trees are similar to each other, An approach based on sub-tree matching algorithm for interactive query related Web data extraction is represented, The result of the experiment shows high accuracy in terms of recall and precision.
出处 《计算机工程》 CAS CSCD 北大核心 2006年第9期78-80,共3页 Computer Engineering
关键词 WEB数据抽取 Top-down树匹配 DOM Web data extraction Top-down tree matching DOM
  • 相关文献

参考文献4

  • 1Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages[C].ACM SIGMOD'03,2003:337-348.
  • 2Valiente G.An Efficient Bottom-up Distance Between Trees[C].Proc.of the 8^th International Symposium on String Processing and Information Retrieval,Santiago,Chile,2001:212-219.
  • 3Ribeiro-Neto B,Alberto H F,da Silva L A S.Top-down Extraction of Semi-structured Data[Z].IEEE Computer Society,1999:176-184.
  • 4Selkow S M.The Tree-to-tree Editing Problem[J].Information Processing Letters,1977,6(6):184-186.

同被引文献45

引证文献8

二级引证文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部