摘要
查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。
There is high structural comparability among the HTML codes of Web data rows in query-related Web pages, Naturally, the structures of sub DOM trees are similar to each other, An approach based on sub-tree matching algorithm for interactive query related Web data extraction is represented, The result of the experiment shows high accuracy in terms of recall and precision.
出处
《计算机工程》
CAS
CSCD
北大核心
2006年第9期78-80,共3页
Computer Engineering