期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Web信息抽取中基于页面特性的包装器平衡算法 被引量:1
1
作者 周顺先 林亚平 王雷 《计算机工程与应用》 CSCD 北大核心 2006年第36期144-147,共4页
Web信息抽取引发了大规模的应用。基于包装器的Web信息抽取有两个研究领域:包装器产生和包装器平衡,提出了一种新的包装器自动平衡算法。它基于以下的观察:尽管页面有多种多样的变化方式,但是许多重要的页面特征在新页面都得到了保存,... Web信息抽取引发了大规模的应用。基于包装器的Web信息抽取有两个研究领域:包装器产生和包装器平衡,提出了一种新的包装器自动平衡算法。它基于以下的观察:尽管页面有多种多样的变化方式,但是许多重要的页面特征在新页面都得到了保存,例如文本模式、注释信息和超级链接。新的算法能充分利用这些保存下来的页面特征在变化的页面中定位目标信息,并能自动修复失效的包装器。对实际Web站点信息抽取的实验表明,新的算法能有效地维持包装器的平衡以便更精确地抽取信息。 展开更多
关键词 包装 包装器产生 包装平衡 文本模式 注释信息
下载PDF
网页数据自动抽取系统 被引量:8
2
作者 王茹 宋瀚涛 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2004年第19期135-138,共4页
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML... 在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。 展开更多
关键词 信息提取 包装器产生 DOM树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部