-
题名Web信息抽取中基于页面特性的包装器平衡算法
被引量:1
- 1
-
-
作者
周顺先
林亚平
王雷
-
机构
湖南大学计算机与通信学院
湖南大学软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第36期144-147,共4页
-
基金
湖南省自然科学基金资助项目(03JJY3098)
-
文摘
Web信息抽取引发了大规模的应用。基于包装器的Web信息抽取有两个研究领域:包装器产生和包装器平衡,提出了一种新的包装器自动平衡算法。它基于以下的观察:尽管页面有多种多样的变化方式,但是许多重要的页面特征在新页面都得到了保存,例如文本模式、注释信息和超级链接。新的算法能充分利用这些保存下来的页面特征在变化的页面中定位目标信息,并能自动修复失效的包装器。对实际Web站点信息抽取的实验表明,新的算法能有效地维持包装器的平衡以便更精确地抽取信息。
-
关键词
包装器
包装器产生
包装器平衡
文本模式
注释信息
-
Keywords
wrapper
wrapper generation
wrapper maintenance
text pattern
annotations
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名网页数据自动抽取系统
被引量:8
- 2
-
-
作者
王茹
宋瀚涛
陆玉昌
-
机构
北京理工大学计算机系
清华大学计算机系智能技术与系统国家重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第19期135-138,共4页
-
基金
国家自然科学基金资助项目(编号:79990580)
国家973重点基础研究发展规划项目(编号:G1998030414)
-
文摘
在Internet中存在着大量的半结构化的HTML网页。为了使用这些丰富的网页数据,需要将这些数据从网页中重新抽取出来。该文介绍了一种新的基于树状结构的信息提取方法和一个自动产生包装器的系统DAE(DOMbasedAutomaticExtraction),将HTML网页数据转换为XML数据,在提取的过程中基本上不需要人工干预,因而实现了抽取过程的自动化。该方法可以应用于信息搜索agent中,或者应用于数据集成系统中等。
-
关键词
信息提取
包装器产生
DOM树
-
Keywords
data extraction,wrapper generation,DOM tre e
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-