-
题名Web信息抽取网页自动浏览导航与集成规则研究
被引量:1
- 1
-
-
作者
王海涛
张志亮
孙煜华
袁春风
黄宜华
-
机构
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
广州供电局信息中心
-
出处
《计算机科学与探索》
CSCD
2014年第9期1049-1066,共18页
-
基金
国家自然科学基金
江苏省科技支撑计划项目~~
-
文摘
Web中蕴藏着大量有价值的数据,过去十几年中,针对Web信息抽取技术已有较多的研究。而现有的研究和系统多集中在数据抽取处理阶段,忽略或简化了完整的Web信息抽取过程需要的网页自动浏览导航和集成处理。为克服这些不足,提出了包含浏览导航、数据抽取和集成过程的三阶段Web信息抽取处理模型,基于此进一步研究提出了自动浏览导航模型,并设计实现了网页自动浏览导航规则语言。研究提出了一种Web数据抽取、转换和集成(extraction-transformation-integration,ETI)模型,设计实现了一套灵活有效的数据集成和流程控制规则语言,能有效地维护跨网页数据记录的复杂关系,并提供灵活的流程控制能力。抽取实例的结果表明,该规则语言和系统可有效完成全过程化的Web信息抽取集成处理功能。
-
关键词
WEB信息抽取
自动浏览导航
数据集成
流程控制
规则语言
-
Keywords
Web information extraction
automated Web navigation
data integration
workflow control
rule language
-
分类号
TP317
[自动化与计算机技术—计算机软件与理论]
-