期刊文献+

基于XML的WEB数据抽取模型研究 被引量:1

Study on WEB Data Extraction Model Based on XML
下载PDF
导出
摘要 介绍了基于XML技术的WEB信息抽取方法.搭建了WEB信息抽取的三层数据模型,重点在于数据抽取层,在该层先借助于Tidy工具将HTML转换成XHTML,通过Path路径定位与抽取内容相关的锚,再利用XSL将抽取结果映射成XML文件.该XML文件可以直接作为辅助决策的信息源,也可以直接存入数据库为其他所用.这是由非结构化数据向结构化数据转换的一种方法,为应用程序利用WEB中的数据提供了可能.并实现了有关天气预报信息抽取的系统实例,抽取规则简单、健壮,代码移植性好. The paper introduced a method of WEB information extraction based on XML technology and constructed a three layer data model of WEB information extraction. Data extraction layer is the most important among the three layers. First it converted the data from HTML to XHTML with Tidy tools, and then by path ori- entation and extracting the content -related anchor, mapped the extraction result to XML file with XSL. A system example was realized about weather forecasts information extraction. The extraction rules are simple, robust and the codes can be widely adopted.
作者 黄淑芹
出处 《通化师范学院学报》 2012年第2期31-33,共3页 Journal of Tonghua Normal University
基金 安徽高校优秀青年人才基金资助项目(2011SQRL069) 安徽高校自然科学基金资助项目(KJ2011Z007) 安徽财经大学青年科研项目(ACKYQ1129)
关键词 可扩展标记语言 WEB信息抽取 可扩展样式表语言 非结构化数据 结构化数据 XML WEB information extraction XSLT unstructured data structured data
  • 相关文献

参考文献8

二级参考文献36

共引文献101

同被引文献3

引证文献1

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部