期刊文献+

基于XML的Web数据抽取模型研究(英文)

Study on Web Data Extraction Model Based on XML
下载PDF
导出
摘要 提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。 A web data extraction model facing HTML or XML Web pages is provided.First,the Web document is read from the web server with STOCK,and the format of the Web document is checked,the existing HTML web page is transformed into XML or XHTML(a subset of XML).An 'operation' on a Web page can generate a series of XML documents.Integrating these documents will lead to data storing.The absolute path in Xpath and the anchors can extract interest data with the tools of XML data format,and retrieve the data and construct XML output.The experiment shows that implementing Web data extract with the model is available,but its limitations and defects also exist,an improved semantic web data extraction model is provided by the author.
出处 《西华大学学报(自然科学版)》 CAS 2006年第1期82-86,共5页 Journal of Xihua University:Natural Science Edition
基金 国家社会科学基金项目~~
关键词 KDW XML WEB数据抽取 语义WEB技术 KDW XML Web Data extraction semantic Web technology
  • 相关文献

参考文献2

二级参考文献13

  • 1Jussi Myllymak.Effective Web Data Extraction with standard XML Technologies.http://www.research.ibm.com/people/j/jussi/papers/ANDES/ANDES.pdf.
  • 2Raymond Kosala,Heodrid Blocked.Web Mining Research :A Survey.ACM SIGKDD,2000-07.
  • 3Oualnid H,Karmouch A.Converting Web pages into well-formed XML documents.Communications,1999,ICC'99,1999 IEEE International Conference on,1999; 1:676~680.
  • 4W3C.Extensible Markup Language(XML).http://www.w3.org/xml/156 2004.10计算机工程与应用.
  • 5W3C.Resource Description Framework(RDF) Schema Specification 1.0.http://www.w3.org/TR/2000/CR-rdf-schema20000327,2000-03-27.
  • 6Stefan Haustein.Utilisting an Ontology Based Repository to Connect Web Miners and Application Agents.http://www-ai.cs.uni-dortmund.de.
  • 7DaveMercer著 袁鹏飞译.XML编程起步[M].人民邮电出版社,2001..
  • 8王继成,邹涛,杨小江,潘金贵,张福炎.基于Internet的信息资源发现技术与实现[J].计算机研究与发展,1999,36(11):1369-1374. 被引量:35
  • 9黄豫清,戚广智,张福炎.构造Web文档中半结构化信息的技术[J].计算机辅助设计与图形学学报,2000,12(3):230-234. 被引量:4
  • 10张成洪,肖军建,张诚.Web内容抽取及其数据管理方法[J].复旦学报(自然科学版),2001,40(2):177-183. 被引量:16

共引文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部