基于XML的Web数据抽取模型研究(英文)

Study on Web Data Extraction Model Based on XML

下载PDF

导出

摘要提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。 A web data extraction model facing HTML or XML Web pages is provided.First,the Web document is read from the web server with STOCK,and the format of the Web document is checked,the existing HTML web page is transformed into XML or XHTML(a subset of XML).An 'operation' on a Web page can generate a series of XML documents.Integrating these documents will lead to data storing.The absolute path in Xpath and the anchors can extract interest data with the tools of XML data format,and retrieve the data and construct XML output.The experiment shows that implementing Web data extract with the model is available,but its limitations and defects also exist,an improved semantic web data extraction model is provided by the author.

作者谢维成吕先竞宋玉忠

机构地区西华大学电气信息学院西华大学图书馆

出处《西华大学学报（自然科学版）》 CAS 2006年第1期82-86,共5页 Journal of Xihua University:Natural Science Edition

基金国家社会科学基金项目~~

关键词 KDW XML WEB数据抽取语义WEB技术 KDW XML Web Data extraction semantic Web technology

分类号 TP393 [自动化与计算机技术—计算机应用技术] TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1张成洪,古晓洪,白延红.Web数据抽取技术研究进展[J].计算机科学,2004,31(2):129-131. 被引量：13
2陈玉芳,葛燧和.一个基于XML的WEB数据收集模型的研究[J].计算机工程与应用,2004,40(10):150-152. 被引量：18

二级参考文献13

1Jussi Myllymak.Effective Web Data Extraction with standard XML Technologies.http://www.research.ibm.com/people/j/jussi/papers/ANDES/ANDES.pdf.
2Raymond Kosala,Heodrid Blocked.Web Mining Research :A Survey.ACM SIGKDD,2000-07.
3Oualnid H,Karmouch A.Converting Web pages into well-formed XML documents.Communications,1999,ICC'99,1999 IEEE International Conference on,1999; 1:676～680.
4W3C.Extensible Markup Language(XML).http://www.w3.org/xml/156 2004.10计算机工程与应用.
5W3C.Resource Description Framework(RDF) Schema Specification 1.0.http://www.w3.org/TR/2000/CR-rdf-schema20000327,2000-03-27.
6Stefan Haustein.Utilisting an Ontology Based Repository to Connect Web Miners and Application Agents.http://www-ai.cs.uni-dortmund.de.
7DaveMercer著袁鹏飞译.XML编程起步[M].人民邮电出版社,2001..
8王继成,邹涛,杨小江,潘金贵,张福炎.基于Internet的信息资源发现技术与实现[J].计算机研究与发展,1999,36(11):1369-1374. 被引量：35
9黄豫清,戚广智,张福炎.构造Web文档中半结构化信息的技术[J].计算机辅助设计与图形学学报,2000,12(3):230-234. 被引量：4
10张成洪,肖军建,张诚.Web内容抽取及其数据管理方法[J].复旦学报（自然科学版）,2001,40(2):177-183. 被引量：16

共引文献29

1王艳,刘双红,罗慧敏.XML在Web数据抽取中的应用研究[J].郑州航空工业管理学院学报（社会科学版）,2005,24(4):150-151.
2成光.一种基于XML的WEB数据收集方法[J].农业网络信息,2005(7):40-41.
3李清茂,田昌鹏.基于自然语言查询的搜索引擎模型[J].重庆工商大学学报（自然科学版）,2005,22(5):477-480. 被引量：1
4张谦,俞集辉,张淮清,程满.基于Agent的Web数据仓库技术在发电厂报价系统中的应用[J].电网技术,2006,30(8):50-55. 被引量：1
5张冉,卡米力.毛依丁.基于XML和N层VSM的Web信息检索[J].计算机技术与发展,2006,16(5):56-58. 被引量：4
6陈景霞,张鹏伟.基于XML的Web数据挖掘模型的研究[J].情报杂志,2006,25(11):100-102. 被引量：4
7龙飞,戴牡红.WEB数据获取系统的设计与实现[J].自动化技术与应用,2006,25(12):34-36.
8张宗平,李海雁.基于XML的Web信息提取技术研究[J].现代计算机,2007,13(8):29-30. 被引量：1
9贡正仙,支丽艳,朱巧明,李培峰.基于网格的Web信息抽取系统的设计与实现[J].计算机应用与软件,2007,24(11):50-51. 被引量：2
10孙伟舰,王于丁,贾丽,张晓芳.基于Web Service的数据抽取研究与设计[J].现代电子技术,2008,31(8):100-102. 被引量：2

1李长江.基于web的数据挖掘技术的应用研究[J].才智,2009,0(10):62-62.
2恽爽,韩立新,董浚,陈道蓄.KDW综述:基于Web的数据挖掘[J].计算机工程,2003,29(1):284-286. 被引量：19
3王晶.基于Web的数据挖掘技术研究综述[J].光盘技术,2008(7):14-14. 被引量：1
4彭英.KDW新技术探讨[J].长沙通信职业技术学院学报,2004,3(2):28-31.
5尚福华,孙丽.基于XML的Web数据抽取方法的研究[J].黑龙江工程学院学报,2004,18(1):28-30. 被引量：2
6谷岩,冯华.利用数据仓库技术解决异构数据库的集成问题[J].计算机应用与软件,2005,22(6):24-26. 被引量：11
7李春艳,徐保民.Web数据抽取技术研究初探[J].电脑知识与技术,2009,0(12Z):9920-9922. 被引量：3
8李连,朱爱红.无线传感器网络中的定位技术研究[J].微计算机信息,2005,21(09S):133-135. 被引量：41
9张俊才,鲁幸福.基于SQL Server的XML数据技术[J].中国科技信息,2007(10):110-111.
10孙月洪.数据交换在数字化校园中的作用与实现[J].办公自动化（综合月刊）,2009(1):35-37. 被引量：2

西华大学学报（自然科学版）

2006年第1期

浏览历史

内容加载中请稍等...

基于XML的Web数据抽取模型研究(英文)

参考文献2

二级参考文献13

共引文献29

相关作者

相关机构

相关主题

浏览历史