基于XML的Web数据抽取方法的研究被引量：2

Study of Subject Web Information Extractor Based on XML

下载PDF

导出

摘要针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML文档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。 Focused on the Web data extraction problem in web mining, a method of web data extraction based on XML is designed. Because the supreme characteristic of Web data is half-structured, Using XML, a kind of half-structured data model, to solve the hard problem of saving web data in traditional relation database, corresponds the document descriptions of XML with fields of database and realizes the query accurately and model extracting. Because most information of Web data is independent of extraction, using XSL to filter irrespective data and extract in realtime. At last, the uniting extraction data is saved in XML document. The test indicates that the method can solve the extraction and storage of web data elegantly.

作者尚福华孙丽

机构地区大庆石油学院计算机科学与工程学院

出处《黑龙江工程学院学报》 CAS 2004年第1期28-30,共3页 Journal of Heilongjiang Institute of Technology

关键词 KDD KDW 半结构化 XML XSL DOM 数据抽取 WEB挖掘 knowledge discovery in databases knowledge discovery in Web half-structured extensible markup language extensible style sheet language document object model

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16

共引文献15

1潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9
2郑荣茂.基于XML的Web数据挖掘[J].韶关学院学报,2004,25(9):15-18. 被引量：5
3关冰.基于XML的WEB数据挖掘技术系统框架的设计[J].电脑知识与技术（认证考试）,2004(08M):66-68. 被引量：2
4王秀庆,陈力群.基于XML的web数据挖掘实现[J].中国西部科技,2005,4(02A):56-58. 被引量：1
5曾瑛.Web挖掘工具与数字图书馆信息服务[J].中国科技信息,2005(7):28-28. 被引量：2
6成光.一种基于XML的WEB数据收集方法[J].农业网络信息,2005(7):40-41.
7申丽君,孟凡荣.基于XML的Web文本挖掘模型的研究与设计[J].计算机工程与设计,2007,28(10):2287-2290. 被引量：4
8霍丽峰.XML在Web数据挖掘中的应用[J].太原科技,2007(6):87-88. 被引量：2
9王新颖,吴钊.基于XML的Web挖掘模型研究[J].情报杂志,2008,27(6):58-59. 被引量：1
10熊和金.数据挖掘的模糊统计法及其在交通流中的应用[J].武汉理工大学学报（交通科学与工程版）,2001,25(4):382-385. 被引量：2

同被引文献6

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16
2JiaweiHan(加) MichelineKamber(加).数据挖掘技术及概念[M].北京:机械工业出版社,2001..
3靳敏.基于小波分析的车型识别[J].电子测量与仪器学报,2003,17(2):31-34. 被引量：6
4靳敏.基于MATLAB的车辆图像的提取[J].黑龙江工程学院学报,2003,17(3):38-40. 被引量：2
5肖创柏,蔡永泉,张宇哲,李纯媛.基于Web和Oracle数据库的机动车辆网络管理系统[J].计算机工程与设计,2004,25(1):49-51. 被引量：2
6陈玉芳,葛燧和.一个基于XML的WEB数据收集模型的研究[J].计算机工程与应用,2004,40(10):150-152. 被引量：18

引证文献2

1靳敏.基于网络化的车型数据库的构建[J].黑龙江工程学院学报,2005,19(2):35-37.
2成光.一种基于XML的WEB数据收集方法[J].农业网络信息,2005(7):40-41.

1李长江.基于web的数据挖掘技术的应用研究[J].才智,2009,0(10):62-62.
2恽爽,韩立新,董浚,陈道蓄.KDW综述:基于Web的数据挖掘[J].计算机工程,2003,29(1):284-286. 被引量：19
3王晶.基于Web的数据挖掘技术研究综述[J].光盘技术,2008(7):14-14. 被引量：1
4彭英.KDW新技术探讨[J].长沙通信职业技术学院学报,2004,3(2):28-31.
5王晓虹,刘莹,张艳凤.高校数据集成系统的ETL设计与实现[J].计算机技术与发展,2011,21(7):186-189. 被引量：8
6谢维成,吕先竞,宋玉忠.基于XML的Web数据抽取模型研究(英文)[J].西华大学学报（自然科学版）,2006,25(1):82-86.
7吴栋淦.基于ETL的银行数据同步系统的设计[J].福建信息技术教育,2009,0(4):33-36.
8MEMS用流路形成装置[J].机电工程技术,2004,33(12):6-6.
9孙良君,袁庆祝,陆佃龙.分布式实时抽取计算框架设计与应用[J].信息技术,2016,40(8):185-187.
10吴远红,张威.基于FCM的E-learning学习过程评价[J].浙江海洋学院学报（自然科学版）,2014,33(6):586-588. 被引量：2

黑龙江工程学院学报

2004年第1期

浏览历史

内容加载中请稍等...

基于XML的Web数据抽取方法的研究被引量：2

参考文献1

共引文献15

同被引文献6

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于XML的Web数据抽取方法的研究 被引量：2

参考文献1

共引文献15

同被引文献6

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于XML的Web数据抽取方法的研究被引量：2