基于XML的Web数据挖掘关键技术的研究被引量：10

Research on Key Technologies of Web Mining Based on XML

下载PDF

导出

摘要由于存在着大量的在线信息,WWW成为数据挖掘的热点。该文介绍了Web网页的数据挖掘技术,提出一种基于XML的Web数据挖掘模型,阐述将半结构化HTML文档转换成良构的XML文档的原因,并给出基于HTMLTide库的转换代码,介绍了利用XML技术从Web网页析取数据的关键技术,包括XHTML、XSLT和XQuery等,对Web数据挖掘的其他方面如数据检验和集成作了一定的探讨。 With the huge amount of information available online, the World Wide Web is a fertile area for data mining research. This paper addresses the issues related to data extraction from Web pages, and strongly suggests an XML-based approach for solving it. This paper describes the motivations behind converting semi-structured HTML documents into well-formed XML and presents a portion of conversion source codes that is developed based on HTML Tidy library, illustrates how to extract desired information from Web pages with XML technologies, including XHTML, XSLT and XQuery. It also discusses other aspects in the Web mining project such as data check and data integration.

作者崔建群何炎祥郑世珏吴黎兵

机构地区华中师范大学网络与通信研究所武汉大学计算机学院

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第20期43-44,77,共3页 Computer Engineering

基金软件工程国家重点实验室开放基金资助项目

关键词 WEB数据挖掘 XML模型关键技术 Web data mining XML-based model Key technologies

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1Kosala R,Blockeel H.Web Mining Research:A Survey[J].ACM SIGKDD,2000,(7):311-321.
2Myllymaki J.Effective Web Data Extraction with Standard XML Technologies[C].Proceedings of the 10th International Conference on World Wide Web.New York:ACM Press,2001:689-696.
3Liu Ling,Pu Calton,Han Wei.XWRAP:An XML-enabled Wrapper Construction System for Web Information Sources[C].Proc.of International Conference on Data Engineering,San Diego,California,2000-02.
4Han Jiawei,Chang Kevin.Data Mining for Web Intelligence,Volume 35[M].Los Alamitos:IEEE Computer Society Press,2002:64-70.

同被引文献44

1高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
2蔡飞,贝佳,潘金贵.一种简单高效的XML与关系数据库信息交换的方法[J].计算机科学,2004,31(12):72-75. 被引量：3
3杨晴雯,周宇,李晓.WEB图形格式SVG及基于XML+XSL的动态生成技术[J].成都信息工程学院学报,2004,19(4):545-548. 被引量：3
4古凌岚.基于.Net框架的XML相关技术的实现[J].计算机工程与设计,2005,26(7):1903-1906. 被引量：14
5韩建萍.基于XML的Web教学资源整合方法研究与系统实现[J].科技情报开发与经济,2005,15(15):248-250. 被引量：1
6杨剑,唐慧佳,孙林夫,王胜银.基于XML的异构数据交换系统的研究与实现[J].计算机工程,2005,31(19):195-197. 被引量：48
7佘名高,王丽,杨亦,关卫军.基于XML实现工业过程中实时数据的动态发布[J].自动化技术与应用,2005,24(10):10-12. 被引量：2
8沈凤池,任伟,沈丽梅.XML技术在工作流管理系统中的实现和应用[J].中国科技信息,2005(19A):44-46. 被引量：1
9薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
10李玉华,卢正鼎,廖振松.基于本体的通用知识网格架构研究[J].华中科技大学学报（自然科学版）,2006,34(3):21-24. 被引量：9

引证文献10

1胡伟莉,尹晓东.基于Web Services的网格视频教育系统的设计和实现[J].武汉理工大学学报（交通科学与工程版）,2007,31(2):318-320.
2李国慧.Web数据挖掘研究[J].电脑知识与技术,2008(2):592-594. 被引量：2
3谢来福,易素君,王志萍,邱立峻.使用XML实现DXF图形文件的数据挖掘[J].工程图学学报,2008,29(3):151-155. 被引量：3
4李孝忠,赵国桦.利用XML的一种因果模式Web挖掘模型[J].天津科技大学学报,2010,25(2):65-67.
5廖建军,李筱宁.基于XML的Web数据挖掘构建网络监督平台[J].信息技术,2010,34(4):36-38.
6廖建军,郭秋萍,李筱宁.基于垂直搜索的网络监督情报预警系统研究[J].情报理论与实践,2010,33(6):121-123. 被引量：6
7史哲.基于XML的Web数据挖掘及应用模式研究[J].科技创新导报,2011,8(2):29-30.
8李培培,曹芳.Web数据挖掘技术[J].科技视界,2011(23):87-88. 被引量：1
9朝格.浅谈EXCEL与XML的数据交换[J].软件,2012,33(5):48-50. 被引量：1
10魏爽.基于XML的Web分布式数据挖掘系统研究[J].电脑知识与技术,2013,9(5):2964-2966.

二级引证文献13

1褚俐.谈Web数据挖掘技术及其应用[J].闽西职业技术学院学报,2009,11(1):103-106.
2宋玉忠.Web抽取技术在数字图书馆中的应用[J].四川图书馆学报,2009(3):46-49. 被引量：2
3巫莉莉,张波,李涛.Web数据挖掘在远程教育个性化中的应用研究[J].微型电脑应用,2010,26(2):59-61. 被引量：2
4王琼,陈新文,温希军,李天斗,合斯莱提,龙伊.Web数据挖掘在新疆畜牧科技信息资源库中的应用[J].畜牧兽医杂志,2013,32(2):53-54.
5杜建军,郭新宇,陆声链,温维亮,肖伯祥.基于语义驱动的日光温室图纸三维建模方法[J].农业工程学报,2013,29(A01):190-196. 被引量：2
6郭秋萍,廖建军.基于环型知识地图的网络信息资源导航[J].郑州航空工业管理学院学报,2013,31(5):107-111. 被引量：1
7张旭,薛玉玲.2004-2013年国内图情领域网络舆情研究综述[J].中华医学图书情报杂志,2014,23(8):15-18. 被引量：2
8易荣华,叶媛,张月义.宏观质量发展评价与监测预警信息系统研究[J].标准科学,2016(1):52-57. 被引量：4
9周敬,陈福集.应对网络舆情的知识资源及知识供应研究[J].情报科学,2016,34(3):20-24. 被引量：1
10杨连生,李爱平,李佳威,黄咏文.基于XML的船舶生产设计数据交换接口技术研究与实现[J].中国造船,2016,57(4):164-174. 被引量：9

1裴沛.一种基于XML模型的集成系统研究[J].太原大学学报,2012,13(4):136-139.
2莫佳.XML数据的关系存储技术[J].重庆工学院学报,2007,21(17):128-132. 被引量：2
3洪晓斌,刘桂雄,吕艺行,吴卓葵.以太网智能测控系统的XML数据交换接口设计[J].华南理工大学学报（自然科学版）,2006,34(7):55-59. 被引量：6
4贺小亮,李艾华,姚良.远程监测与故障诊断专家系统设计与实现[J].计算机测量与控制,2008,16(5):610-612. 被引量：1
5KevinWilliams.创建更灵活的XML模型的技巧和技术[J].开放系统世界,2002(6):118-121.
6潘华.一个基于Web的工作流监控器的设计与实现[J].微计算机信息,2009(9):50-52. 被引量：1
7王生西,潘永跃.数据转换技术研究[J].无线互联科技,2011,8(12):16-18. 被引量：1
8李艳芳.基于多Agent系统的Web数据挖掘技术[J].计算机工程与设计,2007,28(6):1267-1268. 被引量：3
9刘立军.粗糙集和支持向量机相融合的Web数据挖掘[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(5):643-646.
10陈景霞,张鹏伟.基于XML的Web数据挖掘模型的研究[J].情报杂志,2006,25(11):100-102. 被引量：4

计算机工程

2006年第20期

浏览历史

内容加载中请稍等...

基于XML的Web数据挖掘关键技术的研究被引量：10

参考文献4

同被引文献44

引证文献10

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于XML的Web数据挖掘关键技术的研究 被引量：10

参考文献4

同被引文献44

引证文献10

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于XML的Web数据挖掘关键技术的研究被引量：10