基于XML的Web内容挖掘方法被引量：1

Method of Web Content Mining based on XML

下载PDF

导出

摘要在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTML Tidy工具将非XML文件经过数据清洗后转换成结构良好的XML文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类分类技术进行面向XML文档数据的数据挖掘.实验结果表明,该模型工作良好,可以自动、有效地提取网页内容. The characteristics of Web content mining were analyzed and a model of Web content mining was proposed base on XML. The HITS algorithm was used to determine the authority of Web pages, the HTML Tidy tool was used for non-XML documents through the data cleansing and transform XML documents into well-formed, and text clustering techniques were used for XML document classification data in data mining. Combining with the examples of traditional scientific papers of automated extraction system from Internet, the model is proved to work well, and it can automatically and effectively extract web page content.

作者郑霞陈建国

机构地区闽江学院计算机科学系福建工程学院软件学院

出处《沈阳大学学报（自然科学版）》 CAS 2012年第3期52-55,共4页 Journal of Shenyang University：Natural Science

关键词 WEB挖掘数据挖掘文本聚类非XML文档 Web Mining data mining text clustering non-XML documents

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1孙琳琳,霍泓.二次挖掘:新闻报道的一种尝试[J].沈阳大学学报,2004,16(5):104-106. 被引量：1
2何波,李建国.基于XML的WEB数据挖掘系统框架的设计与实现[J].西南师范大学学报（自然科学版）,2002,27(6):887-890. 被引量：9
3陆宜梅.Web搜索技术现状分析[J].沈阳大学学报,2006,18(2):34-36. 被引量：6

二级参考文献15

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16
2[2]陈作平.新闻报道新思路[M].北京:中国广播电视出版社,2001.
3马力.一种基于最小集中网站的Web搜索优化[J].计算机科学,2004,(9):33-36.
4王晓峰,刘惟一.通过网页集团对Web信息搜索进行优化[J].云南大学学报(自然科学版),2003,25(6):75-78.
5[5]Pawlak Z.Rough sets and fuzzy sets[J].Fuzzy Sets and Systems,1985,17:99-102.
6[6]Kleinberg J,Lawrence S.The Structure of the Web[J].In:Science,2001,)6):294.
7王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
8王继成,萧嵘,孙正兴,张福炎.Web信息检索研究进展[J].计算机研究与发展,2001,38(2):187-193. 被引量：118
9谢丹夏.Web上的数据挖掘技术和工具设计[J].计算机工程与应用,2001,37(6):85-87. 被引量：33
10孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395. 被引量：83

共引文献13

1袁勇,万幼川.基于Web数据挖掘模型的研究[J].地理空间信息,2004,2(3):22-24.
2张霄军,张凌岚,刘军.基于Web语料挖掘技术及其系统设计[J].上海电力学院学报,2004,20(2):39-43. 被引量：5
3张霄军,张凌岚.基于XML的Web中文文本挖掘系统设计[J].术语标准化与信息技术,2004(3):31-35. 被引量：3
4杨彬.利用XML技术进行Web内容挖掘[J].计算机与现代化,2005(11):48-50. 被引量：6
5潘世成.基于XML总线的企业应用集成(EAI)技术[J].现代计算机,2006,12(9):78-80.
6朱德利.Web结构挖掘的XML实现策略[J].计算机工程与设计,2006,27(23):4447-4449. 被引量：2
7刘炜,陈俊杰.一种Web使用模式挖掘模型的设计[J].计算机应用研究,2007,24(3):184-186. 被引量：6
8张贵红.Web使用模式挖掘技术[J].黑龙江科技信息,2008(6):65-65.
9王永平.数字博物馆文物信息获取系统的分析与设计[J].电脑开发与应用,2009,22(2):16-18.
10王永平.文物信息获取系统关键技术分析[J].计算机技术与发展,2010,20(7):219-222.

同被引文献9

1赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
2Wu J. A Framework for Learning Comprehensible Theo- ries in XML Document Classification[J]. IEEE Transac- tions on Knowledge & Data Engineering, 2011, 24(1):1 -14.
3M. Elgin Akpmar, Yeliz Yes ilada. Vision Based Page Segmentation Algorithm: Extended and Perceived Suc- cess[M]// Current Trends in Web Engineering. Springer International Publishing, 2013:238-252.
4Xiang P, Yang X, Shi Y. Web Page Segmentation Based on Gestalt Theory.[C]//Multimedia and Expo, 2007 IEEE In- ternational Conference on IEEE, 2010:2253-2256.
5Madaan A, Chu W, Bhalla S. VisHue: Web Page Segmen- tation for an Improved Query Interface for MedlinePlus Medical Encyclopedia.[M]// Databases in Networked In- formation Systems. Springer Berlin Heidelberg, 2011:89 -108.
6Liu X, Lin H, Tian Y. Segmenting Webpage with Go- mory-Hu Tree Based Clustering[J]. Journal of Software, 2011, 6(12): 2421-2425.
7Otsubo M, Quang Hung B, Hijikata Y, et al. Web Page Classification using Anchor-related Text Extracted by a DOM-based Method[J]. Transactions of the Japanese So- ciety for Artificial Intelligence, 2010, 25(25): 37-49.
8常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
9张晨,汪永益,王雄,施凡.基于网页DOM树比对的SQL注入漏洞检测[J].计算机工程,2012,38(18):111-115. 被引量：5

引证文献1

1马勇,郑翔,鲜敏,黎远松.基于Web挖掘和文档对象模型树的XML网页分类方法[J].微型电脑应用,2016,32(7):47-49.

1Secure Computing Webwasher获优秀Web内容安全产品奖[J].计算机安全,2007(6):54-54.
2何文才,都婧,封化民,孙茂增,张琼.基于Ontology的Web内容安全研究[J].网络安全技术与应用,2008(4):53-55. 被引量：2
3许运华.利用XML实现异构数据库的数据共享[J].计算机与网络,2005,31(14):44-45. 被引量：1
4陈定权.Web结构挖掘研究[J].情报理论与实践,2003,26(1):59-61. 被引量：16
5吴春旭,郭磊.Web结构挖掘的PageRank算法改进[J].情报杂志,2005,24(10):55-56. 被引量：3
6王志军.批量搞定Word文档中的大量图片[J].电脑知识与技术（经验技巧）,2014(3):32-34.
7大江东去.输入公式不用愁用Win 7手写[J].电脑迷,2010(3):72-72.
8周洁.关于实现Web内容挖掘方法的研究[J].武汉科技大学学报,2007,30(2):182-184. 被引量：3
9赵梦龙,龙士工,刘春英.基于HITS算法的云化模型[J].微计算机信息,2009,25(30):169-170.
10黄英铭.Web结构挖掘及HITS算法分析[J].计算机与现代化,2007(7):23-25. 被引量：8

沈阳大学学报（自然科学版）

2012年第3期

浏览历史

内容加载中请稍等...

基于XML的Web内容挖掘方法被引量：1

参考文献3

二级参考文献15

共引文献13

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于XML的Web内容挖掘方法 被引量：1

参考文献3

二级参考文献15

共引文献13

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于XML的Web内容挖掘方法被引量：1