基于XML的web文本挖掘方法与模型研究被引量：5

Research on method and model of web mining based on XML

下载PDF

导出

摘要 Internet的快速发展和大量非结构化数据的出现,给传统的数据挖掘工具带来了极大的挑战。XML(可扩展标记语言)技术一方面继承了HTML的灵活性和简单性,另一方面又具有强制结构的完整性和标签的自定义性,已经成为web挖掘的一个重要方向。本文在介绍XML语言基本特点的基础上,针对web上大量异构数据的特点,探讨了基于多叉树的HTML到XML的转换方法,实现web上文本的规范化,并将其用于提出的基于XML的web文本挖掘模型,提高web文本挖掘的有效性。 With the rapid development of Internet and the appearance of non-structure data,the traditional data-mining tools are greatly challenged. XML technology not only inherit the agility and simpleness of HTML,but also is integral on structure and customed on tag,and it has become a very important way of web mining. Introducing the course of development,basic character of XML language, this article discusses how to implement the standardization of web text, according to the characteristic of data on the web. Advancing a kind of text-minlng model based on XML, combining a multi-tree based HTML to XML transformation approach, implementing effectively mining to the web heterogeneous data.

作者亓洪标李安胡柏青

机构地区海军工程大学电气与信息工程学院

出处《微计算机信息》北大核心 2006年第11X期196-197,177,共3页 Control & Automation

基金总装预研基金(编号不公开)

关键词 XML WEB文本挖掘多叉树 XML（eXtensible Markup Language）,web text mining,multi-tree

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1韩客松,王永成.文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理[J].情报学报,2001,20(1):100-104. 被引量：64
2Salton G.Automatic Text Processing Reading.MA:Addison-wesley, 1959
3汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息,2003,19(1):3-4. 被引量：87

二级参考文献1

1范明,孟小蜂译.数据挖掘:概念与技术--聚类分析[M].北京:机械工业出版社,2001.223-258.

共引文献149

1钱卓昊.数据驱动的属性值分类法及其在属性泛化中的应用[J].智能计算机与应用,2021,11(4):77-81.
2宁彬.基于数据挖掘的入侵检测系统研究[J].微计算机信息,2008,24(6):97-98. 被引量：10
3牛志玲,曾丽娟.面向Web的数据挖掘面临的挑战[J].科技资讯,2008,6(9). 被引量：1
4戴斌,肖道举,梁先宇,廖翊希.移动通信决策分析系统研究[J].计算机科学,2002,29(z1):250-252. 被引量：2
5吴江.智能搜索引擎如何应用WEB信息挖掘技术[J].图书馆论坛,2004,24(5):107-110. 被引量：6
6叶鹰.智能信息分析的理论基础与技术模型[J].情报学报,2005,24(2):233-236. 被引量：16
7刘宝 ,官睿 .无悔选择[J].中国大学生就业,2005(12):29-30.
8虞绍.天府之国——成都[J].中国大学生就业,2005(12):44-46.
9“我很累!”——大学期间社会实践的得与失[J].中国大学生就业,2005(12):47-48.
10张于芝.图书馆知识管理[J].西南科技大学学报（哲学社会科学版）,2005,22(2):112-114. 被引量：1

同被引文献36

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
3陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006,14(1):46-49. 被引量：30
4贾志娟,胡明生.基于网格的Multi_Agent web文本挖掘系统[J].微计算机信息,2006(07X):266-268. 被引量：5
5袁冰,朱东华,任智军.基于数据挖掘技术的专利情报分析方法及实证研究[J].情报杂志,2006,25(12):99-101. 被引量：30
6庄双勇,何小海,李佳佳,张立海.岩心外表面图像在线三维重建[J].成都信息工程学院学报,2006,21(6):806-811. 被引量：4
7Maron M E. Automatic indexing: an experimental inquiry [J]. Journal of the ACM, 1961, 8(3): 404-417.
8Li Y H, Jain A K. Classification of text documents[J]. The Computer Journal, 1998, 41(8) : 537-546.
9Lisa F Rau, Paul S Jacobs. Creating segmented databases from free text for text retrieval [ C ]//proceedings of the 14th international conference on research and development in information retrieval. Chicago, Illinois: ACM Press, 1991:337 - 346.
10Paul S Jambs. Joining statistics with NLP for text categorization[C]//proceedings of the third conference on applied natural language processing. Trento, Italy: ACM Press, 1992 : 178 - 185.

引证文献5

1徐甜,肖新峰.Web文本表示及其分类研究[J].微计算机信息,2007,23(21):284-285. 被引量：7
2顾彬,吴晓红,滕奇志.基于XHTML及XML的岩心Web综合应用系统[J].微计算机信息,2007,23(36):173-175. 被引量：2
3何俊杰,陆军.改进WEB数据挖掘方法及其在个性化推荐中的应用[J].科技管理研究,2010,30(6):239-241. 被引量：2
4余燕芳.基于改进遗传算法的Web文本挖掘系统[J].微电子学与计算机,2010,27(4):103-105. 被引量：1
5赵蕴华,张静.基于数据挖掘的专利数据预处理系统的设计与实现[J].情报科学,2011,29(12):1851-1855. 被引量：2

二级引证文献14

1袁赟,焦锋.基于WEB文本挖掘的证券投资系统的分析与设计[J].邵阳学院学报（自然科学版）,2008,5(2):45-47.
2王志红,柴玉梅.Citation-KNN算法改进及其应用[J].微计算机信息,2009,25(3):261-262. 被引量：3
3仇丽青,刘瑞,张辉.基于词频统计的多文档自动摘要生成方案[J].微计算机信息,2009,25(6):181-182. 被引量：4
4金春霞,周海岩.基于机器学习的Web文本分类技术及算法[J].长春工业大学学报,2009,30(3):347-351. 被引量：3
5郑勋灿,林仲达,邓琨.基于Rough集的web文本分类研究[J].微计算机信息,2009,25(27):180-181.
6彭云,万红新.一种基于粗糙集的Web文本搜索算法[J].微计算机信息,2009,25(30):182-183. 被引量：1
7张美虎,张建明.基于粗糙集和遗传算法的文本分类研究[J].微计算机信息,2009(33):198-199. 被引量：1
8张志更.吐哈油田网络岩心观察描述平台的完善及应用[J].中国高新技术企业,2010(15):170-172. 被引量：2
9张志更,刘锋,潘红芳,张永发,任淑玲.吐哈油田网络岩心观察描述平台的建立及应用[J].中国科技成果,2010(14):29-31.
10何波,涂飞,程勇军.Web日志挖掘数据预处理研究[J].微电子学与计算机,2011,28(4):111-114. 被引量：6

1申丽君,孟凡荣.基于XML的Web文本挖掘模型的研究与设计[J].计算机工程与设计,2007,28(10):2287-2290. 被引量：4

微计算机信息

2006年第11X期

浏览历史

内容加载中请稍等...

基于XML的web文本挖掘方法与模型研究被引量：5

参考文献3

二级参考文献1

共引文献149

同被引文献36

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于XML的web文本挖掘方法与模型研究 被引量：5

参考文献3

二级参考文献1

共引文献149

同被引文献36

引证文献5

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于XML的web文本挖掘方法与模型研究被引量：5