期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于XML的Web内容挖掘方法 被引量:1
1
作者 郑霞 陈建国 《沈阳大学学报(自然科学版)》 CAS 2012年第3期52-55,共4页
在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTML Tidy工具将非XML文件经过数据清洗后转换成结构良好的XML文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类... 在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTML Tidy工具将非XML文件经过数据清洗后转换成结构良好的XML文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类分类技术进行面向XML文档数据的数据挖掘.实验结果表明,该模型工作良好,可以自动、有效地提取网页内容. 展开更多
关键词 WEB挖掘 数据挖掘 文本聚类 非xml文档
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部