期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
XML聚类在少数民族节日文化挖掘中的应用 被引量:1
1
作者 任廷艳 罗刚 《软件导刊》 2015年第12期140-141,共2页
分析了少数民族节日文化挖掘的重要性,介绍了XML聚类的具体过程:XML模型表示、文档相似性计算、XML聚类、聚类性能评估。设计了少数民族节日的XML半结构化数据模型。提出了一种基于划分的XML聚类算法,实现了少数民族节日内涵的挖掘。
关键词 民族节日 xml挖掘 xml聚类
下载PDF
基于XML的Web文本挖掘模型的研究与设计 被引量:4
2
作者 申丽君 孟凡荣 《计算机工程与设计》 CSCD 北大核心 2007年第10期2287-2290,共4页
Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点。而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题。介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型... Web上的数据量急剧膨胀使得进行Web数据挖掘成为数据挖掘技术研究的热点。而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题。介绍了XML的和Web文本挖掘的概念,提出了一种基于XML的Web文本挖掘模型,剖析了该模型的各个组成部分,给出了该模型的特点。 展开更多
关键词 WEB数据挖掘 数据挖掘技术 半结构化 数据源 WEB文本挖掘 基于xml的Web文本挖掘模型
下载PDF
基于序列前缀技术的XML频繁路径挖掘算法
3
作者 张洁 毛国君 《计算机系统应用》 2018年第1期78-85,共8页
XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段.现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集... XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段.现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的Prefix Span算法会产生大量的投影数据库,占用较大的内存.针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm).PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为"节点:父节点"的形式,这种序列化的方式减少了节点冗余.在序列挖掘阶段借鉴Prefix Span算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描.实验结果表明,PXFP算法取得了比Prefix Span算法更高的时间和空间效率. 展开更多
关键词 xml频繁路径挖掘 序列化 位置信息 前缀
下载PDF
基于多层次技术的XML数据挖掘研究 被引量:1
4
作者 袁园 《信息通信》 2016年第1期143-144,共2页
随着互联网的广泛使用,Web的数据挖掘技术成为现阶段数据挖掘技术研究的重点,但由于其数据挖掘控制的复杂,对人们的数据挖掘和使用带来了困难。而XML数据挖掘的出现弥补了Web数据挖掘的缺陷,为其带来了方便。
关键词 多层次技术 xml数据挖掘 WEB数据挖掘 研究
下载PDF
基于关键字语义信息的XML文档分类 被引量:6
5
作者 张利军 李战怀 +2 位作者 陈群 娄颖 李宁 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第6期1510-1514,共5页
针对XML数据半结构化的特点及传统的tf-idf方法仅考虑关键字在文档中出现的频率和包含关键字的文档数,而未考虑XML文档中关键字语义信息的不足,提出了一种新的关键字权重度量方法。该方法充分考虑了XML文档中关键字所出现的路径、路径... 针对XML数据半结构化的特点及传统的tf-idf方法仅考虑关键字在文档中出现的频率和包含关键字的文档数,而未考虑XML文档中关键字语义信息的不足,提出了一种新的关键字权重度量方法。该方法充分考虑了XML文档中关键字所出现的路径、路径包含关键字的个数、包含路径的文档个数、路径的层次等影响关键字语义的因素,用于计算关键字权重,从而提高了关键字权重度量的准确性。在多个数据集上的实验结果表明,将该方法应用于XML文档的分类时,与传统的tf-idf方法和基于规则的方法相比,分类的查全率、查对率及F1均有所提高。 展开更多
关键词 计算机软件 半结构化数据 xml挖掘 xml分类 关键字语义 权重度量
下载PDF
Bottom-up mining of XML query patterns to improve XML querying
6
作者 Yi-jun BEI Gang CHEN +1 位作者 Jin-xiang DONG Ke CHEN 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2008年第6期744-757,共14页
Querying XML data is a computationally expensive process due to the complex nature of both the XML data and the XML queries. In this paper we propose an approach to expedite XML query processing by caching the results... Querying XML data is a computationally expensive process due to the complex nature of both the XML data and the XML queries. In this paper we propose an approach to expedite XML query processing by caching the results of frequent queries. We discover frequent query patterns from user-issued queries using an efficient bottom-up mining approach called VBUXMiner. VBUXMiner consists of two main steps. First, all queries are merged into a summary structure named "compressed global tree guide" (CGTG). Second, a bottom-up traversal scheme based on the CGTG is employed to generate frequent query patterns. We use the frequent query patterns in a cache mechanism to improve the XML query performance. Experimental results show that our proposed mining approach outperforms the previous mining algorithms for XML queries, such as XQPMinerTID and FastXMiner, and that by caching the results of frequent query patterns, XML query performance can be dramatically improved. 展开更多
关键词 xml querying xml mining CACHING Data mining
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部