期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
HTCLOSE:快速挖掘微阵列数据集中的频繁闭合模式
1
作者 缪裕青 金波 陈国良 《小型微型计算机系统》 CSCD 北大核心 2008年第2期274-278,共5页
由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效... 由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效的修剪技术和巧妙的链表组织技术,在时间和空间上均得到了优化.实验表明,HTCLOSE算法通常快于行枚举算法CARPENTER. 展开更多
关键词 数据挖掘 关联规则 频繁闭合模式 微阵列数据集 生物信息学
下载PDF
一种基于Close模式发现用户频繁访问路径的方法 被引量:2
2
作者 陈敏 苗夺谦 《计算机工程》 CAS CSCD 北大核心 2007年第8期14-16,19,共4页
Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了非常有价值的潜在信息。该文在分析用户访问模式的特点后,提出了Close模式的概念,基于此概念提出了一种挖掘用户频繁访问模式的Close算... Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了非常有价值的潜在信息。该文在分析用户访问模式的特点后,提出了Close模式的概念,基于此概念提出了一种挖掘用户频繁访问模式的Close算法。该算法利用频繁访问模式的封闭特性,挖掘出既是频繁的又是封闭的访问模式,在一定程度上减少了下一阶段“寻找最大频繁访问模式”的工作量。用实际数据对算法的性能进行了验证和分析。 展开更多
关键词 WEB挖掘 频繁访问模式 访问模式的顺序子集 close模式
下载PDF
An efficient algorithm for mining closed itemsets 被引量:1
3
作者 刘君强 潘云鹤 《Journal of Zhejiang University Science》 CSCD 2004年第1期8-15,共8页
This paper presents a new efficient algorithm for mining frequent closed itemsets. It enumerates the closed set of frequent itemsets by using a novel compound frequent itemset tree that facilitates fast growth and eff... This paper presents a new efficient algorithm for mining frequent closed itemsets. It enumerates the closed set of frequent itemsets by using a novel compound frequent itemset tree that facilitates fast growth and efficient pruning of search space. It also employs a hybrid approach that adapts search strategies, representations of projected transaction subsets, and projecting methods to the characteristics of the dataset. Efficient local pruning, global subsumption checking, and fast hashing methods are detailed in this paper. The principle that balances the overheads of search space growth and pruning is also discussed. Extensive experimental evaluations on real world and artificial datasets showed that our algorithm outperforms CHARM by a factor of five and is one to three orders of magnitude more efficient than CLOSET and MAFIA. 展开更多
关键词 散列法 知识发现 全局包含检验 搜索策略
下载PDF
Mining Cross-Transaction Web Usage Patterns
4
作者 Jian Chen Jian Yin Jin Huang Liangyi Ou 《通讯和计算机(中英文版)》 2005年第5期6-11,81,共7页
关键词 WEB系统 存贮器 交叉处理器 计算机技术
下载PDF
Efficient Mining of Frequent Closed XML Query Pattern
5
作者 冯建华 钱乾 +1 位作者 王建勇 周立柱 《Journal of Computer Science & Technology》 SCIE EI CSCD 2007年第5期725-735,共11页
Previous research works have presented convincing arguments that a frequent pattern mining algorithm should not mine all frequent but only the closed ones because the latter leads to not only more compact yet complete... Previous research works have presented convincing arguments that a frequent pattern mining algorithm should not mine all frequent but only the closed ones because the latter leads to not only more compact yet complete result set but also better efficiency. Upon discovery of frequent closed XML query patterns, indexing and caching can be effectively adopted for query performance enhancement. Most of the previous algorithms for finding frequent patterns basically introduced a straightforward generate-and-test strategy. In this paper, we present SOLARIA*, an efficient algorithm for mining frequent closed XML query patterns without candidate maintenance and costly tree-containment checking. Efficient algorithm of sequence mining is involved in discovering frequent tree-structured patterns, which aims at replacing expensive containment testing with cheap parent-child checking in sequences. SOLARIA* deeply prunes unrelated search space for frequent pattern enumeration by parent-child relationship constraint. By a thorough experimental study on various real-life data, we demonstrate the efficiency and scalability of SOLARIA* over the previous known alternative. SOLARIA* is also linearly scalable in terms of XML queries' size. 展开更多
关键词 computer software frequent closed pattern data mining XML XPATH
原文传递
基于不确定数据的可能频繁闭序列模式挖掘 被引量:7
6
作者 李立波 白树仁 +1 位作者 陈磊 张威 《计算机应用研究》 CSCD 北大核心 2016年第4期983-988,共6页
对于不确定数据的频繁序列模式挖掘,会导致可能频繁模式数量的指数级出现,其中有些无用的挖掘结果会引起频繁序列的冗余。针对上述不足,提出了可能频繁闭序列模式(p-FCSPs)的定义,以及一种基于不确定数据的可能频繁闭序列挖掘算法U-FCS... 对于不确定数据的频繁序列模式挖掘,会导致可能频繁模式数量的指数级出现,其中有些无用的挖掘结果会引起频繁序列的冗余。针对上述不足,提出了可能频繁闭序列模式(p-FCSPs)的定义,以及一种基于不确定数据的可能频繁闭序列挖掘算法U-FCSM。此算法中,基于一种元组不确定数据模型计算序列的可能频繁性,应用BIDE算法的闭序列思想判断可能频繁序列是否是可能频繁闭序列模式;为了减少搜索空间与避免冗余的计算,应用了几个剪枝与边界技术。U-FCSM算法的有效性与效率通过大量的实验得以表明。 展开更多
关键词 不确定数据 可能频繁闭序列模式 概率频繁 不确定数据挖掘 闭序列模式 序列模式增长
下载PDF
一种基于时间衰减模型的数据流闭合模式挖掘方法 被引量:15
7
作者 韩萌 王志海 原继东 《计算机学报》 EI CSCD 北大核心 2015年第7期1473-1483,共11页
数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,... 数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,提出了一种基于时间衰减模型和闭合算子的数据流闭合模式挖掘方式TDMCS(Time-Decay-Model-based Closed frequent pattern mining on data Stream).该算法采用时间衰减模型来区分滑动窗口内的历史和新近事务权重,使用闭合算子提高闭合模式挖掘的效率,设计使用最小支持度-最大误差率-衰减因子的三层架构避免概念漂移,设计一种均值衰减因子平衡算法的高查全率和高查准率.实验分析表明该算法适用于挖掘高密度、长模式的数据流;且具有较高的效率,在不同大小的滑动窗口条件下性能表现是稳态的,同时也优于其他同类算法. 展开更多
关键词 事务数据流 数据流挖掘 频繁模式挖掘 闭合模式挖掘 时间衰减模型 概念漂移
下载PDF
面向移动时空轨迹数据的频繁闭合模式挖掘 被引量:5
8
作者 王亮 汪梅 +1 位作者 郭鑫颖 秦学斌 《西安科技大学学报》 CAS 北大核心 2016年第4期573-576,598,共5页
移动泛在感知设备的广泛普及为移动轨迹数据的大规模采集、存储与分析开拓了广阔的空间。通过对用户的移动轨迹数据进行分析挖掘,发现其中所蕴含的有价值的行为模式与特征,对于基于位置的服务(Location-based Service,LBS),城市交通管理... 移动泛在感知设备的广泛普及为移动轨迹数据的大规模采集、存储与分析开拓了广阔的空间。通过对用户的移动轨迹数据进行分析挖掘,发现其中所蕴含的有价值的行为模式与特征,对于基于位置的服务(Location-based Service,LBS),城市交通管理,精准广告营销等领域均具有重要的价值。文中针对移动轨迹频繁模式规模过大、信息冗余问题定义了频繁闭合移动轨迹模式,以经典闭合序列模式挖掘算法为基础提出了适应于移动轨迹数据的频繁闭合模式Close Traj算法,分别通过对仿真数据与真实数据的实验测试,结果显示文中所提出的Close Traj算法对于频繁闭合移动轨迹模式挖掘问题具有较强的适用性,同时在运行效率方面具有显著优势。 展开更多
关键词 移动轨迹 数据挖掘 频繁闭合模式
下载PDF
一种新的基于频繁闭显露模式的图分类方法 被引量:10
9
作者 刘勇 李建中 朱敬华 《计算机研究与发展》 EI CSCD 北大核心 2007年第7期1169-1176,共8页
由于图模型能够准确地表示科学与工程领域中数据的关键特征,图挖掘逐渐成为了数据挖掘领域的热点研究内容.图分类是图挖掘的一个重要研究分支.提出了一种新的基于频繁闭显露模式的图分类方法CEP,其基本思想是首先挖掘频繁闭图模式,然后... 由于图模型能够准确地表示科学与工程领域中数据的关键特征,图挖掘逐渐成为了数据挖掘领域的热点研究内容.图分类是图挖掘的一个重要研究分支.提出了一种新的基于频繁闭显露模式的图分类方法CEP,其基本思想是首先挖掘频繁闭图模式,然后从闭图模式中得到显露模式,最后根据显露模式构造一系列分类规则.实验结果显示:在对化合物数据分类时,CEP在分类性能上优于目前最好的图分类方法.而且,领域专家容易理解和利用CEP产生的分类规则. 展开更多
关键词 频繁图模式 闭图模式 显露模式 图分类 图挖掘
下载PDF
最小闭树特征集的聚类与分类方法 被引量:5
10
作者 郭鑫 李云 +1 位作者 黄云 周清平 《计算机应用》 CSCD 北大核心 2010年第2期423-426,448,共5页
提出一种基于最小闭树特征集的聚类与分类方法,有效地解决了在实际应用中因数据量大而无法聚类与分类的问题。其基本思想为:以最小闭树特征集作为候选聚类与分类特征,采用动态阈值按相似度聚类,使得树聚类快速而精确;提出树分类规则等... 提出一种基于最小闭树特征集的聚类与分类方法,有效地解决了在实际应用中因数据量大而无法聚类与分类的问题。其基本思想为:以最小闭树特征集作为候选聚类与分类特征,采用动态阈值按相似度聚类,使得树聚类快速而精确;提出树分类规则等级概念,并应用于树分类方法中,能迅速预测未知的树结构。实验结果表明,在树节点数较多或数据量大时,新方法有效可行,且与类其他方法相比效率有显著提高。 展开更多
关键词 数据挖掘 频繁子树 闭树模式 树聚类 树分类
下载PDF
基于分割图集的频繁闭图挖掘算法 被引量:3
11
作者 薛冰 张俊峰 郑超 《计算机应用研究》 CSCD 北大核心 2011年第1期61-64,68,共5页
为了解决大规模图集挖掘算法PartGraphMining必须重复扫描图集才能得到全部频繁子图的缺点,提出了一种改进的IPMC算法,通过hash表保存同构图的hash地址和支持度,不必重复扫描图集就可快速得到全部频繁子图,再经过少量的子图同构判断得... 为了解决大规模图集挖掘算法PartGraphMining必须重复扫描图集才能得到全部频繁子图的缺点,提出了一种改进的IPMC算法,通过hash表保存同构图的hash地址和支持度,不必重复扫描图集就可快速得到全部频繁子图,再经过少量的子图同构判断得到全部频繁闭图。在实际数据集上运行的实验结果表明它比原算法的挖掘效率有所提高。 展开更多
关键词 大规模图集 频繁子图 子图同构 频繁闭图
下载PDF
CBC-DS:基于频繁闭模式的数据流分类算法 被引量:3
12
作者 敖富江 王涛 +1 位作者 刘宝宏 黄柯棣 《计算机研究与发展》 EI CSCD 北大核心 2009年第5期779-786,共8页
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率... 基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法—CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了"自支持度"概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法. 展开更多
关键词 数据流 分类 关联规则 频繁闭模式 自支持度
下载PDF
一种高效挖掘高维数据的频繁闭合模式算法 被引量:1
13
作者 胡孔法 唐小丽 +1 位作者 达庆利 陈崚 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第4期569-573,共5页
为了克服传统高维数据挖掘频繁闭合模式算法迭代产生子表,引起算法执行时间长和存储开销大等问题,提出了一种高效挖掘高维数据的频繁闭合模式的算法EMHCP.EMHCP算法采用一种新型结构位图表来压缩存储数据,在仅扫描数据库一次后,建立位... 为了克服传统高维数据挖掘频繁闭合模式算法迭代产生子表,引起算法执行时间长和存储开销大等问题,提出了一种高效挖掘高维数据的频繁闭合模式的算法EMHCP.EMHCP算法采用一种新型结构位图表来压缩存储数据,在仅扫描数据库一次后,建立位图转换表.根据位图转换表来构建混合树结构,采用深度优先的方式和有效的剪枝策略高效挖掘出所有的闭合模式.从而有效地缩小了搜索空间,加快了处理速度.通过在生物数据库应用的实验结果表明,EMH-CP算法比已有的CARPENTER和TD-close等算法更为有效. 展开更多
关键词 数据挖掘 频繁闭合模式 行枚举 混合树
下载PDF
分布式存储结构的频繁闭合模式挖掘并行算法 被引量:3
14
作者 缪裕青 尹东 《微电子学与计算机》 CSCD 北大核心 2007年第10期161-163,共3页
研究分布式存储结构下频繁闭合模式挖掘的并行化问题,针对频繁闭合模式的特点,提出了两阶段并行判断频繁模式闭合性的方法,基于串行算法FPclose和两种FP-tree的并行构造方式,分别给出了两个频繁闭合模式挖掘并行算法DP-FP和DL-FP,性能... 研究分布式存储结构下频繁闭合模式挖掘的并行化问题,针对频繁闭合模式的特点,提出了两阶段并行判断频繁模式闭合性的方法,基于串行算法FPclose和两种FP-tree的并行构造方式,分别给出了两个频繁闭合模式挖掘并行算法DP-FP和DL-FP,性能分析表明,这两个算法具有较大的并行化,较小的I/O开销与良好的负载平衡。 展开更多
关键词 关联规则 频繁模式 频繁闭合模式 FP-TREE 并行算法
下载PDF
在线挖掘数据流混合窗口中闭频繁项集 被引量:2
15
作者 倪志伟 姜苗 +1 位作者 王超 戴奇波 《系统仿真学报》 CAS CSCD 北大核心 2010年第9期2110-2114,2119,共6页
在数据流挖掘中,界标窗体考虑了历史模式对当前挖掘的影响,但没考虑到随时间的推移模式衰减的问题。滑动窗口能记录最新、最有用的模式,但窗口的最佳大小无法准确确定。针对一些仿真系统中具有数据流特点的数据,提出了一种挖掘混合窗口... 在数据流挖掘中,界标窗体考虑了历史模式对当前挖掘的影响,但没考虑到随时间的推移模式衰减的问题。滑动窗口能记录最新、最有用的模式,但窗口的最佳大小无法准确确定。针对一些仿真系统中具有数据流特点的数据,提出了一种挖掘混合窗口中闭频繁项集的方法T-Moment。该方法能在单遍扫描数据流的条件下完整地记录模式信息。同时,T-Moment提出的减枝方法能很好地降低滑动窗口树F-tree的空间复杂度与闭频繁模式树T-tree的维护代价。此外,该方法提出的时间衰减机制能区分历史和最新模式。大量仿真实验结果表明,T-Moment有很好的效率和准确性。 展开更多
关键词 仿真数据 闭频繁模式 混合窗体 时间衰减
下载PDF
基因表达数据的频繁闭合模式挖掘新算法 被引量:1
16
作者 缪裕青 陈国良 徐云 《中国科学技术大学学报》 CAS CSCD 北大核心 2007年第9期1080-1087,共8页
基因表达数据集与传统事务数据集相比呈现出新的特征,由于其项目数远远大于事务数,使得大量现有的基于项目枚举的频繁闭合模式挖掘算法不再适用.为此提出一种频繁闭合模式挖掘新算法TPclose,使用TP-树(tidset-prefix tree)保存项目的事... 基因表达数据集与传统事务数据集相比呈现出新的特征,由于其项目数远远大于事务数,使得大量现有的基于项目枚举的频繁闭合模式挖掘算法不再适用.为此提出一种频繁闭合模式挖掘新算法TPclose,使用TP-树(tidset-prefix tree)保存项目的事务集信息.该算法将频繁闭合模式挖掘问题转换成频繁闭合事务集挖掘问题,采取自顶向下分而治之的事务搜索策略,并组合了高效的修剪技术和有效的优化技术.实验表明,TPclose算法普遍快于自底向上事务搜索算法RERⅡ,最高达2个数量级以上. 展开更多
关键词 数据挖掘 关联规则 频繁闭合模式 基因表达数据 自顶向下
下载PDF
基于包含索引的频繁闭序列模式挖掘的新算法 被引量:1
17
作者 李晋宏 杨炳儒 +1 位作者 宋威 侯伟 《系统工程与电子技术》 EI CSCD 北大核心 2009年第10期2485-2488,共4页
频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多。传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列。为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项... 频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多。传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列。为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项集进行扩展,大大减少了非闭合序列的产生。首先,论证了闭序列模式只能由闭项集组成;其次,说明了如何利用包含索引来快速发现闭项集;最后,给出了一种深度优先的挖掘频繁闭序列模式的新算法。实验结果表明,该算法具有较高的效率。 展开更多
关键词 数据挖掘 频繁闭项集 频繁闭序列模式 包含索引
下载PDF
一种挖掘频繁闭项集的深度优先算法 被引量:2
18
作者 张炘 廖频 郭波 《计算机应用》 CSCD 北大核心 2010年第3期806-809,共4页
频繁闭项集挖掘是许多数据挖掘应用中的重要问题。为减少候选项集数量和降低支持度计算的开销,提出一种新的深度优先搜索频繁闭项集(DFFCI)的算法。将改进的压缩频繁模式树(CFP-Tree)表示的数据集信息投影到划分矩阵,使用二进制向量逻... 频繁闭项集挖掘是许多数据挖掘应用中的重要问题。为减少候选项集数量和降低支持度计算的开销,提出一种新的深度优先搜索频繁闭项集(DFFCI)的算法。将改进的压缩频繁模式树(CFP-Tree)表示的数据集信息投影到划分矩阵,使用二进制向量逻辑运算计算支持度,简化了计算过程,减少了时间开销;采用基于支持度预计算技术的全局2-项剪枝和局部扩展剪枝,有效削减了搜索空间。实验结果表明该算法的性能优于其他主流深度优先算法。 展开更多
关键词 数据挖掘 频繁闭项集 压缩频繁模式树 划分矩阵
下载PDF
一种面向分布式数据流的闭频繁模式挖掘方法 被引量:6
19
作者 唐颖峰 陈世平 《计算机应用研究》 CSCD 北大核心 2015年第12期3560-3564,3595,共6页
对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,通过对分布式窗口树... 对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,通过对分布式窗口树进行更新、剪枝及挖掘,能够快速响应用户的查询请求,返回任意时间窗口内数据中的闭频繁模式。实验表明,在保证挖掘准确性的前提下,该方法能够有效缩短查询响应时间,并具有良好的可扩展性。 展开更多
关键词 智能交通系统 分布式数据流 闭频繁模式挖掘 MAPREDUCE 传感器网络
下载PDF
结合项约束的闭合模式挖掘研究 被引量:1
20
作者 王新宇 唐世渭 《计算机科学》 CSCD 北大核心 2004年第9期157-160,共4页
事务数据库中频繁模式的挖掘研究作为关联规则等许多数据挖掘问题的核心工作,已经研完了许多年。然而,频繁模式挖掘算法经常产生大量的模式和规则,不但降低了算法的执行效率,同时也使用户从频繁模式产生有用的规则变得很困难。针对这个... 事务数据库中频繁模式的挖掘研究作为关联规则等许多数据挖掘问题的核心工作,已经研完了许多年。然而,频繁模式挖掘算法经常产生大量的模式和规则,不但降低了算法的执行效率,同时也使用户从频繁模式产生有用的规则变得很困难。针对这个问题,最近的研究主要集中于两点,一种方法是允许用户附加约束来引导挖掘的过程,通过把约束条件下推到挖掘的底层来缩小模式搜索的空间,提高性能;另一种方法是仅挖掘闭合模式,只产生大于其超集支持度的频繁模式。两种方式都可以大量缩小结果集合的大小,使结果集合更容易被用户理解和使用。那么,把这两种方式相结合,挖掘满足用户约束的闭合频繁模式,理论上来说应该更为高效,更方便理解和使用。基于以上的考虑,做了一些细致的研究,把用户约束分类,并主要讨论了结合项约束的闭合模式生成问题。 展开更多
关键词 频繁模式 约束 模式挖掘 挖掘算法 事务数据库 关联规则 用户 缩小 问题 方式
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部