期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
分布式并行化数据流频繁模式挖掘算法 被引量:4
1
作者 马可 李玲娟 孙杜靖 《计算机技术与发展》 2016年第7期75-79,共5页
为了提高数据流频繁模式挖掘的效率,文中基于经典的数据流频繁模式挖掘算法FP-Stream和分布式并行计算原理,设计了一种分布式并行化数据流频繁模式挖掘算法—DPFP-Stream(Distributed Parallel Algorithm of Mining Frequent Pattern on... 为了提高数据流频繁模式挖掘的效率,文中基于经典的数据流频繁模式挖掘算法FP-Stream和分布式并行计算原理,设计了一种分布式并行化数据流频繁模式挖掘算法—DPFP-Stream(Distributed Parallel Algorithm of Mining Frequent Pattern on Data Stream)。该算法将建立频繁模式树的任务分为local和global两部分,并设置了参数"当前时间";将到达的流数据平均分配到多个不同的local节点,各local节点使用FP-Growth算法产生该单位时间内本节点的候选频繁项集,并按照单位时间将候选频繁项集及其支持度计数打包发送至global节点;global节点按"当前时间"合并各local节点的中间结果并更新模式树Pattern-Tree。在分布式数据流计算平台Storm上进行的算法实现和性能测试结果表明,DPFP-Stream算法的计算效率能够随着local节点或local bolt线程的增加而提高,适用于高效挖掘数据流中的频繁模式。 展开更多
关键词 数据流 频繁模式 分布式并行 STORM
下载PDF
基于分布式协调系统的并行频繁模式增长算法的优化 被引量:1
2
作者 王洁 戴清灏 李环 《计算机科学》 CSCD 北大核心 2012年第3期170-173,共4页
频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优... 频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优化策略。优化后的设计将计数信息存储在分布式协调系统上,充分地利用了分布式协调系统的高可用性、适宜存储元数据信息的特点。该设计减小了小文件在分布式文件系统(HDFS)上的开销,同时保留了其优点,还能使计数过程和排序过程并行执行,减小了计算节点的内存开销。对比了文件系统I/O的开销,并分析了实现设计中的难点,为未来的工作打下了基础。 展开更多
关键词 频繁模式增长算法 并行数据挖掘 分布式协调系统 性能优化
下载PDF
利用网格服务的分布式频繁模式挖掘算法 被引量:4
3
作者 张力飞 朱骁峰 何炎祥 《计算机工程与应用》 CSCD 北大核心 2004年第7期179-181,220,共4页
充分利用网格计算平台的各种服务来进行分布式数据挖掘,是近来数据挖掘方面的一个热点。网格计算中的任务管理、任务调度和资源管理等服务可以为分布式数据挖掘提供极大的便利。该文在这些研究的基础上,介绍了一种基于网格平台的分布式... 充分利用网格计算平台的各种服务来进行分布式数据挖掘,是近来数据挖掘方面的一个热点。网格计算中的任务管理、任务调度和资源管理等服务可以为分布式数据挖掘提供极大的便利。该文在这些研究的基础上,介绍了一种基于网格平台的分布式频繁模式挖掘算法。该算法借鉴了FP-growth算法的思想并利用网格平台所提供的分布式计算的各种便利的服务,能在网格计算环境中进行分布式频繁模式的挖掘。 展开更多
关键词 频繁模式 分布式数据挖掘 网格计算 频繁模式
下载PDF
分布式并行FP-growth算法在二次设备缺陷监测中的应用 被引量:17
4
作者 方晓洁 黄伟琼 +1 位作者 叶东华 黄宇柏 《电力系统保护与控制》 CSCD 北大核心 2021年第8期160-167,共8页
智能变电站设备监控数据存储分散,主站获取设备缺陷特征的难度大,有必要通过分布式数据挖掘的方法发现设备缺陷和信号之间的关系。分布式并行频繁模式树(FP-growth)算法采用Hadoop框架和Mapreduce算法,能够快速有效地发现信号间的强关... 智能变电站设备监控数据存储分散,主站获取设备缺陷特征的难度大,有必要通过分布式数据挖掘的方法发现设备缺陷和信号之间的关系。分布式并行频繁模式树(FP-growth)算法采用Hadoop框架和Mapreduce算法,能够快速有效地发现信号间的强关联关系。针对二次设备的缺陷特征,建立异常模型,提出遥信历史数据准备和清洗方法,滤除复归、抖动等噪声信号,并将字符串数据转换为以关键字为标识的事务数据项集。在此基础上采用分布式并行FP-growth算法挖掘各变电站历史数据库异常信号的频繁项集和强关联关系。应用结果表明,该方法能够有效地发现二次设备的频发异常,找到诱发异常的缺陷,为家族性缺陷的认定提供数据基础。 展开更多
关键词 分布式并行频繁模式树 数据挖掘 关联规则 频发异常 家族性缺陷
下载PDF
一种基于分布式数据库的全局频繁项目集更新算法 被引量:4
5
作者 杨明 孙志挥 吉根林 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第6期879-883,共5页
在算法FMAGF的基础上 ,提出了一种基于分布式数据库的全局频繁项目集更新算法———UAGFI,该算法主要考虑最小支持度发生变化时全局频繁项目集的更新情况 .UAGFI在最坏的情况下仅须扫描各局部数据库一遍 ,并利用已挖掘的结果 ,可避免传... 在算法FMAGF的基础上 ,提出了一种基于分布式数据库的全局频繁项目集更新算法———UAGFI,该算法主要考虑最小支持度发生变化时全局频繁项目集的更新情况 .UAGFI在最坏的情况下仅须扫描各局部数据库一遍 ,并利用已挖掘的结果 ,可避免传送某些原全局频繁项目对应的条件频繁模式树 ,从而降低网络通讯代价 .实验结果表明 。 展开更多
关键词 算法 数据挖掘 分布式数据库 全局频繁项目集 频繁模式 更新 UAGFI
下载PDF
分布环境中的并行频繁模式挖掘算法 被引量:3
6
作者 阮幼林 李庆华 刘干 《计算机工程与应用》 CSCD 北大核心 2005年第25期1-3,22,共4页
频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法... 频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。 展开更多
关键词 频繁模式 并行算法 前缀 全局频繁模式
下载PDF
一种网格环境下的FP-树分布式构造算法 被引量:2
7
作者 荀亚玲 吴晓婷 张继福 《计算机工程与应用》 CSCD 北大核心 2011年第31期128-131,147,共5页
针对分布式环境下FP-tree的构造及合并,给出了一种网格环境下FP-tree的分布式构造算法GridDBMA。该算法中,各站点根据全局项目头表,独立构造局部频繁模式树BFP-tree,然后,利用合并算法将各局部树合并为一棵全局频繁模式树,并在全局频繁... 针对分布式环境下FP-tree的构造及合并,给出了一种网格环境下FP-tree的分布式构造算法GridDBMA。该算法中,各站点根据全局项目头表,独立构造局部频繁模式树BFP-tree,然后,利用合并算法将各局部树合并为一棵全局频繁模式树,并在全局频繁模式树上提取出所求的频繁项目集,通过对传统频繁模式树的存储结构的改进,减少了树的规模及站点间的网络通信量,并使树的遍历更加方便有效,提高了合并效率,从而提高了整个频繁项目集的挖掘效率。最后,采用天体光谱数据作为形式背景,实验验证了该算法的正确性和有效性。 展开更多
关键词 网格 分布式数据挖掘 频繁模式 关联规则 FP-
下载PDF
基于Spark的并行频繁模式挖掘算法 被引量:13
8
作者 曹博 倪建成 +2 位作者 李淋淋 于苹苹 姚彬修 《计算机工程与应用》 CSCD 北大核心 2016年第20期86-91,共6页
在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最... 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。 展开更多
关键词 大数据 频繁模式挖掘 TOP-K 模式 并行计算
下载PDF
分布式数据库多层关联规则挖掘算法研究 被引量:1
9
作者 曹洪其 姜志峰 孙志挥 《计算机应用》 CSCD 北大核心 2005年第12期2858-2861,共4页
对分布式数据库多层关联规则挖掘的理论和方法进行了研究,提出了一种基于频繁模式树FP-tree(FreguentPatterntree)的快速挖掘算法DMAML_FPT(DistributedMiningAlgorithmofMultipleLevelbasedonFP-tree)。与类Apriori算法相比较,该算法... 对分布式数据库多层关联规则挖掘的理论和方法进行了研究,提出了一种基于频繁模式树FP-tree(FreguentPatterntree)的快速挖掘算法DMAML_FPT(DistributedMiningAlgorithmofMultipleLevelbasedonFP-tree)。与类Apriori算法相比较,该算法最多只需扫描数据库三遍,不需产生和传输大量的候选项集,减少了数据通信量,从而提高了数据挖掘的效率。实验结果表明算法DMAML_FPT是可行和有效的。 展开更多
关键词 数据挖掘 分布式数据库 多层关联规则 频繁模式
下载PDF
动车组故障诊断知识挖掘中改进的并行频繁模式增长算法 被引量:4
10
作者 周斌 徐文胜 《计算机集成制造系统》 EI CSCD 北大核心 2016年第10期2450-2457,共8页
针对动车组历史运维数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,分析了现有并行频繁模式增长算法的实现形式和不足。结合动车组故障诊断的要求,提出利用局部频繁模式树代替全局频繁模式树的数据... 针对动车组历史运维数据的知识挖掘问题,从有效利用动车组历史运维数据来指导动车组故障诊断的角度出发,分析了现有并行频繁模式增长算法的实现形式和不足。结合动车组故障诊断的要求,提出利用局部频繁模式树代替全局频繁模式树的数据挖掘算法。该算法在各主要步骤上均实现了并行处理,优化了局部频繁模式树生成规则,对频繁模式的搜索策略进行了改进。改进后的算法大大提高了关联规则挖掘的效率,挖掘结果很好地保留了故障信息与状态信息之间的关联关系,并合理去除了无效规则。通过对该算法的具体分析与实际测试,表明该算法在动车组故障诊断知识获取过程中具有快速、高效、准确的特点。 展开更多
关键词 故障诊断 动车组 关联规则 并行频繁模式增长算法 局部频繁模式 MAPREDUCE
下载PDF
一种用户频繁移动模式并行挖掘算法 被引量:1
11
作者 朱一波 鲍培明 吉根林 《中国科学技术大学学报》 CAS CSCD 北大核心 2018年第1期57-64,共8页
针对用户的日常移动轨迹进行挖掘,可以有效地发现隐藏在用户生活中频繁出现的移动规律,即用户频繁移动模式,提出了一种基于PrefixSpan算法的用户频繁移动模式并行挖掘算法PASFORM.该算法利用了新的剪枝策略,缩小了搜索空间;引入了时间约... 针对用户的日常移动轨迹进行挖掘,可以有效地发现隐藏在用户生活中频繁出现的移动规律,即用户频繁移动模式,提出了一种基于PrefixSpan算法的用户频繁移动模式并行挖掘算法PASFORM.该算法利用了新的剪枝策略,缩小了搜索空间;引入了时间约束,挖掘出的频繁移动模式带有时间属性;使用前缀树存储频繁移动模式,缩小了存储空间;采用了并行化方法,适用于海量时空数据的挖掘.实验结果表明,该方法能够快速有效地挖掘出用户频繁移动模式. 展开更多
关键词 频繁移动模式挖掘 序列模式挖掘 前缀 并行
下载PDF
基于FP树的全局最大频繁项集挖掘算法 被引量:16
12
作者 王黎明 赵辉 《计算机研究与发展》 EI CSCD 北大核心 2007年第3期445-451,共7页
挖掘最大频繁项集是多种数据挖掘应用中的关键问题.在以往的最大频繁项集挖掘算法中,为了更新最大频繁候选项集集合,需要反复地扫描整个数据库,而且大部分算法是单机算法,全局最大频繁项集挖掘算法并不多见.为此提出MGMF算法,该算法利用... 挖掘最大频繁项集是多种数据挖掘应用中的关键问题.在以往的最大频繁项集挖掘算法中,为了更新最大频繁候选项集集合,需要反复地扫描整个数据库,而且大部分算法是单机算法,全局最大频繁项集挖掘算法并不多见.为此提出MGMF算法,该算法利用FP-树结构,类似FP-树挖掘方法,一遍就可以挖掘出所有的最大频繁项集,并且超集检测非常简单、快捷.另外MGMF算法采用了分布式PDDM算法播报消息的思想,具有很好的拓展性和并行性.实验证明MGMF算法是有效可行的. 展开更多
关键词 数据挖掘 FP- 分布式数据库 最大频繁项集 频繁模式
下载PDF
基于数据流的大图中频繁模式挖掘算法研究 被引量:6
13
作者 汤小春 樊雪枫 +1 位作者 周佳文 李战怀 《计算机学报》 EI CSCD 北大核心 2020年第7期1293-1311,共19页
随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文... 随着单个图数据规模的扩大以及应用领域的扩展,大规模单图的频繁模式挖掘的需求越来越强烈.传统的单机环境已经无法满足大规模图数据挖掘的要求,而现有的并行或者分布式环境下的挖掘方法,普遍受到并行性以及数据倾斜等问题的限制,论文在分析了现有的频繁模式挖掘算法后,提出了一种基于数据流的单个大图频繁模式挖掘方法.首先,建立基于数据流的频繁模式挖掘模型,将MapReduce模型中的“批”数据变成“微批”数据,提高了数据处理的并行度,并且其迭代方式也满足频繁子图挖掘的反单调性;其二,设计了数据流模型中的频繁模式检查、子图实例扩展以及正规编码计算等操作,实现了基于数据流模型的频繁模式挖掘算法;其三,为解决正规编码计算中的复杂性问题,提出了基于不变关系的正规编码计算策略以及基于编码树的优化策略,优化正规编码比未优化编码的计算性能提升了30%,基于编码树的优化策略比原始编码计算策略在性能上提升了10%;最后,对涉及的相关算法进行了实验测试,实验证明,算法提高了频繁模式挖掘的并行性,大幅度减少了大图的搜索空间,降低了正规编码的计算时间,相比于传统算法大规模单图中频繁模式挖掘的效率提升了30%. 展开更多
关键词 图挖掘 频繁模式 数据流模型 并行算法 编码
下载PDF
频繁闭合项目集的并行挖掘算法研究 被引量:5
14
作者 缪裕青 《计算机科学》 CSCD 北大核心 2004年第5期166-168,共3页
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特... 频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。 展开更多
关键词 频繁项目集 数据挖掘 并行算法 频繁模式 频繁闭合项目集
下载PDF
密集型数据最大频繁模式挖掘方法研究
15
作者 何昀 张继夫 闫彬 《计算机仿真》 北大核心 2022年第10期435-439,共5页
采用目前方法挖掘最大频繁模式时,没有对密集型数据进行预处理,无法消除密集型数据中存在的噪声,导致方法存在去噪性能差、挖掘效率低和挖掘准确率低的问题。提出密集型数据最大频繁模式挖掘方法,采用曲波变换方法对密集型数据进行稀疏... 采用目前方法挖掘最大频繁模式时,没有对密集型数据进行预处理,无法消除密集型数据中存在的噪声,导致方法存在去噪性能差、挖掘效率低和挖掘准确率低的问题。提出密集型数据最大频繁模式挖掘方法,采用曲波变换方法对密集型数据进行稀疏描述,依据压缩感知理论,通过OMP算法消除密集型数据中存在的噪声,实现数据的去噪处理。在此基础上,建立分布式窗口树,通过更新分布式增量、分布式剪枝处理和频繁模式输出三个部分完成密集型数据最大频繁模式的挖掘。仿真结果表明,所提方法的去噪性能好、挖掘效率高、挖掘准确率高。 展开更多
关键词 密集型数据 最大频繁模式 压缩感知理论 数据挖掘 分布式窗口
下载PDF
快速挖掘全局最大频繁项目集 被引量:27
16
作者 陆介平 杨明 +1 位作者 孙志挥 鞠时光 《软件学报》 EI CSCD 北大核心 2005年第4期553-560,共8页
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.现行可用的最大频繁项目集挖掘算法大多基于单机环境,针对分布式环境下的全局最大频繁项目集挖掘尚不多见.若将基于单机环境的最大频繁项目集挖掘算法运用于分布式环境,或运用分布式... 挖掘最大频繁项目集是多种数据挖掘应用中的关键问题.现行可用的最大频繁项目集挖掘算法大多基于单机环境,针对分布式环境下的全局最大频繁项目集挖掘尚不多见.若将基于单机环境的最大频繁项目集挖掘算法运用于分布式环境,或运用分布式环境下的全局频繁项目集挖掘算法来挖掘全局最大频繁项目集,均会产生大量的候选频繁项目集,且网络通信代价高.为此,提出了快速挖掘全局最大频繁项目集算法FMGMFI(fast mining globalmaximum frequent itemsets),该算法采用FP-tree存储结构,可方便地从各局部FP-tree的相关路径中得到项目集的频度,同时采用自顶向下和自底向上的双向搜索策略,可有效地降低网络通信代价.实验结果表明,FMGMF算法是有效、可行的. 展开更多
关键词 分布式数据库 数据挖掘 频繁模式 全局最大频繁项目集
下载PDF
快速更新全局频繁项目集 被引量:18
17
作者 杨明 孙志挥 宋余庆 《软件学报》 EI CSCD 北大核心 2004年第8期1189-1197,共9页
数据挖掘中的频繁项目集更新算法研究是重要的研究课题之一.目前已有的频繁项目集更新算法主要针对单机环境,有关分布式环境下的全局频繁项目集的更新算法的研究尚不多见.为此,提出了快速更新全局频繁项目集算法(fast updating algorith... 数据挖掘中的频繁项目集更新算法研究是重要的研究课题之一.目前已有的频繁项目集更新算法主要针对单机环境,有关分布式环境下的全局频繁项目集的更新算法的研究尚不多见.为此,提出了快速更新全局频繁项目集算法(fast updating algorithm for globally frequent itemsets,简称FUAGFI).该算法主要考虑数据库记录增加时全局频繁项目集的更新情况.FUAGFI利用已建立的各局部频繁模式树(frequent pattern tree,简称FP-tree)及已挖掘的全局频繁项目集,可有效地降低网络通信量,提高全局频繁项目集的更新效率.实验结果表明,所提出的更新算法是行之有效的. 展开更多
关键词 数据挖掘 分布式数据库 全局频繁项目集 频繁模式(FP—tree) 更新
下载PDF
基于Spark改进的最大频繁项集挖掘算法 被引量:8
18
作者 焦润海 张谦 陈超 《计算机工程与设计》 北大核心 2017年第7期1839-1843,共5页
为解决面向大规模高维数据的频繁项集挖掘问题,针对传统算法的时空复杂度和并行化策略进行优化,实现基于Spark改进的最大频繁项集挖掘算法。结合Spark的分布式框架和DMFIA算法的优点,提出深度路径搜索和长度优先超集检验两项改进方法,... 为解决面向大规模高维数据的频繁项集挖掘问题,针对传统算法的时空复杂度和并行化策略进行优化,实现基于Spark改进的最大频繁项集挖掘算法。结合Spark的分布式框架和DMFIA算法的优点,提出深度路径搜索和长度优先超集检验两项改进方法,进行深度路径递归搜索一次性生成最大频繁项候选集,对候选项集进行长度优先排序并检验超集,降低候选项集的规模和挖掘次数,解决传统最大频繁项集挖掘算法在数据量大、维度高时效率低的问题。实验结果表明,该算法在时间上优于同类算法2-4倍,对数据集规模具有良好的扩展性。 展开更多
关键词 频繁模式 分布式计算 数据挖掘 关联规则 最大频繁
下载PDF
快速挖掘分布式数据库全局最大频繁项集 被引量:2
19
作者 何波 《控制与决策》 EI CSCD 北大核心 2011年第8期1214-1218,1223,共6页
提出一种快速挖掘分布式数据库全局最大频繁项集算法(FMMFI).FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法(DMFIA)快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总;最终获得全局... 提出一种快速挖掘分布式数据库全局最大频繁项集算法(FMMFI).FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法(DMFIA)快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总;最终获得全局最大频繁项集.FMMFI算法采用自上而下的剪枝策略,能大幅减少候选项集,降低通信量.理论分析和实验结果表明,FMMFI算法是有效的. 展开更多
关键词 数据挖掘 频繁模式 全局最大频繁项集 分布式数据库
原文传递
基于改进型FP-Tree的分布式关联分类算法 被引量:3
20
作者 卢琦蓓 郭飞鹏 《山东大学学报(理学版)》 CAS CSCD 北大核心 2014年第1期71-75,共5页
传统的信息挖掘技术已经无法满足大数据环境下日益复杂的应用需求,而分布式数据挖掘技术是解决这个难题的一种手段,因此提出了基于改进型频繁模式树(FP-Tree)的分布式关联分类算法。首先,在各局部节点优化FP-Tree,生成局部条件模式树(CF... 传统的信息挖掘技术已经无法满足大数据环境下日益复杂的应用需求,而分布式数据挖掘技术是解决这个难题的一种手段,因此提出了基于改进型频繁模式树(FP-Tree)的分布式关联分类算法。首先,在各局部节点优化FP-Tree,生成局部条件模式树(CFP-Tree),再通过各节点间传送CFP-Tree构建全局CFP-Tree;其次,在挖掘全局CFP-Tree时通过计算显著度来获取初始的全局显著分类规则;最后,利用剪枝策略选取一个较小规则集来构造全局的关联分类器。实验结果表明该算法能够有效降低网络通信量,提高信息挖掘效率,同时保证剪枝的质量和规则的统计显著性,提高分类的精确性。 展开更多
关键词 频繁模式 条件模式 关联分类 显著度 分布式信息挖掘
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部