期刊文献+
共找到99篇文章
< 1 2 5 >
每页显示 20 50 100
基于多尺度的时序数据部分周期模式增量挖掘 被引量:2
1
作者 荀亚玲 王林青 +1 位作者 蔡江辉 杨海峰 《计算机应用》 CSCD 北大核心 2023年第2期391-397,共7页
针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题,提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法(MSI-PPPGrowth),所提算法充分利用了时序数据客观存在的时间多尺度特性,将多尺度理论引入时序数... 针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题,提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法(MSI-PPPGrowth),所提算法充分利用了时序数据客观存在的时间多尺度特性,将多尺度理论引入时序数据的部分周期模式挖掘过程。首先,将尺度划分后的原始数据以及增量时序数据作为更细粒度的基准尺度数据集进行独立挖掘;然后,利用不同尺度数据间的相关性实现尺度转换,以间接获取动态更新后的数据集对应的全局频繁模式,从而避免了原始数据集的重复扫描和树结构的不断调整。其中,基于克里金法并考虑时序周期性设计了一个新的频繁缺失计数估计模型(PJK-EstimateCount),以有效估计在尺度转换过程中的缺失项支持度计数。实验结果表明,MSI-PPPGrowth具有良好的可扩展性和实时性,尤其是对于稠密数据集,其性能优势更为突出。 展开更多
关键词 频繁项集挖掘 时序数据 部分周期模式 多尺度 增量挖掘
下载PDF
IncLOF:动态环境下局部异常的增量挖掘算法 被引量:32
2
作者 杨风召 朱扬勇 施伯乐 《计算机研究与发展》 EI CSCD 北大核心 2004年第3期477-484,共8页
异常检测是数据挖掘领域研究的最基本的问题之一 ,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用 以前的异常检测算法只适应于静态环境 ,在数据更新时需要进行重新计算 在基于密度的局部异常检测算法LOF的基础上 ,提... 异常检测是数据挖掘领域研究的最基本的问题之一 ,它在欺诈甄别、贷款审批、气象预报、客户分类等方面有广泛的应用 以前的异常检测算法只适应于静态环境 ,在数据更新时需要进行重新计算 在基于密度的局部异常检测算法LOF的基础上 ,提出一种在动态环境下局部异常挖掘的增量算法IncLOF ,当数据库中的数据更新时 ,只对受到影响的点进行重新计算 ,这样可以大大提高异常的挖掘速度 实验表明 ,在动态环境下IncLOF的运行时间远远小于LOF的运行时间 ,并且用户定义的邻域中的最小对象个数与记录数之比越小 。 展开更多
关键词 数据挖掘 异常检测 局部异常因子 局部可达密度 增量挖掘算法
下载PDF
Web数据挖掘中的增量挖掘 被引量:8
3
作者 何炎祥 陈 伟 +1 位作者 孔维强 张 戈 《计算机工程》 CAS CSCD 北大核心 2002年第4期67-69,共3页
为了高效及时地处理频繁新增的数据,在Web挖掘中引入增量挖掘的方法,并给出了一个Web关联规则增量挖掘的有效算法。
关键词 数据挖掘 WEB 增量挖掘 关联规则 数据库 INTERNET
下载PDF
改进的并行关联规则增量挖掘算法 被引量:6
4
作者 毛伊敏 邓千虎 +1 位作者 邓小鸿 刘蔚 《计算机应用研究》 CSCD 北大核心 2021年第10期2974-2980,共7页
针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PAR... 针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PARIRM(MapReduce-based parallel association rules incremental mining algorithm using rough set and merge pruning)。首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力。最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理。 展开更多
关键词 Can树 粗糙集 归并剪枝 大数据 增量挖掘
下载PDF
基于信息熵与遗传算法的并行关联规则增量挖掘算法 被引量:14
5
作者 毛伊敏 邓千虎 陈志刚 《通信学报》 EI CSCD 北大核心 2021年第5期122-136,共15页
针对大数据环境下基于Can树的增量关联规则算法存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG。首先,该算法设计基于... 针对大数据环境下基于Can树的增量关联规则算法存在树结构空间占用过大、支持度阈值无法动态设置以及Map与Reduce阶段数据传输耗时等问题,提出了一种基于信息熵和遗传算法的并行关联规则增量挖掘算法MR-PARIMIEG。首先,该算法设计基于信息熵的相似项合并策略(SIM-IE)来合并相似数据项,并根据合并后的数据集进行Can树构造,从而减少树结构的空间占用;其次,提出基于遗传算法的DST-GA策略获取大数据环境下相对最优的动态支持度阈值,根据此阈值进行频繁项集挖掘,避免了冗余的频繁模式挖掘导致的时间消耗;最后,在MapReduce并行化运算过程中使用并行LZO数据压缩算法对Map端输出数据进行压缩,从而减少传输的数据规模,最终提升算法的运行速度。实验仿真结果表明,MR-PARIMIEG在大数据环境下进行频繁项集挖掘时具有较好的性能表现,适用于对较大规模的数据集进行并行化处理。 展开更多
关键词 Can树 信息熵 大数据 增量挖掘 数据压缩
下载PDF
NPSP:一种高效的序列模式增量挖掘算法 被引量:4
6
作者 张兵 聂永红 林士敏 《广西师范大学学报(自然科学版)》 CAS 2004年第4期22-26,共5页
提出了一种称为"异构树"的数据结构,采用一套编号规则对异构树的分支进行编号,使具有相同编号的分支代表相同的候选序列,编号不同的分支代表不同的候选序列,极大地简化了候选集计数过程.在此基础上提出了具有增量挖掘功能的... 提出了一种称为"异构树"的数据结构,采用一套编号规则对异构树的分支进行编号,使具有相同编号的分支代表相同的候选序列,编号不同的分支代表不同的候选序列,极大地简化了候选集计数过程.在此基础上提出了具有增量挖掘功能的序列模式高效挖掘算法NPSP,并从理论分析和实验两方面证明了其挖掘结果集的完备性和算法的高效性. 展开更多
关键词 数据挖掘 序列模式 NPSP算法 增量挖掘
下载PDF
PFPonCanTree:一种基于MapReduce的并行频繁模式增量挖掘算法 被引量:8
7
作者 肖文 胡娟 周晓峰 《计算机工程与科学》 CSCD 北大核心 2018年第1期15-23,共9页
频繁模式挖掘是最重要的数据挖掘任务之一,传统的频繁模式挖掘算法是以"批处理"方式执行的,即一次性对所有数据进行挖掘,无法满足不断增长的大数据挖掘的需要。MapReduce是一种流行的并行计算模式,在并行数据挖掘领域已得到... 频繁模式挖掘是最重要的数据挖掘任务之一,传统的频繁模式挖掘算法是以"批处理"方式执行的,即一次性对所有数据进行挖掘,无法满足不断增长的大数据挖掘的需要。MapReduce是一种流行的并行计算模式,在并行数据挖掘领域已得到了广泛的应用。将传统频繁模式增量挖掘算法CanTree向MapReduce计算模型进行了迁移,实现了并行的频繁模式增量挖掘。实验结果表明,提出的算法实现了较好的负载均衡,执行效率有明显提升。 展开更多
关键词 数据挖掘 频繁模式挖掘 增量挖掘 MAPREDUCE HADOOP PFP
下载PDF
基于扩展自然序树的概化关联规则增量挖掘方法 被引量:8
8
作者 毛宇星 施伯乐 《计算机研究与发展》 EI CSCD 北大核心 2012年第3期598-606,共9页
概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易... 概化关联规则挖掘作为数据挖掘领域一个重要的拓展性研究课题,首先提出了一种概化扩展自然序树(generalized extended canonical-order tree,GECT)结构及其增量挖掘算法GECT-IM.该算法对原始分类事务数据库只扫描一次,就可以将所有交易信息映射至一棵压缩格式的GECT,然后通过对更新交易数据集扫描得到更新数据集中各项集的计数,结合相关性质及运算就可以发现大部分更新后的概化频繁项集;其次,针对GECT规模较大以及GECT-IM 算法仍然可能需要遍历初始GECT树的局限,在界定数据库更新和重构概念的基础上,基于一种可量化度量的准最小支持度阈值,提出了一种改进的准频繁概化扩展自然序树(pre-large generalized extended canonical-order tree,PGECT)结构及其增量挖掘算法PGECT-IM.由于有效避免了对初始GECT进行遍历的情形,从而进一步提升了概化关联规则增量挖掘效率.实验证明,提出的概化关联规则增量挖掘算法 GECT-IM 及其优化算法PGECT-IM,比现有增量挖掘算法具有更高的挖掘效率和更好的扩展性. 展开更多
关键词 分类数据 概化关联规则 增量挖掘 概化扩展自然序树 准频繁概化扩展自然序树
下载PDF
InClosPan:大型数据库中闭序列模式的增量挖掘 被引量:3
9
作者 白似雪 朱天 《南昌大学学报(理科版)》 CAS 北大核心 2008年第1期96-99,共4页
许多现实数据库都以增量形式增长,不希望在每次更新了数据库之后,又重新挖掘完整数据库,增量算法成为必需。研究了当初始数据库中增加了新的事务或增加了新的顾客时,增量挖掘闭序列模式的问题。给出了一个新的频繁闭序列模式增量挖掘算... 许多现实数据库都以增量形式增长,不希望在每次更新了数据库之后,又重新挖掘完整数据库,增量算法成为必需。研究了当初始数据库中增加了新的事务或增加了新的顾客时,增量挖掘闭序列模式的问题。给出了一个新的频繁闭序列模式增量挖掘算法InClosPan,该算法利用已得到的结果进行增量挖掘,减少了重新挖掘数据库的费用。 展开更多
关键词 闭序列模式 增量挖掘 数据挖掘
下载PDF
基于HFUFP-tree的增量挖掘算法研究 被引量:2
10
作者 邹海 朱四红 《计算机应用与软件》 CSCD 2011年第9期102-105,共4页
增量挖掘算法通常需要重复扫描原始数据库,现实中数据库大多很庞大且以增量形式增长,重新扫描数据库在挖掘过程中必然花费极高的成本。因此,研究一种不用重复扫描原始数据库的增量挖掘算法显得十分必要。提出一种新的算法,该算法以FUFP-... 增量挖掘算法通常需要重复扫描原始数据库,现实中数据库大多很庞大且以增量形式增长,重新扫描数据库在挖掘过程中必然花费极高的成本。因此,研究一种不用重复扫描原始数据库的增量挖掘算法显得十分必要。提出一种新的算法,该算法以FUFP-tree(Fast Updated FP-tree)为基础,基于趋频项集和小项集来修改FUFP-tree结构,建立一种新的在逻辑上有层次的HFUFP-tree(Hierarchical Fast Updated FP-tree)结构,该结构能将所有的交易记录压缩在一棵树中,在数据更新后不要任何重新扫描或重建树状结构,便能快速地挖掘关联规则。 展开更多
关键词 HFUFP-tree算法 增量挖掘 趋频项集 小项集
下载PDF
基于事务线索树的一次扫描关联规则增量挖掘算法 被引量:1
11
作者 业宁 董逸生 王厚立 《应用科学学报》 CAS CSCD 2004年第2期200-204,共5页
首先将事务数据库压缩存储到一棵事务线索树(TT-tree)的结点上,并建立这些结点的索引表,然后寻找结点索引表的最后结点到根结点的全部路径,这些路径及路径的交集包含了用于挖掘关联规则的频繁集.该算法只需扫描事务数据库一次,由于采用... 首先将事务数据库压缩存储到一棵事务线索树(TT-tree)的结点上,并建立这些结点的索引表,然后寻找结点索引表的最后结点到根结点的全部路径,这些路径及路径的交集包含了用于挖掘关联规则的频繁集.该算法只需扫描事务数据库一次,由于采用了逆向搜索TT-tree的方法,搜索的时间开销非常少.该算法可以挖掘中短模式的海量数据,具有很好的伸缩性,同时该算法具有增量挖掘的功能.通过大量的实验数据进行比较,该算法的速度约是Apriori算法的10倍. 展开更多
关键词 事务线索树 一次扫描关联规则 增量挖掘算法 可伸缩性 频繁集 事务数据库
下载PDF
面向电子商务的增量挖掘算法 被引量:1
12
作者 宁红云 刘金兰 《计算机工程》 CAS CSCD 北大核心 2007年第4期61-63,共3页
对商务信息挖掘理论进行了研究,给出了电子商务运作模式的定义、性质、定理及相关证明;提出了一种用于跟踪电子商务活动的数据模型,在模型中定义了网页监控点与商务指标之间的“点-集”映射关系,建立了商务网站的访问事件、网页中事先... 对商务信息挖掘理论进行了研究,给出了电子商务运作模式的定义、性质、定理及相关证明;提出了一种用于跟踪电子商务活动的数据模型,在模型中定义了网页监控点与商务指标之间的“点-集”映射关系,建立了商务网站的访问事件、网页中事先设定的监控点,以及商务工作流程之间的联系;根据这些研究结果对关联规则挖掘算法中的发现和剪枝过程进行改进,设计了面向电子商务的增量挖掘算法,并在第三方物流信息系统中实现。实践表明,该算法在频繁变化的数据集中的挖掘效率大大高于传统的非增量挖掘算法,基于智能Agent技术的商务信息挖掘模型有效地提高了电子商务的实时跟踪与分析能力。 展开更多
关键词 增量挖掘 电子商务 关联规则
下载PDF
一种存在全局站点的分布式增量挖掘算法
13
作者 徐红艳 陈锋 +1 位作者 张森林 冯勇 《辽宁大学学报(自然科学版)》 CAS 2013年第1期41-47,共7页
随着互联网技术的快速发展与普及,尤其是Web2.0时代的来临,网络数据量与日俱增.对新增数据进行挖掘成为数据挖掘领域研究的热点之一.基于存在全局站点的分布式数据挖掘思想,提出了一种存在全局站点的分布式增量挖掘算法.首先对局部站点... 随着互联网技术的快速发展与普及,尤其是Web2.0时代的来临,网络数据量与日俱增.对新增数据进行挖掘成为数据挖掘领域研究的热点之一.基于存在全局站点的分布式数据挖掘思想,提出了一种存在全局站点的分布式增量挖掘算法.首先对局部站点的增量数据进行全局挖掘,有效减少了局部站点对原有数据的扫描次数;然后在全局站点采用新的剪枝策略,极大地降低了产生的候选集数量;最后通过实例验证了所给算法切实可行,并具有较好的挖掘效率. 展开更多
关键词 增量挖掘 分布式数据库 全局站点 剪枝策略
下载PDF
基于项目位置索引的序贯模式增量挖掘方法
14
作者 梁铁柱 李德毅 宋云娴 《西安交通大学学报》 EI CAS CSCD 北大核心 2002年第10期1032-1036,共5页
通过前缀序列的引入 ,将搜索空间划分为若干个子空间 ,利用模式增量技术对序贯模式进行有效搜索 ,并提出了项目位置索引的概念 ,即将原始序列数据库信息转换到项目位置索引 (IPI)中 ,从而在搜索序贯模式时避免了复杂的多维候选序列的测... 通过前缀序列的引入 ,将搜索空间划分为若干个子空间 ,利用模式增量技术对序贯模式进行有效搜索 ,并提出了项目位置索引的概念 ,即将原始序列数据库信息转换到项目位置索引 (IPI)中 ,从而在搜索序贯模式时避免了复杂的多维候选序列的测试 ,仅需对各前缀序列对应的扩展的项目位置索引库(IPIDBs)做简单的序列数目累加操作 ,将复杂的高维序贯模式搜索问题巧妙地转换为一维频繁项目的搜索 ,降低了算法复杂度 。 展开更多
关键词 序贯模式 项目位置索引 模式增量挖掘 数据库 人工智能 知识挖掘 搜索空间
下载PDF
基于Mapreduce与关联分类挖掘的海量数据分类增量挖掘方法研究 被引量:2
15
作者 何波 《福建电脑》 2017年第4期20-20,33,共2页
海量数据的增量数据不断出现,须对已挖掘出的结果进行增量更新,而已有增量挖掘方法并不适合海量数据的增量挖掘。针对这个问题,将Map Reduce与关联分类挖掘相结合,提出基于Mapreduce与关联分类挖掘的海量数据分类增量挖掘方法。
关键词 MAPREDUCE 海量数据 分类增量挖掘
下载PDF
基于模式分解树的增量挖掘
16
作者 殷凯 黄树成 《常州工学院学报》 2005年第3期27-30,共4页
数据挖掘具有广泛的应用,频繁模式发现是关联规则挖掘问题的重要组成部分。频繁模式的增量挖掘是一个挑战性的任务,已有的几种基于Apriori思想的方法,具有代价太高的弱点。本文提出了一个基于模式分解树,不需要扫描原数据库的增量挖掘... 数据挖掘具有广泛的应用,频繁模式发现是关联规则挖掘问题的重要组成部分。频繁模式的增量挖掘是一个挑战性的任务,已有的几种基于Apriori思想的方法,具有代价太高的弱点。本文提出了一个基于模式分解树,不需要扫描原数据库的增量挖掘算法。通过合理地组织候选项索引,可以取得较高的效率。 展开更多
关键词 模式分解 APRIORI 关联规则挖掘 增量挖掘算法 数据挖掘 组成部分 模式发现 频繁模式 挑战性 数据库 地组织
下载PDF
一种改进的增量挖掘算法 被引量:4
17
作者 李春喜 赵雷 《计算机工程》 CAS CSCD 北大核心 2010年第24期42-44,共3页
Pre-FUFP算法基于次频繁项的概念有效处理了频繁模式树的更新,但当有次频繁项变成频繁项时,需要判定原数据库中哪些事务包含该数据项。为此,通过引入次频繁项对应原事务标识符的索引确定需要处理原数据库的事务,减少这一过程所消耗的时... Pre-FUFP算法基于次频繁项的概念有效处理了频繁模式树的更新,但当有次频繁项变成频繁项时,需要判定原数据库中哪些事务包含该数据项。为此,通过引入次频繁项对应原事务标识符的索引确定需要处理原数据库的事务,减少这一过程所消耗的时间,并用基于压缩FP-tree和矩阵技术代替原始FP-growth挖掘出频繁模式。实验证明该算法在时间效率上较Pre-FUFP有大幅度提高。 展开更多
关键词 频繁模式 次频繁项集 增量挖掘
下载PDF
流程增量挖掘中的模型更新方法 被引量:2
18
作者 马慧 汤庸 吴凌坤 《计算机科学》 CSCD 北大核心 2009年第5期154-157,共4页
正确发现流程实际运作情况对工作流管理有着重要的意义。流程挖掘抽取系统日志信息,挖掘流程的真实运作模型。目前很多该方面的研究,着重于从一份日志中挖掘出工作流模型。然而,这些挖掘方法只关注日志信息,忽略了流程设计者的先验知识... 正确发现流程实际运作情况对工作流管理有着重要的意义。流程挖掘抽取系统日志信息,挖掘流程的真实运作模型。目前很多该方面的研究,着重于从一份日志中挖掘出工作流模型。然而,这些挖掘方法只关注日志信息,忽略了流程设计者的先验知识。而且,日志所包含信息量较大,进行一次挖掘耗费较大。因此,希望能结合已有工作流模型及新增日志信息,更新工作流模型。已有研究给出对模型及日志的增量挖掘算法。但是,业务流程会随着时间推移变更,可能已有的任务被取消了,因此在新增的一段日志中该任务没被记录。但由于该任务曾经在已有日志中记录下来,故应用已有挖掘算法或增量挖掘算法,在更新模型中,该任务也会被挖掘出来。提出了一种增量挖掘模型更新的改进算法。通过流程设计者的先验知识及统计任务出现的频率,判断该任务是否被取消。最后给出一个实验,验证算法的可行性。 展开更多
关键词 流程挖掘 增量挖掘 工作流模型
下载PDF
一种具有增量挖掘功能的Web点击流聚类算法 被引量:1
19
作者 李晓明 夏秀峰 张斌 《沈阳大学学报》 CAS 2010年第3期8-10,共3页
分析了典型的聚类算法及其适用范围,针对其处理Web点击流数据的不足,提出了一种用于Web点击流的增量挖掘的聚类算法WCSCluster,给出了相关定义及存储结构,并用实例说明了算法的运行过程.最后对比同类算法给出实验结果.实验结果表明该算... 分析了典型的聚类算法及其适用范围,针对其处理Web点击流数据的不足,提出了一种用于Web点击流的增量挖掘的聚类算法WCSCluster,给出了相关定义及存储结构,并用实例说明了算法的运行过程.最后对比同类算法给出实验结果.实验结果表明该算法具有良好的性能,能够发现更优的簇. 展开更多
关键词 WEB使用挖掘 点击流 增量挖掘 聚类
下载PDF
状态转移模式的三支增量挖掘 被引量:2
20
作者 曾圣超 张智恒 +1 位作者 闵帆 张紫茵 《郑州大学学报(理学版)》 CAS 北大核心 2020年第1期16-23,共8页
针对动态多元时间序列(MTS)上的状态转移模式(STAP)挖掘问题,提出一种准确高效的三支增量挖掘算法(3IU-STAP)。该算法根据原始数据、已有频繁STAP和增量数据构造出候选模式,使用频繁阈值将其划分至正域、负域以及边界域。仅边界域中的... 针对动态多元时间序列(MTS)上的状态转移模式(STAP)挖掘问题,提出一种准确高效的三支增量挖掘算法(3IU-STAP)。该算法根据原始数据、已有频繁STAP和增量数据构造出候选模式,使用频繁阈值将其划分至正域、负域以及边界域。仅边界域中的候选模式需要延迟决策,即通过扫描数据集来判断其是否频繁。准确性方面,设计了增量数据补齐技术,获得候选模式实际出现次数。效率方面,使用了向下封闭性质来控制候选模式数量,尽可能减少对数据的扫描。在4个真实数据集上的实验结果表明,与非增量方法相比,3IU-STAP可以得到准确结果,同时显著提高效率。 展开更多
关键词 多元时序 三支决策 序列模式 增量挖掘
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部