期刊文献+
共找到1,318篇文章
< 1 2 66 >
每页显示 20 50 100
Backward Support Computation Method for Positive and Negative Frequent Itemset Mining
1
作者 Mrinmoy Biswas Akash Indrani Mandal Md. Selim Al Mamun 《Journal of Data Analysis and Information Processing》 2023年第1期37-48,共12页
Association rules mining is a major data mining field that leads to discovery of associations and correlations among items in today’s big data environment. The conventional association rule mining focuses mainly on p... Association rules mining is a major data mining field that leads to discovery of associations and correlations among items in today’s big data environment. The conventional association rule mining focuses mainly on positive itemsets generated from frequently occurring itemsets (PFIS). However, there has been a significant study focused on infrequent itemsets with utilization of negative association rules to mine interesting frequent itemsets (NFIS) from transactions. In this work, we propose an efficient backward calculating negative frequent itemset algorithm namely EBC-NFIS for computing backward supports that can extract both positive and negative frequent itemsets synchronously from dataset. EBC-NFIS algorithm is based on popular e-NFIS algorithm that computes supports of negative itemsets from the supports of positive itemsets. The proposed algorithm makes use of previously computed supports from memory to minimize the computation time. In addition, association rules, i.e. positive and negative association rules (PNARs) are generated from discovered frequent itemsets using EBC-NFIS algorithm. The efficiency of the proposed algorithm is verified by several experiments and comparing results with e-NFIS algorithm. The experimental results confirm that the proposed algorithm successfully discovers NFIS and PNARs and runs significantly faster than conventional e-NFIS algorithm. 展开更多
关键词 Data Mining Positive Frequent itemset Negative Frequent itemset Association Rule Backward Support
下载PDF
基于滑动窗口含负项的高效用模式挖掘
2
作者 武妍 荀亚玲 马煜 《计算机工程与设计》 北大核心 2024年第3期845-851,共7页
针对传统高效用模式挖掘均未考虑项的效用值为负,以及对流数据处理的时效性问题,提出一种基于滑动窗口的高效用挖掘算法HUPN_SW。利用一种新定义的滑动窗口正负效用列表PNSWU-List,维护挖掘最近批次高效用模式集所需的所有信息,实现有... 针对传统高效用模式挖掘均未考虑项的效用值为负,以及对流数据处理的时效性问题,提出一种基于滑动窗口的高效用挖掘算法HUPN_SW。利用一种新定义的滑动窗口正负效用列表PNSWU-List,维护挖掘最近批次高效用模式集所需的所有信息,实现有效的逐批次挖掘,避免重复的数据库扫描,在不产生候选效用模式集的情况下,直接挖掘出高效用模式,使HUPN_SW有效适应于动态流数据。实验结果表明,HUPN_SW算法在运行时间和可扩展性方面有良好表现。 展开更多
关键词 频繁模式挖掘 滑动窗口 高效用模式挖掘 高效用项集 负效用 流数据 效用列表
下载PDF
数据流上的约束跨层级高效用项集挖掘
3
作者 刘淑娟 韩萌 +2 位作者 高智慧 穆栋梁 李昂 《计算机工程与应用》 CSCD 北大核心 2024年第13期287-300,共14页
传统的高效用项集挖掘算法无法发现不同抽象层级类别之间的关系。因此,有研究者提出了跨层级的高效用项集挖掘算法。针对当前跨层级的高效用项集挖掘算法仅能处理静态数据并且无法控制挖掘层级范围的问题,提出了一种动态类别列表结构DTU... 传统的高效用项集挖掘算法无法发现不同抽象层级类别之间的关系。因此,有研究者提出了跨层级的高效用项集挖掘算法。针对当前跨层级的高效用项集挖掘算法仅能处理静态数据并且无法控制挖掘层级范围的问题,提出了一种动态类别列表结构DTUL存储并维护窗口内的项集效用和类别信息。基于此结构,首次提出了基于滑动窗口的约束跨层级高效用项集挖掘算法,包括自下而上挖掘的CCLHM_DTU算法和自上而下挖掘的CCLHM_UTD算法。在含有类别信息的数据集上进行了大量实验,实验结果表明提出的算法能够有效处理数据流并灵活约束项集的层级范围。 展开更多
关键词 高效用项集挖掘 跨层级高效用项集 数据流 滑动窗口 效用列表
下载PDF
HHUIM:一种新的启发式高效用项集挖掘方法
4
作者 高智慧 韩萌 +2 位作者 李昂 刘淑娟 穆栋梁 《计算机应用研究》 CSCD 北大核心 2024年第1期94-101,共8页
针对基于启发式的高效用项集挖掘算法在挖掘过程中可能丢失大量项集的问题,提出一种新的启发式高效用项集挖掘算法HHUIM。HHUIM利用哈里斯鹰优化算法进行种群更新,能够有效减少项集丢失。提出并设计了鹰的替换策略,解决了搜索空间较大... 针对基于启发式的高效用项集挖掘算法在挖掘过程中可能丢失大量项集的问题,提出一种新的启发式高效用项集挖掘算法HHUIM。HHUIM利用哈里斯鹰优化算法进行种群更新,能够有效减少项集丢失。提出并设计了鹰的替换策略,解决了搜索空间较大的问题,降低了适应度函数值低于最小效用阈值的鹰的数量。此外,提出存储回溯策略,可有效防止算法因收敛过快陷入局部最优。大量的实验表明,所提算法优于目前最先进的启发式高效用项集挖掘算法。 展开更多
关键词 哈里斯鹰优化算法 高效用项集挖掘 启发式算法 智能优化算法
下载PDF
高效的一次性弱间隙序列模式挖掘算法
5
作者 杨鸿茜 武优西 +2 位作者 耿萌 刘靖宇 李艳 《计算机工程》 CAS CSCD 北大核心 2024年第3期60-67,共8页
间隙约束序列模式挖掘作为序列模式挖掘的一个重要分支,可以发现模式在序列中的重复出现。然而,当前研究主要针对单项序列进行挖掘,并且序列中每一项都被认为具有相同意义。为解决该问题,提出一次性弱间隙序列模式挖掘(OWP)算法,该算法... 间隙约束序列模式挖掘作为序列模式挖掘的一个重要分支,可以发现模式在序列中的重复出现。然而,当前研究主要针对单项序列进行挖掘,并且序列中每一项都被认为具有相同意义。为解决该问题,提出一次性弱间隙序列模式挖掘(OWP)算法,该算法由准备阶段、支持度计算和候选模式生成3个步骤组成。在准备阶段,建立倒排索引,并对不频繁的项进行剪枝;在支持度计算方面,利用倒排索引结构记录出现位置,避免对原始数据集的重复扫描;在候选模式生成方面,采用模式连接策略,减少冗余候选模式的生成。在项集序列和单项序列共6个真实数据集上的实验结果表明,OWP算法相比OWP-p、Ows-OWP和OWP-e算法在运行时间上分别提升了2.653、1.348、3.592倍,在内存消耗上分别减少了3.51%、0.07%、5%,说明OWP算法可以更高效地挖掘出用户感兴趣的模式。此外,OWP算法在以D1数据集为基础的6倍大小的数据集上的运行时间比D1数据集增长了3.763倍,内存消耗增长了2.310倍,运行时间和内存消耗的增加倍数均小于数据集大小的增加倍数,说明OWP算法具有良好的可扩展性。 展开更多
关键词 序列模式挖掘 项集挖掘 间隙约束 一次性条件 弱间隙约束
下载PDF
基于Flag-Prefix-Tree的频繁模式挖掘改进算法
6
作者 蒋跃军 郑文 《浙江万里学院学报》 2024年第3期76-81,共6页
稀疏数据集上,条件FP-Tree无法有效压缩且频繁构造开销大,使用伪构造的问题是数据项目未经压缩和过滤导致额外的遍历代价。文章提出了一种简单而新颖的标志前缀树(Flag-Prefix-Tree)和一种新的挖掘稀疏数据集上频繁模式的算法FPT-Mine... 稀疏数据集上,条件FP-Tree无法有效压缩且频繁构造开销大,使用伪构造的问题是数据项目未经压缩和过滤导致额外的遍历代价。文章提出了一种简单而新颖的标志前缀树(Flag-Prefix-Tree)和一种新的挖掘稀疏数据集上频繁模式的算法FPT-Mine。通过Flag-Prefix-Tree中的flag,伪构造条件树可以巧妙地过滤不频繁项目。而且flag可以在挖掘过程中递归地重用,只有非常小的开销,但节省了遍历不频繁项目的大量开销。FPT-Mine以自上向下的顺序遍历Flag-Prefix-Tree,并为每个频繁模式创建一个临时根表(Root table)来伪构造条件树,这样就不需要在每个节点上维护父节点和兄弟节点的链接。此外,FPT-Mine在树上应用了合并技术,这使得FlagPrefix-Tree越来越小。研究表明,FPT-Mine在各种稀疏数据集中具有高性能和可扩展性。FPT-Mine在所有测试数据集中的性能都优于FP-growth,当最小支持度阈值降低时,算法之间的差距增大。 展开更多
关键词 数据挖掘 关联规则 频繁模式 频繁项目集
下载PDF
频繁项集挖掘研究前沿及展望
7
作者 张晴 谭旭 吕欣 《深圳信息职业技术学院学报》 2024年第1期1-14,共14页
频繁项集挖掘是数据挖掘领域的核心任务之一,其目标是发现在数据库中频繁出现的模式。这些模式对于关联规则、分类、异常检测等多个数据挖掘任务都具有重要作用。由于随着项集大小的增加,项集的组合数量呈指数级增长,导致计算复杂性急... 频繁项集挖掘是数据挖掘领域的核心任务之一,其目标是发现在数据库中频繁出现的模式。这些模式对于关联规则、分类、异常检测等多个数据挖掘任务都具有重要作用。由于随着项集大小的增加,项集的组合数量呈指数级增长,导致计算复杂性急剧上升,研究人员一直在努力开发高效的算法来解决这一问题。面向频繁项集挖掘的算法、紧凑表示和前沿应用,深入探讨不同技术的的工作原理、优势和局限性,从而对这一领域的研究现状进行全面总结。最后,进一步探讨了该领域的前沿发展趋势,指出计算效率、基于约束的频繁项集挖掘、模式的可解释性以及算法在不同领域的创新应用等未来潜在研究方向。 展开更多
关键词 频繁项集 数据挖掘 模式增长 关联规则
下载PDF
中医药辨治糖尿病心脏病用药规律分析
8
作者 陈丽霞 郭苗苗 +4 位作者 李儒婷 彭剑飞 张惠玲 王靓 施慧 《陕西中医药大学学报》 2024年第3期74-81,共8页
目的基于现代文献探究糖尿病心脏病的用药规律。方法检索中国知网(CNKI)、中国生物医学文献数据库(CBM)等数据库建库至2021年12月收录的有关中药辨治糖尿病心脏病的文献。分别使用Lantern 5.0、Weka 3.8.5软件,对药物及症状进行隐结构... 目的基于现代文献探究糖尿病心脏病的用药规律。方法检索中国知网(CNKI)、中国生物医学文献数据库(CBM)等数据库建库至2021年12月收录的有关中药辨治糖尿病心脏病的文献。分别使用Lantern 5.0、Weka 3.8.5软件,对药物及症状进行隐结构分析以及药物与药物、药物与证型、药物与症状的频繁项集分析。结果共计文献131篇。数据挖掘分析常用症状51项,包括苔白、面色少华、头晕等;药物使用145味,包括丹参、麦冬、黄芪等;药物功效有补虚、活血化瘀、清热等。药物隐结构模型得到包括补益肝肾、涩精固脱等4类隐类;症状隐结构模型得到气虚、阴虚、阳虚、痰湿等证素。挖掘出药物-药物频繁项集12项,包括川芎+麦冬+丹参等;药物-证型频繁项集17项,其中包括肉桂+五味子+阴阳两虚等;药物-症状频繁项集12项,包括瓜蒌+大便溏+苔白等。结论中药辨治糖尿病心脏病以调补心肾、健脾益气为主,并根据具体证型予以用药,可为临床干预糖尿病心脏病提供参考依据。 展开更多
关键词 糖尿病 心脏病 数据挖掘 隐结构 频繁项集 用药规律
下载PDF
混合属性网络多维多层关联数据智能挖掘算法
9
作者 段雪莹 《智能计算机与应用》 2024年第3期207-211,共5页
针对传统关联数据挖掘算法,强项集挖掘后产生大量候选项集,导致挖掘耗时长、挖掘精度低等问题,提出一种混合属性网络多维多层关联数据智能挖掘算法(Multidimensional Multilayer Associative Data Intelligent Mining Algorithm,MMAD-IM... 针对传统关联数据挖掘算法,强项集挖掘后产生大量候选项集,导致挖掘耗时长、挖掘精度低等问题,提出一种混合属性网络多维多层关联数据智能挖掘算法(Multidimensional Multilayer Associative Data Intelligent Mining Algorithm,MMAD-IM)。计算混合属性网络中随机数据到簇中心的距离,将目标数据分配到距离簇中心最近的簇中,使簇中心固定,完成混合属性网络数据的聚类分析。从聚类完成的数据中提取出有效的基本频繁向量,同时计算数据的候选项集,对哈希表进行扫描,利用改进Apriori算法完成强项集挖掘。以此为基础构建空间关系,获取近似区域与近似点之间的距离,形成待挖掘数据并计算数据的隶属度数值,完成智能挖掘。实验结果表明,所提算法具有较好的数据聚类效果,强项集挖掘后剩余的候选项集数量较少,整体数据挖掘耗时远低于传统算法,挖掘精度高达90%。 展开更多
关键词 多维多层关联数据 聚类 基本频繁向量 强项集 挖掘
下载PDF
基于并行式频繁项集的党政收费平台
10
作者 郭振华 孙艳青 王中兴 《电子设计工程》 2024年第5期31-36,共6页
为提高党政收费时效性与信息化管理水平,基于并行式频繁项集挖掘算法开发高效率、智能化的党政收费管理平台。基于云计算技术构建党政收费管理平台的总体架构,提供云缴费、党建教育学习、党建宣传等信息化功能。在Spark分布式计算框架... 为提高党政收费时效性与信息化管理水平,基于并行式频繁项集挖掘算法开发高效率、智能化的党政收费管理平台。基于云计算技术构建党政收费管理平台的总体架构,提供云缴费、党建教育学习、党建宣传等信息化功能。在Spark分布式计算框架上构建Spark集群,构造党政收费频繁项集挖掘矩阵,根据矩阵行列间运算获得频繁k项集支持度,利用“主-从”节点模式实现并行式频繁项集挖掘,获得党政收费管理信息分类结果。测试结果显示,该平台各功能最大平均响应时长仅为1.51 s,挖掘党政收费信息频繁项集的时间开销短、推荐非空率高,呈现了良好的频繁项集挖掘效率与质量。该平台助力优化党政费用交纳工作模式,为党员管理的信息化、智能化提供支持。 展开更多
关键词 并行式 云计算 频繁项集 Spark平台 挖掘 党政收费
下载PDF
改进关联规则算法在自然资源云中的应用研究
11
作者 李佳临 邬阳 +3 位作者 魏奇 赵雯雯 李芳芳 陈卉 《时空信息学报》 2024年第1期140-147,共8页
针对自然资源信息管理分散、网络安全防御能力弱,以及难以追踪溯源威胁攻击行为等问题,本研究在自然资源云中建立了一套安全防护体系,用以整合网络安全资源,强化网络安全态势感知能力,做到攻击敏捷预测、快速回溯。安全防护体系工作效... 针对自然资源信息管理分散、网络安全防御能力弱,以及难以追踪溯源威胁攻击行为等问题,本研究在自然资源云中建立了一套安全防护体系,用以整合网络安全资源,强化网络安全态势感知能力,做到攻击敏捷预测、快速回溯。安全防护体系工作效能的提升,核心在于其安全组件检测引擎模块中关联规则算法的改进。首先,在数据采集阶段,通过预处理将威胁告警数据转换为可供机器处理的标准数据格式;其次,在矩阵计算阶段,使用Map Reduce分布式计算框架提升频繁项集的处理效率;最后,以Apriori算法为蓝本,通过单次扫描锁定频繁k项集范围、矩阵向量内积运算、减少冗余候选项集生成三项措施进行算法改进。实验仿真表明:在处理同样容量网络安全多源数据集合,并在相同维度的关联规则矩阵下,本算法处理效率较经典Apriori算法提升3倍以上;随着输入数据集合瞬时容量的逐渐扩增,本算法的时间复杂度稳定,并为增量挖掘算法的一半以下。研究成果可以实现自然资源部网络安全防护工作从传统的“被动挨打”转向“主动防御”的新局面。 展开更多
关键词 自然资源云 关联规则 MAPREDUCE 频繁项集 APRIORI 网络安全
下载PDF
高平均模糊效用项集挖掘算法
12
作者 王斌 李晓华 +1 位作者 周伟 胡克勇 《计算机工程与设计》 北大核心 2024年第5期1398-1405,共8页
为解决高模糊效用项集挖掘算法中存在的挖掘结果中含有大量无效的长项集以及搜索空间过大的问题,提出一种高平均模糊效用项集挖掘算法HAFUIM(high average fuzzy utility itemset mining algorithm)。定义平均模糊效用,考虑项集的模糊... 为解决高模糊效用项集挖掘算法中存在的挖掘结果中含有大量无效的长项集以及搜索空间过大的问题,提出一种高平均模糊效用项集挖掘算法HAFUIM(high average fuzzy utility itemset mining algorithm)。定义平均模糊效用,考虑项集的模糊效用和长度的关系,解决倾向于挖掘长项集的问题;提出平均模糊上限模型和4种剪枝性质,缩小搜索空间;设计平均模糊列表结构用于存储必要的效用信息,减少数据库扫描次数。通过仿真实验验证了所提算法的可行性和高效性。 展开更多
关键词 数据挖掘 项集挖掘 高模糊效用 平均模糊效用 平均模糊上限模型 平均模糊列表 剪枝策略
下载PDF
电炉企业异构网络共享数据跨级高效项集挖掘系统
13
作者 孙丽君 《工业加热》 CAS 2024年第3期55-58,78,共5页
由于电炉企业数据存在多级结构,且数据量庞大,为解决因数据库中事务长度过大导致的数据项挖掘深度较差的问题,从而提升数据的跨级传输和项集挖掘能力,设计电炉企业异构网络共享数据跨级高效项集挖掘系统。在电炉企业异构网络体系中,根... 由于电炉企业数据存在多级结构,且数据量庞大,为解决因数据库中事务长度过大导致的数据项挖掘深度较差的问题,从而提升数据的跨级传输和项集挖掘能力,设计电炉企业异构网络共享数据跨级高效项集挖掘系统。在电炉企业异构网络体系中,根据MP共享节点定义标准,完善AP数据分片原则,再利用获取到的共享数据样本,确定高效项集的RCAUL调用方案,实现对数据样本的挖掘需求分析,完成电炉企业异构网络共享数据跨级高效项集挖掘系统的设计。实验结果表明,应用所设计系统可将事务长度控制在0~512 kB,能够有效增强电炉企业网络共享数据跨级传输能力。 展开更多
关键词 电炉企业异构网络 共享数据 跨级传输 高效项集 逻辑分析 MP节点 AP分片 RCAUL调用
下载PDF
基于PrefixSpan和LightGBM的网元拓扑连接关系判别方法
14
作者 倪晋宇 涂泾伦 +2 位作者 杨天昊 陈晓峰 白云飞 《数字通信世界》 2024年第1期41-44,89,共5页
文章创新地提出了一种基于PrefixSpan和LightGBM的网元拓扑连接关系判别的方法,采用PrefixSpan算法对告警数据进行抽取挖掘,然后将挖掘结果进行分析并将分析结果输入到LightGBM中进行监督学习,获得最终网元拓扑连接关系判定模型。实验... 文章创新地提出了一种基于PrefixSpan和LightGBM的网元拓扑连接关系判别的方法,采用PrefixSpan算法对告警数据进行抽取挖掘,然后将挖掘结果进行分析并将分析结果输入到LightGBM中进行监督学习,获得最终网元拓扑连接关系判定模型。实验结果表明:本方法在基站及相关网元拓扑连接关系的推断中f1值达到了0.89,有效提升了网元拓扑连接关系判别的准确度,为网元拓扑连接关系校正提供了有力手段,为数字孪生网络构建打下坚实的基础。 展开更多
关键词 数字孪生网络 频繁项集 时序 网元拓扑连接 机器学习
下载PDF
Double-layer Bayesian Classifier Ensembles Based on Frequent Itemsets 被引量:3
15
作者 Wei-Guo Yi Jing Duan Ming-Yu Lu 《International Journal of Automation and computing》 EI 2012年第2期215-220,共6页
Numerous models have been proposed to reduce the classification error of Naive Bayes by weakening its attribute independence assumption and some have demonstrated remarkable error performance. Considering that ensembl... Numerous models have been proposed to reduce the classification error of Naive Bayes by weakening its attribute independence assumption and some have demonstrated remarkable error performance. Considering that ensemble learning is an effective method of reducing the classifmation error of the classifier, this paper proposes a double-layer Bayesian classifier ensembles (DLBCE) algorithm based on frequent itemsets. DLBCE constructs a double-layer Bayesian classifier (DLBC) for each frequent itemset the new instance contained and finally ensembles all the classifiers by assigning different weight to different classifier according to the conditional mutual information. The experimental results show that the proposed algorithm outperforms other outstanding algorithms. 展开更多
关键词 Double-layer Bayesian CLASSIFIER frequent itemsets conditional mutual information support.
下载PDF
Frequent Itemset Mining of User’s Multi-Attribute under Local Differential Privacy 被引量:2
16
作者 Haijiang Liu Lianwei Cui +1 位作者 Xuebin Ma Celimuge Wu 《Computers, Materials & Continua》 SCIE EI 2020年第10期369-385,共17页
Frequent itemset mining is an essential problem in data mining and plays a key role in many data mining applications.However,users’personal privacy will be leaked in the mining process.In recent years,application of ... Frequent itemset mining is an essential problem in data mining and plays a key role in many data mining applications.However,users’personal privacy will be leaked in the mining process.In recent years,application of local differential privacy protection models to mine frequent itemsets is a relatively reliable and secure protection method.Local differential privacy means that users first perturb the original data and then send these data to the aggregator,preventing the aggregator from revealing the user’s private information.We propose a novel framework that implements frequent itemset mining under local differential privacy and is applicable to user’s multi-attribute.The main technique has bitmap encoding for converting the user’s original data into a binary string.It also includes how to choose the best perturbation algorithm for varying user attributes,and uses the frequent pattern tree(FP-tree)algorithm to mine frequent itemsets.Finally,we incorporate the threshold random response(TRR)algorithm in the framework and compare it with the existing algorithms,and demonstrate that the TRR algorithm has higher accuracy for mining frequent itemsets. 展开更多
关键词 Local differential privacy frequent itemset mining user’s multi-attribute
下载PDF
A novel algorithm for frequent itemset mining in data warehouses 被引量:2
17
作者 徐利军 谢康林 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2006年第2期216-224,共9页
Current technology for frequent itemset mining mostly applies to the data stored in a single transaction database. This paper presents a novel algorithm MultiClose for frequent itemset mining in data warehouses. Multi... Current technology for frequent itemset mining mostly applies to the data stored in a single transaction database. This paper presents a novel algorithm MultiClose for frequent itemset mining in data warehouses. MultiClose respectively computes the results in single dimension tables and merges the results with a very efficient approach. Close itemsets technique is used to improve the performance of the algorithm. The authors propose an efficient implementation for star schemas in which their al- gorithm outperforms state-of-the-art single-table algorithms. 展开更多
关键词 数据仓库 数据挖掘 频率项集 闭项集
下载PDF
FICW: Frequent Itemset Based Text Clustering with Window Constraint
18
作者 ZHOU Chong LU Yansheng ZOU Lei HU Rong 《Wuhan University Journal of Natural Sciences》 CAS 2006年第5期1345-1351,共7页
Most of the existing text clustering algorithms overlook the fact that one document is a word sequence with semantic information. There is some important semantic information existed in the positions of words in the s... Most of the existing text clustering algorithms overlook the fact that one document is a word sequence with semantic information. There is some important semantic information existed in the positions of words in the sequence. In this paper, a novel method named Frequent Itemset-based Clustering with Window (FICW) was proposed, which makes use of the semantic information for text clustering with a window constraint. The experimental results obtained from tests on three (hypertext) text sets show that FICW outperforms the method compared in both clustering accuracy and efficiency. 展开更多
关键词 text clustering frequent itemsets search engine
下载PDF
Mining φ-Frequent Itemset Using FP-Tree
19
作者 李天瑞 《Journal of Modern Transportation》 2001年第1期67-74,共8页
The problem of association rule mining has gained considerable prominence in the data mining community for its use as an important tool of knowledge discovery from large scale databases. And there has been a spurt of... The problem of association rule mining has gained considerable prominence in the data mining community for its use as an important tool of knowledge discovery from large scale databases. And there has been a spurt of research activities around this problem. However, traditional association rule mining may often derive many rules in which people are uninterested. This paper reports a generalization of association rule mining called φ association rule mining. It allows people to have different interests on different itemsets that arethe need of real application. Also, it can help to derive interesting rules and substantially reduce the amount of rules. An algorithm based on FP tree for mining φ frequent itemset is presented. It is shown by experiments that the proposed methodis efficient and scalable over large databases. 展开更多
关键词 data processing DATABASES φ association rule mining φ frequent itemset FP tree data mining
下载PDF
基于改进关联聚类算法的网络异常数据挖掘 被引量:7
20
作者 周燕 肖莉 《计算机工程与设计》 北大核心 2023年第1期108-115,共8页
为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格... 为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。 展开更多
关键词 关联规则 兴趣度 离群点 聚类 频繁项集 特征提取 异常数据
下载PDF
上一页 1 2 66 下一页 到第
使用帮助 返回顶部