期刊文献+
共找到665篇文章
< 1 2 34 >
每页显示 20 50 100
Backward Support Computation Method for Positive and Negative Frequent Itemset Mining
1
作者 Mrinmoy Biswas Akash Indrani Mandal Md. Selim Al Mamun 《Journal of Data Analysis and Information Processing》 2023年第1期37-48,共12页
Association rules mining is a major data mining field that leads to discovery of associations and correlations among items in today’s big data environment. The conventional association rule mining focuses mainly on p... Association rules mining is a major data mining field that leads to discovery of associations and correlations among items in today’s big data environment. The conventional association rule mining focuses mainly on positive itemsets generated from frequently occurring itemsets (PFIS). However, there has been a significant study focused on infrequent itemsets with utilization of negative association rules to mine interesting frequent itemsets (NFIS) from transactions. In this work, we propose an efficient backward calculating negative frequent itemset algorithm namely EBC-NFIS for computing backward supports that can extract both positive and negative frequent itemsets synchronously from dataset. EBC-NFIS algorithm is based on popular e-NFIS algorithm that computes supports of negative itemsets from the supports of positive itemsets. The proposed algorithm makes use of previously computed supports from memory to minimize the computation time. In addition, association rules, i.e. positive and negative association rules (PNARs) are generated from discovered frequent itemsets using EBC-NFIS algorithm. The efficiency of the proposed algorithm is verified by several experiments and comparing results with e-NFIS algorithm. The experimental results confirm that the proposed algorithm successfully discovers NFIS and PNARs and runs significantly faster than conventional e-NFIS algorithm. 展开更多
关键词 Data mining Positive frequent itemset Negative frequent itemset Association Rule Backward Support
下载PDF
Frequent Itemset Mining of User’s Multi-Attribute under Local Differential Privacy 被引量:2
2
作者 Haijiang Liu Lianwei Cui +1 位作者 Xuebin Ma Celimuge Wu 《Computers, Materials & Continua》 SCIE EI 2020年第10期369-385,共17页
Frequent itemset mining is an essential problem in data mining and plays a key role in many data mining applications.However,users’personal privacy will be leaked in the mining process.In recent years,application of ... Frequent itemset mining is an essential problem in data mining and plays a key role in many data mining applications.However,users’personal privacy will be leaked in the mining process.In recent years,application of local differential privacy protection models to mine frequent itemsets is a relatively reliable and secure protection method.Local differential privacy means that users first perturb the original data and then send these data to the aggregator,preventing the aggregator from revealing the user’s private information.We propose a novel framework that implements frequent itemset mining under local differential privacy and is applicable to user’s multi-attribute.The main technique has bitmap encoding for converting the user’s original data into a binary string.It also includes how to choose the best perturbation algorithm for varying user attributes,and uses the frequent pattern tree(FP-tree)algorithm to mine frequent itemsets.Finally,we incorporate the threshold random response(TRR)algorithm in the framework and compare it with the existing algorithms,and demonstrate that the TRR algorithm has higher accuracy for mining frequent itemsets. 展开更多
关键词 Local differential privacy frequent itemset mining user’s multi-attribute
下载PDF
Mining φ-Frequent Itemset Using FP-Tree
3
作者 李天瑞 《Journal of Modern Transportation》 2001年第1期67-74,共8页
The problem of association rule mining has gained considerable prominence in the data mining community for its use as an important tool of knowledge discovery from large scale databases. And there has been a spurt of... The problem of association rule mining has gained considerable prominence in the data mining community for its use as an important tool of knowledge discovery from large scale databases. And there has been a spurt of research activities around this problem. However, traditional association rule mining may often derive many rules in which people are uninterested. This paper reports a generalization of association rule mining called φ association rule mining. It allows people to have different interests on different itemsets that arethe need of real application. Also, it can help to derive interesting rules and substantially reduce the amount of rules. An algorithm based on FP tree for mining φ frequent itemset is presented. It is shown by experiments that the proposed methodis efficient and scalable over large databases. 展开更多
关键词 data processing DATABASES φ association rule mining φ frequent itemset FP tree data mining
下载PDF
FPGA-Based Stream Processing for Frequent Itemset Mining with Incremental Multiple Hashes
4
作者 Kasho Yamamoto Masayuki Ikebe +1 位作者 Tetsuya Asai Masato Motomura 《Circuits and Systems》 2016年第10期3299-3309,共11页
With the advent of the IoT era, the amount of real-time data that is processed in data centers has increased explosively. As a result, stream mining, extracting useful knowledge from a huge amount of data in real time... With the advent of the IoT era, the amount of real-time data that is processed in data centers has increased explosively. As a result, stream mining, extracting useful knowledge from a huge amount of data in real time, is attracting more and more attention. It is said, however, that real- time stream processing will become more difficult in the near future, because the performance of processing applications continues to increase at a rate of 10% - 15% each year, while the amount of data to be processed is increasing exponentially. In this study, we focused on identifying a promising stream mining algorithm, specifically a Frequent Itemset Mining (FIsM) algorithm, then we improved its performance using an FPGA. FIsM algorithms are important and are basic data- mining techniques used to discover association rules from transactional databases. We improved on an approximate FIsM algorithm proposed recently so that it would fit onto hardware architecture efficiently. We then ran experiments on an FPGA. As a result, we have been able to achieve a speed 400% faster than the original algorithm implemented on a CPU. Moreover, our FPGA prototype showed a 20 times speed improvement compared to the CPU version. 展开更多
关键词 Data mining frequent itemset mining FPGA Stream Processing
下载PDF
基于滑动窗口含负项的高效用模式挖掘
5
作者 武妍 荀亚玲 马煜 《计算机工程与设计》 北大核心 2024年第3期845-851,共7页
针对传统高效用模式挖掘均未考虑项的效用值为负,以及对流数据处理的时效性问题,提出一种基于滑动窗口的高效用挖掘算法HUPN_SW。利用一种新定义的滑动窗口正负效用列表PNSWU-List,维护挖掘最近批次高效用模式集所需的所有信息,实现有... 针对传统高效用模式挖掘均未考虑项的效用值为负,以及对流数据处理的时效性问题,提出一种基于滑动窗口的高效用挖掘算法HUPN_SW。利用一种新定义的滑动窗口正负效用列表PNSWU-List,维护挖掘最近批次高效用模式集所需的所有信息,实现有效的逐批次挖掘,避免重复的数据库扫描,在不产生候选效用模式集的情况下,直接挖掘出高效用模式,使HUPN_SW有效适应于动态流数据。实验结果表明,HUPN_SW算法在运行时间和可扩展性方面有良好表现。 展开更多
关键词 频繁模式挖掘 滑动窗口 高效用模式挖掘 高效用项集 负效用 流数据 效用列表
下载PDF
基于Flag-Prefix-Tree的频繁模式挖掘改进算法
6
作者 蒋跃军 郑文 《浙江万里学院学报》 2024年第3期76-81,共6页
稀疏数据集上,条件FP-Tree无法有效压缩且频繁构造开销大,使用伪构造的问题是数据项目未经压缩和过滤导致额外的遍历代价。文章提出了一种简单而新颖的标志前缀树(Flag-Prefix-Tree)和一种新的挖掘稀疏数据集上频繁模式的算法FPT-Mine... 稀疏数据集上,条件FP-Tree无法有效压缩且频繁构造开销大,使用伪构造的问题是数据项目未经压缩和过滤导致额外的遍历代价。文章提出了一种简单而新颖的标志前缀树(Flag-Prefix-Tree)和一种新的挖掘稀疏数据集上频繁模式的算法FPT-Mine。通过Flag-Prefix-Tree中的flag,伪构造条件树可以巧妙地过滤不频繁项目。而且flag可以在挖掘过程中递归地重用,只有非常小的开销,但节省了遍历不频繁项目的大量开销。FPT-Mine以自上向下的顺序遍历Flag-Prefix-Tree,并为每个频繁模式创建一个临时根表(Root table)来伪构造条件树,这样就不需要在每个节点上维护父节点和兄弟节点的链接。此外,FPT-Mine在树上应用了合并技术,这使得FlagPrefix-Tree越来越小。研究表明,FPT-Mine在各种稀疏数据集中具有高性能和可扩展性。FPT-Mine在所有测试数据集中的性能都优于FP-growth,当最小支持度阈值降低时,算法之间的差距增大。 展开更多
关键词 数据挖掘 关联规则 频繁模式 频繁项目集
下载PDF
频繁项集挖掘研究前沿及展望
7
作者 张晴 谭旭 吕欣 《深圳信息职业技术学院学报》 2024年第1期1-14,共14页
频繁项集挖掘是数据挖掘领域的核心任务之一,其目标是发现在数据库中频繁出现的模式。这些模式对于关联规则、分类、异常检测等多个数据挖掘任务都具有重要作用。由于随着项集大小的增加,项集的组合数量呈指数级增长,导致计算复杂性急... 频繁项集挖掘是数据挖掘领域的核心任务之一,其目标是发现在数据库中频繁出现的模式。这些模式对于关联规则、分类、异常检测等多个数据挖掘任务都具有重要作用。由于随着项集大小的增加,项集的组合数量呈指数级增长,导致计算复杂性急剧上升,研究人员一直在努力开发高效的算法来解决这一问题。面向频繁项集挖掘的算法、紧凑表示和前沿应用,深入探讨不同技术的的工作原理、优势和局限性,从而对这一领域的研究现状进行全面总结。最后,进一步探讨了该领域的前沿发展趋势,指出计算效率、基于约束的频繁项集挖掘、模式的可解释性以及算法在不同领域的创新应用等未来潜在研究方向。 展开更多
关键词 频繁项集 数据挖掘 模式增长 关联规则
下载PDF
中医药辨治糖尿病心脏病用药规律分析
8
作者 陈丽霞 郭苗苗 +4 位作者 李儒婷 彭剑飞 张惠玲 王靓 施慧 《陕西中医药大学学报》 2024年第3期74-81,共8页
目的基于现代文献探究糖尿病心脏病的用药规律。方法检索中国知网(CNKI)、中国生物医学文献数据库(CBM)等数据库建库至2021年12月收录的有关中药辨治糖尿病心脏病的文献。分别使用Lantern 5.0、Weka 3.8.5软件,对药物及症状进行隐结构... 目的基于现代文献探究糖尿病心脏病的用药规律。方法检索中国知网(CNKI)、中国生物医学文献数据库(CBM)等数据库建库至2021年12月收录的有关中药辨治糖尿病心脏病的文献。分别使用Lantern 5.0、Weka 3.8.5软件,对药物及症状进行隐结构分析以及药物与药物、药物与证型、药物与症状的频繁项集分析。结果共计文献131篇。数据挖掘分析常用症状51项,包括苔白、面色少华、头晕等;药物使用145味,包括丹参、麦冬、黄芪等;药物功效有补虚、活血化瘀、清热等。药物隐结构模型得到包括补益肝肾、涩精固脱等4类隐类;症状隐结构模型得到气虚、阴虚、阳虚、痰湿等证素。挖掘出药物-药物频繁项集12项,包括川芎+麦冬+丹参等;药物-证型频繁项集17项,其中包括肉桂+五味子+阴阳两虚等;药物-症状频繁项集12项,包括瓜蒌+大便溏+苔白等。结论中药辨治糖尿病心脏病以调补心肾、健脾益气为主,并根据具体证型予以用药,可为临床干预糖尿病心脏病提供参考依据。 展开更多
关键词 糖尿病 心脏病 数据挖掘 隐结构 频繁项集 用药规律
下载PDF
混合属性网络多维多层关联数据智能挖掘算法
9
作者 段雪莹 《智能计算机与应用》 2024年第3期207-211,共5页
针对传统关联数据挖掘算法,强项集挖掘后产生大量候选项集,导致挖掘耗时长、挖掘精度低等问题,提出一种混合属性网络多维多层关联数据智能挖掘算法(Multidimensional Multilayer Associative Data Intelligent Mining Algorithm,MMAD-IM... 针对传统关联数据挖掘算法,强项集挖掘后产生大量候选项集,导致挖掘耗时长、挖掘精度低等问题,提出一种混合属性网络多维多层关联数据智能挖掘算法(Multidimensional Multilayer Associative Data Intelligent Mining Algorithm,MMAD-IM)。计算混合属性网络中随机数据到簇中心的距离,将目标数据分配到距离簇中心最近的簇中,使簇中心固定,完成混合属性网络数据的聚类分析。从聚类完成的数据中提取出有效的基本频繁向量,同时计算数据的候选项集,对哈希表进行扫描,利用改进Apriori算法完成强项集挖掘。以此为基础构建空间关系,获取近似区域与近似点之间的距离,形成待挖掘数据并计算数据的隶属度数值,完成智能挖掘。实验结果表明,所提算法具有较好的数据聚类效果,强项集挖掘后剩余的候选项集数量较少,整体数据挖掘耗时远低于传统算法,挖掘精度高达90%。 展开更多
关键词 多维多层关联数据 聚类 基本频繁向量 强项集 挖掘
下载PDF
Hadamard Encoding Based Frequent Itemset Mining under Local Differential Privacy 被引量:1
10
作者 赵丹 赵素云 +3 位作者 陈红 刘睿瑄 李翠平 张晓莹 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第6期1403-1422,共20页
Local differential privacy(LDP)approaches to collecting sensitive information for frequent itemset mining(FIM)can reliably guarantee privacy.Most current approaches to FIM under LDP add"padding and sampling"... Local differential privacy(LDP)approaches to collecting sensitive information for frequent itemset mining(FIM)can reliably guarantee privacy.Most current approaches to FIM under LDP add"padding and sampling"steps to obtain frequent itemsets and their frequencies because each user transaction represents a set of items.The current state-of-the-art approach,namely set-value itemset mining(SVSM),must balance variance and bias to achieve accurate results.Thus,an unbiased FIM approach with lower variance is highly promising.To narrow this gap,we propose an Item-Level LDP frequency oracle approach,named the Integrated-with-Hadamard-Transform-Based Frequency Oracle(IHFO).For the first time,Hadamard encoding is introduced to a set of values to encode all items into a fixed vector,and perturbation can be subsequently applied to the vector.An FIM approach,called optimized united itemset mining(O-UISM),is pro-posed to combine the padding-and-sampling-based frequency oracle(PSFO)and the IHFO into a framework for acquiring accurate frequent itemsets with their frequencies.Finally,we theoretically and experimentally demonstrate that O-UISM significantly outperforms the extant approaches in finding frequent itemsets and estimating their frequencies under the same privacy guarantee. 展开更多
关键词 local differential privacy frequent itemset mining frequency oracle
原文传递
A Fast Distributed Algorithm for Association Rule Mining Based on Binary Coding Mapping Relation
11
作者 CHEN Geng NI Wei-wei +1 位作者 ZHU Yu-quan SUN Zhi-hui 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期27-30,共4页
Association rule mining is an important issue in data mining. The paper proposed an binary system based method to generate candidate frequent itemsets and corresponding supporting counts efficiently, which needs only ... Association rule mining is an important issue in data mining. The paper proposed an binary system based method to generate candidate frequent itemsets and corresponding supporting counts efficiently, which needs only some operations such as "and", "or" and "xor". Applying this idea in the existed distributed association rule mining al gorithm FDM, the improved algorithm BFDM is proposed. The theoretical analysis and experiment testify that BFDM is effective and efficient. 展开更多
关键词 frequent itemsets distributed association rule mining relation of itemsets-binary data
下载PDF
基于多尺度的时序数据部分周期模式增量挖掘 被引量:2
12
作者 荀亚玲 王林青 +1 位作者 蔡江辉 杨海峰 《计算机应用》 CSCD 北大核心 2023年第2期391-397,共7页
针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题,提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法(MSI-PPPGrowth),所提算法充分利用了时序数据客观存在的时间多尺度特性,将多尺度理论引入时序数... 针对动态时序数据部分周期模式挖掘过程存在的计算复杂度过高和扩展性差等问题,提出了一种结合多尺度理论的时间序列部分周期模式挖掘算法(MSI-PPPGrowth),所提算法充分利用了时序数据客观存在的时间多尺度特性,将多尺度理论引入时序数据的部分周期模式挖掘过程。首先,将尺度划分后的原始数据以及增量时序数据作为更细粒度的基准尺度数据集进行独立挖掘;然后,利用不同尺度数据间的相关性实现尺度转换,以间接获取动态更新后的数据集对应的全局频繁模式,从而避免了原始数据集的重复扫描和树结构的不断调整。其中,基于克里金法并考虑时序周期性设计了一个新的频繁缺失计数估计模型(PJK-EstimateCount),以有效估计在尺度转换过程中的缺失项支持度计数。实验结果表明,MSI-PPPGrowth具有良好的可扩展性和实时性,尤其是对于稠密数据集,其性能优势更为突出。 展开更多
关键词 频繁项集挖掘 时序数据 部分周期模式 多尺度 增量挖掘
下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:2
13
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 Spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
下载PDF
抗恶意敌手的保密关联挖掘方案
14
作者 刘新 徐阳 +2 位作者 李宝山 弓彦章 罗丹 《计算机工程与设计》 北大核心 2023年第11期3258-3265,共8页
为防止在数据挖掘中泄漏隐私数据,利用安全多方计算在数据挖掘中对隐私数据进行保密计算,得到正确结果,保证隐私数据的安全。大多数的安全多方计算模型是半诚实模型,而在现实生活中难免存在恶意行为,分析现有保密关联挖掘方案中可能存... 为防止在数据挖掘中泄漏隐私数据,利用安全多方计算在数据挖掘中对隐私数据进行保密计算,得到正确结果,保证隐私数据的安全。大多数的安全多方计算模型是半诚实模型,而在现实生活中难免存在恶意行为,分析现有保密关联挖掘方案中可能存在的恶意行为,基于零知识证明和分割-选择等方法,设计抗恶意敌手的保密关联挖掘方案。通过与现有方案对比,验证了协议可有效避免或发现恶意行为,具有较高的安全性和实用性。 展开更多
关键词 隐私保护 关联挖掘 频繁项集 安全多方计算 恶意模型 零知识证明 分割-选择
下载PDF
基于遗传算法的生物启发频繁项集挖掘策略
15
作者 赵学健 赵可 《计算机科学》 CSCD 北大核心 2023年第S02期624-631,共8页
精确频繁项集挖掘算法时间效率低下,在处理大规模数据集时力不从心。针对该问题,提出一种基于遗传算法的频繁项集挖掘策略GAA-FIM(Genetic Algorithm combining Apriori property based Frequent Itemset Mining),给出了编码操作、交叉... 精确频繁项集挖掘算法时间效率低下,在处理大规模数据集时力不从心。针对该问题,提出一种基于遗传算法的频繁项集挖掘策略GAA-FIM(Genetic Algorithm combining Apriori property based Frequent Itemset Mining),给出了编码操作、交叉操作、变异操作和选择操作的详细操作规则。该算法将遗传算法与精确频繁项集挖掘算法的向下闭包特性融合,改进了传统的有性繁殖的交叉操作方式,将具有良好遗传基因的个体优先加入到新一代候选种群中,并通过变异操作扩展新一代候选种群的规模,以提升算法的时间效率,获取更佳质量的频繁项集。基于合成数据集和真实数据集对GAA-FIM算法的性能进行了验证,实验结果表明GAA-FIM算法与GAFIM和GA-Apriori等算法相比具有更好的时间效率,频繁项集质量也得到了进一步提升。 展开更多
关键词 频繁项集 遗传算法 生物启发 向下闭包特性 数据挖掘
下载PDF
面向知识图谱的规则挖掘研究综述 被引量:2
16
作者 刘洪波 陈越 +2 位作者 卢记仓 侯雪梅 杨奎武 《计算机工程与应用》 CSCD 北大核心 2023年第14期30-38,共9页
面向知识图谱的规则挖掘是从知识图谱中抽取出隐含的规则知识,应用于知识图谱补全、去噪、数据解释等问题,具有准确度高、可解释性强的优势。综述近年来知识图谱领域规则挖掘方法的最新研究进展,详细介绍了基于路径遍历、频繁项集和表... 面向知识图谱的规则挖掘是从知识图谱中抽取出隐含的规则知识,应用于知识图谱补全、去噪、数据解释等问题,具有准确度高、可解释性强的优势。综述近年来知识图谱领域规则挖掘方法的最新研究进展,详细介绍了基于路径遍历、频繁项集和表示学习的规则挖掘方法,分析各类不同方法的特点、性能和存在问题,同时对规则的质量评估函数进行归纳总结,并探讨和展望了该领域未来的研究方向和前景。 展开更多
关键词 知识图谱 规则挖掘 规则质量评估 路径遍历 表示学习 频繁项集
下载PDF
风电数据标准化技术及风电大数据应用方法 被引量:1
17
作者 谭建鑫 谢前 +2 位作者 井延伟 赵晓楠 李鹏飞 《微型电脑应用》 2023年第2期89-92,96,共5页
为了解决风电系统中多源异构数据类型不一致的问题,研究建立企业仓库和大数据平台系统,基于分布式架构实现并行查询和分析引擎,实现海量风电数据分布式存储和计算。大数据平台提供基于Mapreduce、Spark等技术的多种大数据计算引擎,支持J... 为了解决风电系统中多源异构数据类型不一致的问题,研究建立企业仓库和大数据平台系统,基于分布式架构实现并行查询和分析引擎,实现海量风电数据分布式存储和计算。大数据平台提供基于Mapreduce、Spark等技术的多种大数据计算引擎,支持Java、Scala、R、Python等多种语言,应内嵌常用算法库。采用Rational Rose建模工具建立风电数据标准化模型,建立具有层级关系的风电数据类的结构。使用IEC61400-25的信息模型与不同的业务系统数据通讯及系统整合,基于数据库的频繁项集挖掘和关联规则学习的Apriori算法完成频繁项集挖掘任务。实验结果显示,本研究数据处理加速度可达到16,数据标准化效率较高。 展开更多
关键词 数据标准化体系 大数据平台系统 标准化模型 信息模型 频繁项集挖掘
下载PDF
数据立方体与频繁项集的统一计算框架研究
18
作者 徐静文 游进国 +2 位作者 王全鹍 黄星瑞 贾连印 《计算机学报》 EI CAS CSCD 北大核心 2023年第4期780-802,共23页
数据立方体和频繁项集挖掘分别是数据仓库和数据挖掘领域的重要技术,已开展了大量的相关研究工作,取得了较好的进展.数据立方体和频繁项集挖掘依据各自的数据单元和项集构造了类似的代数格(Lattice)结构;数据立方体的等价类上界单元与... 数据立方体和频繁项集挖掘分别是数据仓库和数据挖掘领域的重要技术,已开展了大量的相关研究工作,取得了较好的进展.数据立方体和频繁项集挖掘依据各自的数据单元和项集构造了类似的代数格(Lattice)结构;数据立方体的等价类上界单元与频繁项集挖掘的闭项集也是相对应的.如果能够论证二者的统一性,则可以为彼此提供更广泛的研究思路,有利于两种技术的相互促进,如:在数据库中利用冰山立方体计算实现频繁项集挖掘来避免数据迁移、利用频繁项集挖掘算法优化数据立方体计算等.之前的工作没有将二者系统地结合起来研究,也没有建立二者之间较为完整的联系.本文在深入研究数据立方体的计算和频繁项集挖掘的过程后,将二者有效地结合在一起,提出了统一的计算框架,给出了二者众多计算性质和方法之间的映射关系,进行了相关概念泛化,具体地建立了冰山立方体、浓缩立方体和商立方体等主要数据立方体计算与相应频繁项集挖掘方法的对应关系.通过算法和实验进一步论证统一计算的有效性:(1)将频繁项集挖掘事务集导入关系数据库,用冰山立方体计算方式进行频繁项集挖掘,从而在数据库中用标准的或扩展的SQL可以实现对关系表进行频繁项集挖掘;(2)验证了浓缩立方体与频繁项集挖掘的统一性并对比了计算效率;(3)将基本表转换为频繁项集挖掘事务集,引入高效的频繁项集挖掘算法LCM计算商立方体,以提升数据立方体计算效率.在公开的真实数据集和人工合成的数据集上验证二者结合、统一计算的正确性,通过改变元组数、维数和倾斜度进行对比验证有效性.实验发现,在大数据集上可令时间效率提升高达92%. 展开更多
关键词 数据立方体 频繁项集挖掘 格结构 统一计算方法 计算效率
下载PDF
基于ESCS剪枝策略的闭频繁项集挖掘算法 被引量:1
19
作者 刘文杰 杨海军 《吉林大学学报(信息科学版)》 CAS 2023年第2期329-337,共9页
由于在现有的闭频繁项集挖掘算法中,剪枝策略相对单一,大都是针对1-项集进行剪枝,对2-项集和n-项集(n≥3)的剪枝策略相对匮乏,而有效的剪枝策略可以提前发现并剪掉大量没有希望的项集,因此改进闭频繁项集的剪枝策略对此类算法效率的提... 由于在现有的闭频繁项集挖掘算法中,剪枝策略相对单一,大都是针对1-项集进行剪枝,对2-项集和n-项集(n≥3)的剪枝策略相对匮乏,而有效的剪枝策略可以提前发现并剪掉大量没有希望的项集,因此改进闭频繁项集的剪枝策略对此类算法效率的提升具有很大的帮助。为此在ESCS(Estimated Support Co-occurrence Structure)结构基础上,提出针对2-项集的ESCS剪枝策略,并应用其将经典闭频繁项集挖掘算法DCI_Closed(Direct Count Intersect Closed)改进为DCI_ESCS(Direct Count Intersect Estimated Support Co-occurrence Structure)算法,同时对ESCS剪枝策略的效果加以验证。在多个公开数据集上、不同最小支持度阈值下,对改进前后算法时间性能进行比较实验。实验结果表明,改进的DCI_ESCS算法在事务和项集较长的、较稠密的数据集上表现良好,时间效率均有一定程度的提高。 展开更多
关键词 闭频繁项集 剪枝策略 数据挖掘
下载PDF
Parallel Incremental Frequent Itemset Mining for Large Data 被引量:5
20
作者 Yu-Geng Song Hui-Min Cui Xiao-Bing Feng 《Journal of Computer Science & Technology》 SCIE EI CSCD 2017年第2期368-385,共18页
Frequent itemset mining (FIM) is a popular data mining issue adopted in many fields, such as commodity recommendation in the retail industry, log analysis in web searching, and query recommendation (or related sea... Frequent itemset mining (FIM) is a popular data mining issue adopted in many fields, such as commodity recommendation in the retail industry, log analysis in web searching, and query recommendation (or related search). A large number of FIM algorithms have been proposed to obtain better performance, including parallelized algorithms for processing large data volumes. Besides, incremental FIM algorithms are also proposed to deal with incremental database updates. However, most of these incremental algorithms have low parallelism, causing low efficiency on huge databases. This paper presents two parallel incremental FIM algorithms called IncMiningPFP and IncBuildingPFP, implemented on the MapReduce framework. IncMiningPFP preserves the FP-tree mining results of the original pass, and utilizes them for incremental calculations. In particular, we propose a method to generate a partial FP-tree in the incremental pass, in order to avoid unnecessary mining work. Further, some of the incremental parallel tasks can be omitted when the inserted transactions include fewer items. IncbuildingPFP preserves the CanTrees built in the original pass, and then adds new transactions to them during the incremental passes. Our experimental results show that IncMiningPFP can achieve significant speedup over PFP (Parallel FPGrowth) and a sequential incremental algorithm (CanTree) in most cases of incremental input database, and in other cases IncBuildingPFP can achieve it. 展开更多
关键词 incremental parallel FPGrowth data mining frequent itemset mining MAPREDUCE
原文传递
上一页 1 2 34 下一页 到第
使用帮助 返回顶部