如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on ...如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.展开更多
目的探索针刺治疗膝骨关节炎(KOA)的辨证选穴规律。方法检索中国知识资源总库(CNKI)、中国学术期刊数据库(万方数据)、中文科技期刊数据库(重庆维普)、中国生物医学文献数据库(CBM)、PubMed、Embase、Web of Science、Cochrane Library...目的探索针刺治疗膝骨关节炎(KOA)的辨证选穴规律。方法检索中国知识资源总库(CNKI)、中国学术期刊数据库(万方数据)、中文科技期刊数据库(重庆维普)、中国生物医学文献数据库(CBM)、PubMed、Embase、Web of Science、Cochrane Library建库至2022年11月9日针刺辨证选穴治疗KOA相关文献,提取证型、症状、选穴信息构建数据库,利用Lantern5.0及Weka3.9.6软件,采用隐结构模型、聚类分析及频繁项集对辨证选穴规律进行分析。结果纳入文献95篇,涉及患者5458例,包含症状141个,其中高频症状为活动受限、疼痛、重着等;主要证型有阳虚寒凝、风寒湿痹、肝肾亏虚、气滞血瘀证。“症状-腧穴”频繁项集5项,包括“重着+活动受限+昼轻夜重”-“阳陵泉+犊鼻”等;“证型-症状-腧穴”频繁项集4项,包括“气滞血瘀”-“刺痛+痛有定处+活动受限”-“血海+梁丘+内膝眼”等。结论肝肾亏虚及风寒湿痹是KOA的常见证型,针刺治疗KOA多以内膝眼、犊鼻、阳陵泉、梁丘、足三里为主穴,临床辨证配穴。展开更多
频繁项集挖掘是数据挖掘中的一个基本问题,在许多数据挖掘应用中发挥着重要作用。针对并行频繁项集挖掘算法MrPrePost在大数据环境存在密集数据集下算法效率下降、计算节点负载量不均衡和冗余搜索等问题,提出了基于N-lists和DiffNodese...频繁项集挖掘是数据挖掘中的一个基本问题,在许多数据挖掘应用中发挥着重要作用。针对并行频繁项集挖掘算法MrPrePost在大数据环境存在密集数据集下算法效率下降、计算节点负载量不均衡和冗余搜索等问题,提出了基于N-lists和DiffNodeset两种结构的并行频繁项集挖掘算法(Parallel Mining algorithm of Frequent Itemset based on N-list and DiffNodeset structure,PFIMND)。首先,根据N-list和DiffNodeset在存储不同数据集上的优势,设计了稀疏度估计函数(Sparsity Estimation,SE),根据数据集稀疏程度灵活选取其中之一压缩数据集,相比采用单一存储结构消耗的内存更少;其次,提出了计算量估计函数(Computation Estimation,CE)来估计频繁1项集F-list中每一项的负载量,并根据计算量进行均匀分组;最后采用集合枚举树作为搜索空间,为避免组合爆炸和冗余搜索问题,设计了超集剪枝策略和基于宽度优先搜索的剪枝策略,生成最终的挖掘结果。实验结果表明,相比同类算法HP-FIMBN,PFIMND算法在Susy数据集上挖掘频繁项集的效果提升了12.3%。展开更多
文摘如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.
文摘目的探索针刺治疗膝骨关节炎(KOA)的辨证选穴规律。方法检索中国知识资源总库(CNKI)、中国学术期刊数据库(万方数据)、中文科技期刊数据库(重庆维普)、中国生物医学文献数据库(CBM)、PubMed、Embase、Web of Science、Cochrane Library建库至2022年11月9日针刺辨证选穴治疗KOA相关文献,提取证型、症状、选穴信息构建数据库,利用Lantern5.0及Weka3.9.6软件,采用隐结构模型、聚类分析及频繁项集对辨证选穴规律进行分析。结果纳入文献95篇,涉及患者5458例,包含症状141个,其中高频症状为活动受限、疼痛、重着等;主要证型有阳虚寒凝、风寒湿痹、肝肾亏虚、气滞血瘀证。“症状-腧穴”频繁项集5项,包括“重着+活动受限+昼轻夜重”-“阳陵泉+犊鼻”等;“证型-症状-腧穴”频繁项集4项,包括“气滞血瘀”-“刺痛+痛有定处+活动受限”-“血海+梁丘+内膝眼”等。结论肝肾亏虚及风寒湿痹是KOA的常见证型,针刺治疗KOA多以内膝眼、犊鼻、阳陵泉、梁丘、足三里为主穴,临床辨证配穴。
文摘频繁项集挖掘是数据挖掘中的一个基本问题,在许多数据挖掘应用中发挥着重要作用。针对并行频繁项集挖掘算法MrPrePost在大数据环境存在密集数据集下算法效率下降、计算节点负载量不均衡和冗余搜索等问题,提出了基于N-lists和DiffNodeset两种结构的并行频繁项集挖掘算法(Parallel Mining algorithm of Frequent Itemset based on N-list and DiffNodeset structure,PFIMND)。首先,根据N-list和DiffNodeset在存储不同数据集上的优势,设计了稀疏度估计函数(Sparsity Estimation,SE),根据数据集稀疏程度灵活选取其中之一压缩数据集,相比采用单一存储结构消耗的内存更少;其次,提出了计算量估计函数(Computation Estimation,CE)来估计频繁1项集F-list中每一项的负载量,并根据计算量进行均匀分组;最后采用集合枚举树作为搜索空间,为避免组合爆炸和冗余搜索问题,设计了超集剪枝策略和基于宽度优先搜索的剪枝策略,生成最终的挖掘结果。实验结果表明,相比同类算法HP-FIMBN,PFIMND算法在Susy数据集上挖掘频繁项集的效果提升了12.3%。