如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on ...如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.展开更多
网络应用的发展,要求路由器必须有能力支持防火墙、入侵检测、提供 QoS、流量计费等一系列功能,这些功能都要求路由器对IP包进行分类来完成对数据包的不同处理。目前的包分类算法不适用于大规模的规则数据库。该文在现有的一种基于位...网络应用的发展,要求路由器必须有能力支持防火墙、入侵检测、提供 QoS、流量计费等一系列功能,这些功能都要求路由器对IP包进行分类来完成对数据包的不同处理。目前的包分类算法不适用于大规模的规则数据库。该文在现有的一种基于位串的包分类算法上做了两个改进,位串的聚合和过滤规则的重排列。从而生成了一种新的包分类机制-ABV(Aggregated Bit Vector)。通过评测可看出这种新的算法可以很好地应用在大规模规则数据库上,性能比原先有很大提升。展开更多
文摘如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.
文摘网络应用的发展,要求路由器必须有能力支持防火墙、入侵检测、提供 QoS、流量计费等一系列功能,这些功能都要求路由器对IP包进行分类来完成对数据包的不同处理。目前的包分类算法不适用于大规模的规则数据库。该文在现有的一种基于位串的包分类算法上做了两个改进,位串的聚合和过滤规则的重排列。从而生成了一种新的包分类机制-ABV(Aggregated Bit Vector)。通过评测可看出这种新的算法可以很好地应用在大规模规则数据库上,性能比原先有很大提升。