针对现有的跨级高效用项集挖掘(HUIM)算法非常耗时且占用大量内存的问题,提出一种基于数据索引结构的跨级高效用项集挖掘算法(DISCH)。首先,为了高效存储和快速检索到搜索空间中的所有项集,拓展带有分类信息和索引信息的效用链表为数据...针对现有的跨级高效用项集挖掘(HUIM)算法非常耗时且占用大量内存的问题,提出一种基于数据索引结构的跨级高效用项集挖掘算法(DISCH)。首先,为了高效存储和快速检索到搜索空间中的所有项集,拓展带有分类信息和索引信息的效用链表为数据索引结构(DIS);然后,为了提高内存利用率,对不满足条件的效用链表所占的内存进行回收再分配;最后,在构建效用链表时使用提前结束策略,以减少效用链表的产生。基于真实零售数据集和合成数据集进行的实验结果表明,与CLH-Miner(Cross-Level High utility itemsets Miner)算法相比,DISCH在运行时间上平均降低了77.6%,同时在内存消耗上平均降低了73.3%,可见该算法能高效完成跨级高效用项集的搜索,并且降低算法的内存消耗。展开更多
为了挖掘满足用户特殊需求,如含指定项目数量的高效用项集(HUI),提出一种基于长度约束的蝙蝠高效用项集挖掘算法(HUIM-LC-BA)。该算法融合蝙蝠算法(BA)和长度约束构建高效用项集挖掘(HUIM)模型,首先将数据库转换为位图矩阵,实现高效的...为了挖掘满足用户特殊需求,如含指定项目数量的高效用项集(HUI),提出一种基于长度约束的蝙蝠高效用项集挖掘算法(HUIM-LC-BA)。该算法融合蝙蝠算法(BA)和长度约束构建高效用项集挖掘(HUIM)模型,首先将数据库转换为位图矩阵,实现高效的效用计算和数据库扫描;其次,采用重新定义的事务加权效用(RTWU)策略缩减搜索空间;最后,对项集进行长度修剪,使用深度优先搜索和轮盘赌注选择法确定修剪项目。在4个数据集的仿真实验中,当最大长度为6时,与HUIM-BA相比,HUIM-LC-BA挖掘的模式数量分别减少了91%、98%、99%与97%,同时运行时间也少于HUIM-BA;且在不同长度约束条件下,与FHM+(Faster High-utility itemset Ming plus)算法相比运行时间更稳定。实验结果表明,HUIM-LC-BA能有效挖掘具有长度约束的HUI,并减少挖掘模式的数量。展开更多
文摘针对现有的跨级高效用项集挖掘(HUIM)算法非常耗时且占用大量内存的问题,提出一种基于数据索引结构的跨级高效用项集挖掘算法(DISCH)。首先,为了高效存储和快速检索到搜索空间中的所有项集,拓展带有分类信息和索引信息的效用链表为数据索引结构(DIS);然后,为了提高内存利用率,对不满足条件的效用链表所占的内存进行回收再分配;最后,在构建效用链表时使用提前结束策略,以减少效用链表的产生。基于真实零售数据集和合成数据集进行的实验结果表明,与CLH-Miner(Cross-Level High utility itemsets Miner)算法相比,DISCH在运行时间上平均降低了77.6%,同时在内存消耗上平均降低了73.3%,可见该算法能高效完成跨级高效用项集的搜索,并且降低算法的内存消耗。
文摘为了挖掘满足用户特殊需求,如含指定项目数量的高效用项集(HUI),提出一种基于长度约束的蝙蝠高效用项集挖掘算法(HUIM-LC-BA)。该算法融合蝙蝠算法(BA)和长度约束构建高效用项集挖掘(HUIM)模型,首先将数据库转换为位图矩阵,实现高效的效用计算和数据库扫描;其次,采用重新定义的事务加权效用(RTWU)策略缩减搜索空间;最后,对项集进行长度修剪,使用深度优先搜索和轮盘赌注选择法确定修剪项目。在4个数据集的仿真实验中,当最大长度为6时,与HUIM-BA相比,HUIM-LC-BA挖掘的模式数量分别减少了91%、98%、99%与97%,同时运行时间也少于HUIM-BA;且在不同长度约束条件下,与FHM+(Faster High-utility itemset Ming plus)算法相比运行时间更稳定。实验结果表明,HUIM-LC-BA能有效挖掘具有长度约束的HUI,并减少挖掘模式的数量。