-
题名带有间隔约束的多序列模式挖掘
- 1
-
-
作者
王华东
杨杰
李亚娟
-
机构
郑州轻工业学院现代教育技术中心
-
出处
《计算机应用》
CSCD
北大核心
2014年第9期2612-2616,2634,共6页
-
基金
国家自然科学基金资助项目(61201447)
河南省教育厅科学技术重点研究项目(14A520061)
-
文摘
研究这样一个问题:给定多序列、支持度阈值和间隔约束,从多序列中挖掘所有出现次数不小于支持度阈值的频繁序列模式,这里要求模式中任意两个相邻元素在序列中的出现都要满足用户自定义的间隔约束,并且模式在序列中的出现要满足one-off条件。在解决该问题上,已有算法M-OneOffMine在计算模式的支持度时,只考虑模式的每个字符在序列中的首次出现,导致计算的模式支持度远小于其真实支持度,以致许多频繁的模式没有被挖掘出来。为此,设计了一个有效的带有间隔约束的多序列模式挖掘算法——MMSP算法:首先,通过采用二维表保存模式的候选位置;然后,根据候选位置采用最左最优的思想选择匹配位置。通过生物DNA序列进行实验,多序列中元素序列数目不变而序列长度变化时,MMSP挖掘出的频繁模式总数是同类算法M-OneOffMine的3.23倍;在元素序列个数变化时,MMSP挖掘出的频繁模式个数平均是M-OneOffMine的4.11倍;这两种情况下MMSP都有更好的时间性能。在模式长度变化时,MMSP挖掘出的频繁模式个数分别平均是M-OneOffMine的2.21倍和MPP的5.24倍。同时还验证了M-OneOffMine挖掘到的模式是MMSP挖掘到的频繁的子集。实验结果表明,MMSP算法不仅可以挖掘到更多的频繁模式,而且时间花费更少,更适合于实际的应用。
-
关键词
多序列模式挖掘
间隔约束
频繁模式
one-off条件
-
Keywords
multiple sequential patterns mining
gap constraint
frequent pattern
one-off condition
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-