期刊文献+

满足非重叠条件的带有通配符序列模式挖掘 被引量:5

Sequential Pattern Mining with Wildcards and Non-overlapping Condition
下载PDF
导出
摘要 很多应用领域产生大量的序列数据,例如:基因序列,超市购买记录,股市交易数据,文本序列等.如何从这些序列数据中挖掘具有重要价值的模式已成为序列模式挖掘研究的主要任务.本文研究带有通配符的序列模式挖掘问题,给定支持度阈值和间隔约束,从序列数据库中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,模式中任意两个相邻元素在序列中的出现位置满足用户定义的间隔约束.本文设计一种基于层次图的带有通配符序列模式挖掘算法PMLG,利用层次图结构在多项式时间和空间复杂度内构建和存储模式在序列中满足间隔约束的所有出现位置,采用深度优先搜索策略对图进行遍历,计算模式的支持度,其中模式的任意两次出现的相同位置都不共享序列中同一位置的字符,即满足非重叠出现.在生物DNA序列上的实验表明,PMLG比相关的序列模式挖掘算法具有更好的时间性能和完备性. There is a huge wealth of sequence data available in real-world applications, for example, DNA sequences, customer pur- chase records, stock exchange rates, and text sequences. The task of sequential pattern mining is to mine important patterns from the sequence data. Given a certain threshold and gap constraints,we aim to discover frequent patterns from a sequence database whose supports are no less than the given threshold value. There are flexible wildcards in pattern P, and the number of the wildcards between any two successive elements of P fulfills the user-specified gap constraints. We design an efficient mining algorithm PMLG, whose mining process satisfies the non-overlapping condition under which each character in the given sequence can be used at most once by the same position of any two occurrences of a pattern. Experiments on DNA sequences show that our method has better performances in time and completeness than the related sequential pattern mining algorithms.
作者 谢飞 强继朋
出处 《小型微型计算机系统》 CSCD 北大核心 2017年第5期956-960,共5页 Journal of Chinese Computer Systems
基金 国家自然科学基金项目(61229301 61503116)资助 中国博士后科学基金项目(2013M541822)资助 安徽省高校省级自然科学研究项目(KJ2014A198)资助
关键词 序列模式 通配符 层次图 非重叠出现 sequential pattern wildcard level graph non-ovedapping occurrence
  • 相关文献

参考文献1

二级参考文献1

共引文献22

同被引文献22

引证文献5

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部