-
题名免预设间隔约束的对比序列模式高效挖掘
被引量:15
- 1
-
-
作者
王慧锋
段磊
左劼
王文韬
李钟麒
唐常杰
-
机构
四川大学计算机学院
四川大学华西公共卫生学院
武汉大学软件工程国家重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第10期1979-1991,共13页
-
基金
国家自然科学基金(61103042)
教育部高等学校博士学科点专项科研基金(20100181120029)
+1 种基金
软件工程国家重点实验室开放研究基金(SKLSE2012-09-32)
中国博士后科学基金(2014M552371)资助
-
文摘
对比序列模式在识别不同类别序列样本集合的特征上有着重要的作用.已有对比序列模式挖掘算法需要用户预设间隔约束.在不具备充分先验知识情况下,用户不易准确地预设恰当的间隔约束,进而导致不能发现有用的模式.对此,文中设计了带紧凑间隔约束的最小对比序列模式挖掘算法,实现免预设间隔约束,并对候选模式自动计算最适合的间隔约束.此外,设计了3种剪枝策略来提高算法的执行效率.通过蛋白质序列、DNA序列、行为序列数据集验证了提出的算法的有效性和高效率.
-
关键词
对比序列模式
间隔约束
序列数据挖掘
-
Keywords
distinguishing sequential pattern
gap constraint
sequence data mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名去冗余Top-k对比序列模式挖掘
被引量:1
- 2
-
-
作者
江冰
谷飞洋
何增有
-
机构
大连理工大学软件学院
-
出处
《智能系统学报》
CSCD
北大核心
2018年第5期680-686,共7页
-
基金
国家自然科学基金项目(61572094)
大学生创新创业训练计划项目(2017101410901010382)
-
文摘
对比序列模式可以用来表征不同类别数据集之间的差异。在生物信息、物流管理、电子商务等领域,对比序列模式有着广泛的应用。Top-k对比序列模式挖掘的目标是发现数据集中对比度最高的前k个序列模式。在Top-k对比序列模式挖掘中,可能挖掘出冗余的序列模式。目前,虽然有Top-k对比序列模式发现算法被提出,但这些算法并未考虑冗余序列模式的问题。为此,本文提出了基于广度优先生成树的去冗余Top-k对比序列模式挖掘算法BFM(breadth-first miner)。使用BFM算法可以有效地解决冗余问题,得到去冗余的Top-k对比序列模式。在BFM算法的基础上,提出了性能更好的算法PBFM(pruning breadth-first miner)。通过在真实数据集上的实验分析与对比,验证了本文算法的有效性。
-
关键词
对比序列模式
广度优先
冗余序列模式
模式挖掘
TOP-K
-
Keywords
distinguishing sequential pattern
breadth-first
redundant sequential patterns
pattern mining
Top-k
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名面向对比序列模式发现的独立精确置换检验算法
被引量:3
- 3
-
-
作者
吴军
欧阳艾嘉
张琳
-
机构
遵义师范学院信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第8期45-53,61,共10页
-
基金
国家自然科学基金(61662090)
贵州省教育厅青年科技人才成长项目(黔教合KY字[2017]250)
+1 种基金
贵州省教育厅工程研究中心项目(黔教合KY字[2016]018)
贵州省科技厅联合基金(黔科合LH字[2017]7069)。
-
文摘
传统的对比序列模式挖掘算法存在一定数量的假阳性对比序列模式,其提供的错误信息会干扰后续任务的决策。设计一种IEP-DSP算法过滤假阳性对比序列模式。运用spade方法和WRAcc对比性度量找到候选对比序列模式和所有置换数据集合中的对比序列模式,通过模拟置换过程,使用独立精确置换检验方法为不同长度的模式建立独立精确零分布,并计算每个候选对比序列模式的精确p-value,运用错误发现率度量将各个长度的假阳性对比序列模式数量控制在置信度为α的统计显著水平下。在真实数据集和仿真数据集上的实验结果表明,IEP-DSP算法够过滤掉大量的假阳性对比序列模式,相比基于统计显著性检验的方法能保留更多的真对比序列模式,验证了独立精确置换检验相较于标准置换检验的优越性。
-
关键词
数据挖掘
模式发现
对比序列模式挖掘
统计显著性检验
独立精确置换检验
-
Keywords
data mining
pattern discovery
distinguishing sequential pattern mining
statistical significance testing
independent exact permutation testing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-