摘要
双聚类方法是当前分析基因表达数据的一个重要研究方向,其挖掘目标是发现哪些基因在哪些实验条件下具有相似的表达水平或者关系密切。目前已提出了许多双聚类算法来挖掘不同类型的双聚类,然而其大部分挖掘效率不高。鉴于此,提出了一个新颖的挖掘算法———MRCluster,其主要是用来从原始的基因表达数据中挖掘最大的行常量双聚类模式。就其挖掘效率来说,它采用的是基于Apriori原则的基因扩展深度优先的挖掘策略,并且在挖掘过程中引入了一些新颖的剪枝技术来提高效率。将MRCluster和一个行常量双聚类模式挖掘方法 RAP(range support pattern)算法进行比较,从实验结果上可以看出,相比RAP算法,MRCluster算法对在原始的基因表达数据中挖掘最大的行常量双聚类模式具有更好的效率。因此,MRCluster算法能够有效地从原始的基因表达数据中挖掘最大的行常量双聚类。
Biclustering is one of important techniques for gene expression data analysis. A bicluster is a set of genes coherently expressed for a set of biological conditions. Various bielustering algorithms have been proposed to find biclusters of different types. However, most of them are not efficient. This paper proposed a novel algorithm MRCluster to mine constant row biclusters from real-valued dataset. MRCluster used Apriori property and several novel pruning techniques to mine biclusters efficiently. This paper compared the proposed algorithm with a recent approach RAP. The experimental results show that MRClus- ter is much more efficient than RAP in mining biclusters with constant rows. As a result, MRCluster can efficiently find out constant row bieluster from real-valued gene expression data.
出处
《计算机应用研究》
CSCD
北大核心
2011年第12期4447-4450,共4页
Application Research of Computers
基金
国家自然科学基金资助项目(60703105)
西北工业大学基础研究基金资助项目(JC201042)
关键词
双聚类
原始数据
行常量双聚类
范围支持度
基因芯片
biclustering
real-valued data
constant row bicluster
range support
DNA microarray