-
题名基于隐马尔可夫模型的二次k-均值基因序列聚类算法
- 1
-
-
作者
吴君浩
骆嘉伟
王艳
杨涛
杨旭
-
机构
湖南大学计算机与通信学院
湖南师范大学生命科学学院
-
出处
《计算机工程与科学》
CSCD
2007年第3期54-56,共3页
-
基金
湖南省自然科学基金资助项目(03jjy3095)
-
文摘
本文提出了一种基于隐马尔可夫模型的二次k-均值聚类算法并实现了对基因序列数据的建模与聚类。算法首先引入了同源基因序列核苷酸比率趋向于一致的生物学特征来对基因序列数据进行初次k-均值聚类,然后利用第一次聚类结果训练出表征序列特征的隐马尔可夫模型,最后采用基于模型的k-均值方法再次聚类。实验结果表明,该算法是可行的,并且具有较好的聚类质量。
-
关键词
隐马尔可夫模型
基因序列
建模
K-均值聚类
-
Keywords
HMM
gene sequences
modeling
k-mean clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名利用遗传特征实现微生物基因序列聚类分析
- 2
-
-
作者
吴君浩
骆嘉伟
赵蕊
-
机构
湖南大学计算机与通信学院
中南大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第20期164-166,共3页
-
基金
湖南省自然科学基金资助项目(编号:03jjy3095)
-
文摘
文章提出了一种使用微生物遗传特征来进行基因序列聚类的方法。该方法首先从每条基因序列中划分出若干个等差长度的采样片断,然后利用各采样片断的遗传特征DNA(G+C)mol%值来作为基因序列聚类的依据。试验结果表明该方法是可行的,并且具有较好的聚类质量。
-
关键词
微生物
(G+C)mol%
基因序列
K-均值聚类
-
Keywords
microorganism, (G+C)mol%,gene sequences,K-mean clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于马氏距离的缺失值填充算法
被引量:24
- 3
-
-
作者
杨涛
骆嘉伟
王艳
吴君浩
-
机构
湖南大学计算机与通信学院
-
出处
《计算机应用》
CSCD
北大核心
2005年第12期2868-2871,共4页
-
基金
湖南省自然科学基金(03JJY3095)
-
文摘
提出了一种基于马氏距离的填充算法来估计基因表达数据集中的缺失数据。该算法通过基因之间的马氏距离来选择最近邻居基因,并将已得到的估计值应用到后续的估计过程中,然后采用信息论中熵值的概念计算最近邻居的加权系数,得到缺失数据的填充值。实验结果证明了该算法具有有效性,其性能优于其他基于最近邻居法的缺失值处理算法。
-
关键词
微阵列
缺失值估计
马氏距离
信息熵
-
Keywords
microarray
missing value estimation
Mahalanobis distance
entropy
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种结合完全连接的改进Apriori算法
被引量:4
- 4
-
-
作者
骆嘉伟
王艳
杨涛
吴君浩
-
机构
湖南大学计算机与通信学院
-
出处
《计算机应用》
CSCD
北大核心
2006年第5期1174-1177,共4页
-
基金
中国网上教育平台(计高技【2000】2034号)
湖南省自然科学基金(03JJY3095)
-
文摘
基于Apriori算法原理,提出一种有效的完全连接条件,在频繁2k项集的集合L2k进行自身Apriori连接得频繁(2k+1)项集的同时,自身完全连接产生未剪枝的候选4k项集;对频繁(2k+1)项集的集合L2k+1,直接对其项集进行完全连接产生未剪枝的候选(4k+2)项集。改进的算法减少了连接的比较次数、迭代运算次数。实验表明该算法在保证无遗漏的情况下有效地提高了Apriori算法的挖掘速度。
-
关键词
关联规则
Apriofi
完全连接
频繁项集
-
Keywords
association rule
Apriori
absolutely join
frequent itemsets
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于分段与运算的基因表达数据频繁项集挖掘
被引量:1
- 5
-
-
作者
王艳
骆嘉伟
杨涛
吴君浩
-
机构
湖南大学计算机与通信学院
-
出处
《计算机工程与科学》
CSCD
2006年第11期70-72,84,共4页
-
基金
中国网上教育平台(计高技[2000]2034号)
湖南省自然科学基金资助项目(03JJY3095)
-
文摘
本文在研究分析经典关联规则挖掘算法优缺点以及基因表达数据特点的基础上,提出了一种立足于基因表达数据的数据特点,不生成候选项集的基于分段与运算的基因表达数据频繁项集挖掘算法。实验证明该算法能更快速有效地挖掘出频繁项集。
-
关键词
基因表达数据
关联规则挖掘
与运算
频繁项集
-
Keywords
gene expression data
association rule minlng
and operatlon
frequent itemset
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-