-
题名基于基因关联分析的贝叶斯网络疾病样本分类算法
- 1
-
-
作者
李志杰
廖旭红
李元香
李青蓝
-
机构
湖南理工学院信息科学与工程学院
武汉大学计算机学院
宾夕法尼亚大学医学院
-
出处
《计算机应用》
CSCD
北大核心
2024年第11期3449-3458,共10页
-
基金
国家自然科学基金资助项目(61672391)
湖南省自然科学基金资助项目(2019JJ40111)。
-
文摘
基因表达数据作为生物学中一种特定类型的大数据,尽管基因表达值都是普通的实数值,但它们的相似性不是基于欧氏距离度量,而是基于基因表达值是否展现同升同降趋势。目前的基因贝叶斯网络以基因表达水平值为节点随机变量,没有体现这种子空间模式的相似性。因此,提出基于基因关联分析的贝叶斯网络疾病分类算法(BCGA),从带类标签的疾病样本-基因表达数据中学习贝叶斯网络并预测新疾病样本的分类。首先,将疾病样本离散化过滤以选择基因,并将降维后的基因表达值排序和置换为基因列下标;其次,分解基因列下标序列为长度为2的原子序列集合,而这个集合的频繁原子序列对应一对基因的关联关系;最后,通过基因关联熵度量因果关系,并用于贝叶斯网络结构学习。BCGA的参数学习也变得很容易,基因节点的条件概率分布只要统计该基因的原子序列和父节点基因的原子序列出现频次即可。在多个肿瘤和非肿瘤基因表达数据集上的实验结果表明,相较于已有的同类算法,BCGA的疾病分类准确率明显提高,分析时间有效缩短;另外,BCGA使用基因关联熵代替条件独立性,使用基因原子序列代替基因表达值,可以更好地拟合基因表达数据。
-
关键词
基因表达数据
频繁原子序列
基因关联熵
基因序列贝叶斯网络
疾病分类
-
Keywords
gene expression data
frequent atomic sequence
gene association entropy
gene sequence Bayesian network
disease classification
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-