-
题名融合卷积与自注意力机制的基因型填补算法
- 1
-
-
作者
陈炯环
鲍胜利
王啸飞
李若凡
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2023年第11期3534-3539,共6页
-
基金
中国科学院“西部青年学者”项目(RRJZ2021003)。
-
文摘
基因型填补可以通过填补估算出在基因测序数据中未覆盖的样本区域弥补因技术限制导致的缺失,但现有的基于深度学习的填补方法不能有效捕捉到全序列位点间的连锁关系,造成整体填补准确率低、批量序列填补准确率分散等问题。针对这些问题提出一种融合卷积与自注意力机制的填补方法——FCSA,使用两种融合模块构成编解码器组建网络模型。编码器融合模块使用自注意力层得到全序列位点间的关联度,将该关联度融合到全局位点后再通过卷积层提取局部特征;解码器融合模块使用卷积对编码后的低维向量进行局部特征重建,应用自注意力层对全序列建模并融合。使用多物种的动物基因数据进行模型训练,并在Dog、Pig和Chicken数据集上进行比较验证,结果表明,与SCDA(Sparse Convolutional Denoising Autoencoders)、AGIC(Autoencoder Genome Imputation and Compression)和U-net相比,FCSA在10%、20%和30%缺失率下的平均填补准确率均取得了最高值,且批量序列填补准确率的分散程度较小;消融实验的结果也表明,这两种融合模块的设计能够有效提升基因型填补的准确率。
-
关键词
基因型填补
卷积
自注意力
融合模块
全序列建模
-
Keywords
genotype imputation
convolution
self-attention
fusion module
full sequence modeling
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-