-
题名高错误率长序列的高敏感度比对
被引量:1
- 1
-
-
作者
罗贤橦
钟诚
黎瑶
-
机构
广西大学计算机与电子信息学院广西高校并行分布式计算技术重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第11期2442-2448,共7页
-
基金
国家自然科学基金项目(61962004)资助.
-
文摘
将第三代测序平台产生的高错误率的长序列(long read)与参考基因组进行映射比对,需要高的编辑距离阈值.为此种求解长序列比对问题,将高错误率的长序列分割成较短的片段,借鉴全映射比对的思想,寻找所有满足编辑距离阈值的序列片段的候选位置;采用对高编辑距离更敏感的基于Hash索引的变长种子播种算法,定位序列片段在参考基因组上的候选位置,将连续“插入删除”相同碱基的编辑距离设置为1,使得算法可以处理第三代测序数据中新出现的“均聚物(homopolymer)”类型错误,以提升序列比对的敏感度;对片段侯选位置数量进行统计分析,求出片段候选位置质量分数,过滤掉质量不高的片段侯选位置;根据序列片段间的位置关系,动态连接片段的侯选位置,连接时对不同错误类型给予不同罚分,以去除假阳性的候选位置,确保比对的准确度.在模拟和真实数据集上的实验结果表明,与同类方法相比,本文方法在获得相同高的准确度的同时,提升了比对查全率和敏感度.
-
关键词
长序列比对
高错误率
分割映射
编辑距离
敏感度
-
Keywords
long-read alignment
high error rate
split-read mapping
edit distance
sensitivity
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名序列比对算法中的BW变换索引技术研究及其改进
被引量:3
- 2
-
-
作者
赵雅男
徐云
程昊宇
-
机构
中国科学技术大学计算机科学与技术学院
安徽省高性能计算重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第1期282-286,共5页
-
基金
国家自然科学基金资助重点项目(61033009)
国家"111"计划基金资助项目(B07033)
-
文摘
面向大规模长序列的序列比对问题是生物信息学中最重要的基础问题之一。针对序列比对算法的主流索引技术BW变换(BWT)进行研究,提出一种新的二阶BWT索引方法。与传统BWT方法的逐位索引查找不同,改进后的BWT方法按双位索引查找。实验结果表明,改进后的方法减少了序列比对算法中的循环遍历和计算次数,降低了序列比对算法中索引方法的复杂度,提高了查找效率,尤其适合长序列和大规模序列的索引和查找。
-
关键词
序列比对
索引
BW变换索引
第二代测序
第三代测序
大规模长序列比对
-
Keywords
sequence alignment
index
Burrows-Wheeler Transform(BWT) index
next-generation sequencing
third generation sequencing
alignment of large-scale and long sequences
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-