-
题名k-长DNA子序列计数算法研究
被引量:2
- 1
-
-
作者
王树林
王戟
陈火旺
张鼎兴
-
机构
国防科技大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第9期40-42,共3页
-
基金
国家自然科学基金资助项目(60233020)
-
文摘
基因组的结构与功能存在密切联系,其功能主要通过DNA子序列来表达,因此研究DNA序列结构对于生物信息学来说具有重要的意义。该文研究了k-长DNA子序列在DNA全序列中出现频数的计数问题,设计并实现了k-长DNA子序列内部计数算法和外部计数算法。该算法通过一个哈希函数把k-长DNA子序列映射为整数关键字从而把k-长DNA子序列出现频数的计数问题转化为整数关键字的重复计数问题,使得能够利用经典B树算法来解决k-长DNA子序列的出现频数计数问题。针对所要解决的问题提出3种改进措施以进一步提高算法的性能。
-
关键词
k-长dna子序列
dna序列
B树
全基因组
-
Keywords
k-mer
dna sequence
B-tree
Whole genome
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名k-长DNA子序列频数分布研究
被引量:1
- 2
-
-
作者
王树林
王戟
陈火旺
张鼎兴
-
机构
国防科技大学计算机学院
-
出处
《生物物理学报》
CAS
CSCD
北大核心
2006年第3期177-196,共20页
-
基金
国家自然科学基金项目(60233020)~~
-
文摘
在详细阐述了生成DNA序列分形图像的Hao方法后,提出一种能够直观显示k-长DNA子序列频数分布差异性的三维频数分布图生成方法。把3D频数分布图转化为1D对数频谱图,突出显示了频数分布的局部特征,提出k-长DNA子序列频数区划分准则,并详细研究了甚高频数区的n阶零间隔现象,指出n阶零间隔分布就是基因组进化过程所留痕迹的假设,并给出对数频谱图特征的生物学解释。实验发现许多DNA序列频数概率分布近似服从非中心F分布,对于分布呈多峰现象的基因组序列,可采用多个非中心F分布的叠加来拟合。在比较非中心F分布与Gamma分布后,提出一种结合二者在拟合方面具有互补优势的新分布,实验证明这种新分布能够更好地吻合实际DNA序列的频数分布。最后研究了两种特异出现频数(最高出现频数与出现频数为1的k-长子序列个数)与k值的关系,发现不同物种的这两种关系具有良好的一致性。
-
关键词
dna序列
k-长dna子序列
三维频数分布图
非中心F分布
分形
n阶零间隔
-
Keywords
dna sequence
k-mer
3D frequency distribution map
Non-central F distribution
Fractal
N-order zero interval
-
分类号
Q71
[生物学—分子生物学]
-