文摘目的禽流感疫情的爆发和传播受到多种自然因素的影响。今欲尝试将地理信息系统与基因进化树分析相结合,以建立一种基于基因序列变异追踪中国禽流感病毒地理传播的技术。方法禽流感病毒基因来源于美国国立医学图书馆(National Library for Medicine,NLM)数据库,所获得的基因组数据利用E—Utilities软件包转化为结构体后,可用Matlab软件阅读。结构体主要字段包括PB2、PBl、PA、HA、NP、HA、M1和NSl8个片段,分别代表流感病毒的8个不同的基因片段。基于结构体字段,利用计算生物学的方法比较不同传播能力禽流感病毒的同义突变/非同义突变基因(Ka/Ks)比例,确定不同选择压力之下A型禽流感病毒的基因突变模式。进而选择Ka/Ks比例最大的基因片段,采用Jukes—Cantor算法估计氨基酸序列变异的进化距离,然后对不同爆发点的H5N1型禽流感进行进化树聚类。将聚类信息输入Google Earth,并利用不同图层地理信息对影响爆发点分布的因素做单因素分析。结果比较分析A型禽流感所有的8个基因序列可以看出,NSl、HA和NA蛋白的Ka/Ks比值较大。三者中,HA基因的Ka/Ks比值最大,可以代表病毒的传播能力。利用分级聚类的思路对HA基因转录的氨基酸相似程度进行比较,发现自2003年以来亚洲地区爆发的H5N1型禽流感之间的关系可以表示为一个由30个节点构成的进化树,其中14个节点为分支节点,16个节点为叶子结点。把分支树的前三个节点作为分类标准,可以把所有16个病毒株分为四类。这四类病毒在地理空间的分布呈现一定规律。计算发现禽流感爆发相关地理因素排序分别为:内陆水体〉主要铁路交通线〉家禽密度。结论对中国HSNl病毒株基因序列变异的地理分布分析显示,禽流感病毒爆发与候鸟迁徙、家禽运输密切相关。