目的利用基因芯片数据识别与结肠癌相关的特征基因,对该疾病的临床诊断和生物医学研究起到有益的参考和借鉴作用。方法本文建议了一种称为k均值分类信息指数(kmeans inform ation in-dex to class ification,kmeansIIC)的特征基因提取...目的利用基因芯片数据识别与结肠癌相关的特征基因,对该疾病的临床诊断和生物医学研究起到有益的参考和借鉴作用。方法本文建议了一种称为k均值分类信息指数(kmeans inform ation in-dex to class ification,kmeansIIC)的特征基因提取方法。该方法首先对基因芯片上的所有基因进行聚类分析,然后挑选出每一类的"主基因",最后以支持向量机为分类工具进行样本类型的判别,以其在训练集和测试集上的错误分类率为依据选取特征基因。结果先以结肠癌基因表达谱数据为例进行试验,提取到22个基因,分类正确率达到86.4%。再应用于白血病基因表达谱数据中,提取到65个基因,其分类正确率达到100%。结论新方法能较好地完成肿瘤特征基因的选取,方法简单可行,能在庞大的基因表达数据集中提取出有用信息。展开更多
文摘目的利用基因芯片数据识别与结肠癌相关的特征基因,对该疾病的临床诊断和生物医学研究起到有益的参考和借鉴作用。方法本文建议了一种称为k均值分类信息指数(kmeans inform ation in-dex to class ification,kmeansIIC)的特征基因提取方法。该方法首先对基因芯片上的所有基因进行聚类分析,然后挑选出每一类的"主基因",最后以支持向量机为分类工具进行样本类型的判别,以其在训练集和测试集上的错误分类率为依据选取特征基因。结果先以结肠癌基因表达谱数据为例进行试验,提取到22个基因,分类正确率达到86.4%。再应用于白血病基因表达谱数据中,提取到65个基因,其分类正确率达到100%。结论新方法能较好地完成肿瘤特征基因的选取,方法简单可行,能在庞大的基因表达数据集中提取出有用信息。