建立病变组织分类模型的关键在于找出一组能准确区分样本类别的特征基因。糙集理论中的属性依赖度分析方法能对目标数据进行有效分析。基于属性间的依赖关系和属性对决策的影响存在这样的关系,即属性依赖度越大,属性就越重要,对决策划...建立病变组织分类模型的关键在于找出一组能准确区分样本类别的特征基因。糙集理论中的属性依赖度分析方法能对目标数据进行有效分析。基于属性间的依赖关系和属性对决策的影响存在这样的关系,即属性依赖度越大,属性就越重要,对决策划分的影响就越大,提出了一种属性最大依赖度(maximum dependency ofattributes based on rough sets,MDA-RS)算法,并将其应用于特征基因选取。首先用启发式K-均值聚类算法对基因进行聚类分析得到类数为k的基因子集;然后用MDA-RS选出每类的主基因,汇合每类的主基因作为样本的分类特征基因组;最后以支持向量机为分类工具、结肠癌基因表达谱为实验数据进行实验分析可行性和算法性能。实验结果表明,该方法可行有效,在不降低分类能力的基础上提取的特征基因包含有与疾病分类相关的重要基因。展开更多
文摘建立病变组织分类模型的关键在于找出一组能准确区分样本类别的特征基因。糙集理论中的属性依赖度分析方法能对目标数据进行有效分析。基于属性间的依赖关系和属性对决策的影响存在这样的关系,即属性依赖度越大,属性就越重要,对决策划分的影响就越大,提出了一种属性最大依赖度(maximum dependency ofattributes based on rough sets,MDA-RS)算法,并将其应用于特征基因选取。首先用启发式K-均值聚类算法对基因进行聚类分析得到类数为k的基因子集;然后用MDA-RS选出每类的主基因,汇合每类的主基因作为样本的分类特征基因组;最后以支持向量机为分类工具、结肠癌基因表达谱为实验数据进行实验分析可行性和算法性能。实验结果表明,该方法可行有效,在不降低分类能力的基础上提取的特征基因包含有与疾病分类相关的重要基因。