选取了258个苯酚类化合物的生物毒性数据,通过软件ADMEWORKS Model Builder的计算,选出7个结构描述符作为样本的结构参数,用稳健诊断方法剔除24个奇异样本,分别采用K最近邻方法和K均值聚类方法对剩余的234个样本数据进行分类,对分好的...选取了258个苯酚类化合物的生物毒性数据,通过软件ADMEWORKS Model Builder的计算,选出7个结构描述符作为样本的结构参数,用稳健诊断方法剔除24个奇异样本,分别采用K最近邻方法和K均值聚类方法对剩余的234个样本数据进行分类,对分好的每一个类分别随机选择外部测试集,并用球型排除算法划分训练集和内部测试集,然后运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Squares,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行预测模型的建立,计算结果表明,非线性模型的预测结果优于线性模型,有管理的分类方法(K nearest neighbors method,KNN)的预测结果优于无管理的分类方法(K均值聚类法)。展开更多
文摘选取了258个苯酚类化合物的生物毒性数据,通过软件ADMEWORKS Model Builder的计算,选出7个结构描述符作为样本的结构参数,用稳健诊断方法剔除24个奇异样本,分别采用K最近邻方法和K均值聚类方法对剩余的234个样本数据进行分类,对分好的每一个类分别随机选择外部测试集,并用球型排除算法划分训练集和内部测试集,然后运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Squares,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行预测模型的建立,计算结果表明,非线性模型的预测结果优于线性模型,有管理的分类方法(K nearest neighbors method,KNN)的预测结果优于无管理的分类方法(K均值聚类法)。