【目的】建立棉花毛籽蛋白质和油分含量的近红外检测校正模型。【方法】检测样本的蛋白质含量和油分含量,根据光谱-理化值共生距离算法(sample set partitioning based on joint X-Y distance sampling,SPXY)按照3∶1的比例将426个样本...【目的】建立棉花毛籽蛋白质和油分含量的近红外检测校正模型。【方法】检测样本的蛋白质含量和油分含量,根据光谱-理化值共生距离算法(sample set partitioning based on joint X-Y distance sampling,SPXY)按照3∶1的比例将426个样本划分为包含320个样本的校正集和106个样本的预测集,结合多元散射校正和一阶导数等光谱预处理方法对模型进行优化,并采用线性偏最小二乘法(partial least square method,PLS)、支持向量机(support vector machine,SVM)和随机森林(random forest,RF)3种方法对比分析建立棉花毛籽蛋白质和油分含量的近红外快速测定模型,以决定系数、均方根误差和剩余预测偏差作为模型的评价指标。【结果】SVM模型和PLS模型在校正集的拟合效果较好,决定系数均大于0.8,但对预测集的拟合决定系数不到0.8,说明模型均存在过拟合现象;而RF模型在校正集和预测集的拟合效果都非常好,决定系数均大于0.9,其中蛋白质含量预测模型的决定系数、预测均方根误差和剩余预测偏差分别为0.9459、0.9352和4.5391,油分含量预测模型的决定系数、预测均方根误差和剩余预测偏差分别为0.9097、0.7704和3.4891。【结论】基于RF方法建立的预测模型能较好地应用于基于近红外光谱的棉花毛籽的蛋白质含量和油分含量检测,并可代替化学测定方法。研究结果不仅为棉花种子品质育种、棉籽加工生产和销售中棉籽营养品质的快速、无损评价奠定了基础,并可为其他作物种子的无损分析提供技术借鉴。展开更多
文摘【目的】建立棉花毛籽蛋白质和油分含量的近红外检测校正模型。【方法】检测样本的蛋白质含量和油分含量,根据光谱-理化值共生距离算法(sample set partitioning based on joint X-Y distance sampling,SPXY)按照3∶1的比例将426个样本划分为包含320个样本的校正集和106个样本的预测集,结合多元散射校正和一阶导数等光谱预处理方法对模型进行优化,并采用线性偏最小二乘法(partial least square method,PLS)、支持向量机(support vector machine,SVM)和随机森林(random forest,RF)3种方法对比分析建立棉花毛籽蛋白质和油分含量的近红外快速测定模型,以决定系数、均方根误差和剩余预测偏差作为模型的评价指标。【结果】SVM模型和PLS模型在校正集的拟合效果较好,决定系数均大于0.8,但对预测集的拟合决定系数不到0.8,说明模型均存在过拟合现象;而RF模型在校正集和预测集的拟合效果都非常好,决定系数均大于0.9,其中蛋白质含量预测模型的决定系数、预测均方根误差和剩余预测偏差分别为0.9459、0.9352和4.5391,油分含量预测模型的决定系数、预测均方根误差和剩余预测偏差分别为0.9097、0.7704和3.4891。【结论】基于RF方法建立的预测模型能较好地应用于基于近红外光谱的棉花毛籽的蛋白质含量和油分含量检测,并可代替化学测定方法。研究结果不仅为棉花种子品质育种、棉籽加工生产和销售中棉籽营养品质的快速、无损评价奠定了基础,并可为其他作物种子的无损分析提供技术借鉴。