近红外光谱中多组分信息高度重叠的特点,决定了变量选择在构建稳健近红外定性定量模型中的特殊重要性。以8个产区、4个部位,共计655个烟叶样本中的总糖、还原糖、总氮、钾、氯和烟碱6个指标为对象,深入研究波长区间约束与3个典型非约束...近红外光谱中多组分信息高度重叠的特点,决定了变量选择在构建稳健近红外定性定量模型中的特殊重要性。以8个产区、4个部位,共计655个烟叶样本中的总糖、还原糖、总氮、钾、氯和烟碱6个指标为对象,深入研究波长区间约束与3个典型非约束型变量选择方法对定量建模结果的影响,探索近红外光谱在完全基于数学与统计方法建模,以及加入约束特征波长后的结果差异性,并与全波长与全特征波长区间建模的差异性进行比较,发现针对目标数据,131个外部验证数据的偏最小二乘(partial least squares,PLS)的Q2值的变异系数(coefficient of variation,CV)均在3%以内,而所选择的变量和波长区间存在较大的差异性。这些结果充分说明,基于近红外数据“二次分析”模型构建,存在其内在模型效果“瓶颈”与变量间的协同规律性,过度的变量选择算法与建模分析并不一定能较好地提升模型质量、改善预测分析结果,反而极大地降低模型的化学可解释性。展开更多
文摘近红外光谱中多组分信息高度重叠的特点,决定了变量选择在构建稳健近红外定性定量模型中的特殊重要性。以8个产区、4个部位,共计655个烟叶样本中的总糖、还原糖、总氮、钾、氯和烟碱6个指标为对象,深入研究波长区间约束与3个典型非约束型变量选择方法对定量建模结果的影响,探索近红外光谱在完全基于数学与统计方法建模,以及加入约束特征波长后的结果差异性,并与全波长与全特征波长区间建模的差异性进行比较,发现针对目标数据,131个外部验证数据的偏最小二乘(partial least squares,PLS)的Q2值的变异系数(coefficient of variation,CV)均在3%以内,而所选择的变量和波长区间存在较大的差异性。这些结果充分说明,基于近红外数据“二次分析”模型构建,存在其内在模型效果“瓶颈”与变量间的协同规律性,过度的变量选择算法与建模分析并不一定能较好地提升模型质量、改善预测分析结果,反而极大地降低模型的化学可解释性。