水体中过高浓度的有机物含量危害巨大,不仅会造成严重的环境污染,而且危害人类身体健康,传统化学法检测水体化学需氧量(COD)的步骤繁琐且时效性差,不利于水体中COD的快速定量检测。针对这些问题,提出了一种将紫外光谱与组合权值模型相...水体中过高浓度的有机物含量危害巨大,不仅会造成严重的环境污染,而且危害人类身体健康,传统化学法检测水体化学需氧量(COD)的步骤繁琐且时效性差,不利于水体中COD的快速定量检测。针对这些问题,提出了一种将紫外光谱与组合权值模型相结合的快速定量检测COD方法,该组合权值模型是基于反向区间偏最小二乘法(BiPLS)结合组合区间偏最小二乘法(SiPLS)算法对紫外光谱的特征子区间筛选组合,然后依据特征子区间的权值建立的预测模型。首先按照一定的浓度梯度配制45份COD标准液样本,通过实验获取标准液的紫外光谱数据;对获取到的COD紫外光谱数据做一阶导数和S-G滤波(Savitzky-Golay)的预处理,消除基线漂移和环境干扰噪声;应用SPXY(Sample set partitioning based on jiont X-Y)算法将实验样本数据组划分成校正集和预测集。然后基于BiPLS算法对全光谱区间进行波长筛选,在BiPLS筛选过程中,目标区间的划分数量会对建模产生较大影响,于是对子区间划分数量进行优化,把子区间分成15~25个,在不同区间数下都进行偏最小二乘(PLS)建模,通过交互验证均方根误差(RMSECV)来筛选最优子区间数,得到区间数为18时,模型效果最佳。从18个波长区间筛选出了6个特征波长子区间,入选的子区间为2,1,3,11,7和6,对应波长为234~240,262~268,269~275,290~296,297~303和304~310nm,这6个特征波长区间涵盖了大量的光谱信息,对最终预测模型的贡献度大;接下来通过SiPLS算法对这6个初选区间进行进一步的筛选组合,采用不同的组合数构建不同特征区间上的PLS模型,在相同组合数下,筛选出一个区间组合数最优的结果,对比不同组合数下预测模型的误差与相关性,将6个区间筛选组合为3个特征波长区间,分别为234~240,262~275和290~310nm,这三个特征区间最佳因子数分别为4,4和3。对传统SiPLS的特征区间组合方法进行改进,基于权值的大小来对这3个特征区间进行线性组合,代替过去特征区间直接组合的方法。通过权值公式计算出这3个特征区间的权重大小分别为0.509,0.318和0.173,最终建立线性组合权值COD浓度预测模型。为了验证组合权重预测模型的精度,另外建立了全波长范围内的PLS预测模型、单个特征波长区间的PLS预测模型、直接组合特征波长区间的PLS模型,并使用评价参数相关系数的平方(R2)、预测值与真实浓度值的均方根误差(RMSEP)和预测回收率(T)来对模型评价。验证结果表明,相比其他预测模型,组合权值模型相关系数的平方达到了0.9997,明显优于直接组合特征区间建模的0.9680,预测均方根误差为0.532,比直接组合特征区间的预测模型误差降低了29.3%,预测回收率为96.4%~103.1%,显著地提高了预测精度。该方法简单可行,不会产生二次污染,可为在线监测水体中COD浓度提供一定的技术支持。展开更多
文摘水体中过高浓度的有机物含量危害巨大,不仅会造成严重的环境污染,而且危害人类身体健康,传统化学法检测水体化学需氧量(COD)的步骤繁琐且时效性差,不利于水体中COD的快速定量检测。针对这些问题,提出了一种将紫外光谱与组合权值模型相结合的快速定量检测COD方法,该组合权值模型是基于反向区间偏最小二乘法(BiPLS)结合组合区间偏最小二乘法(SiPLS)算法对紫外光谱的特征子区间筛选组合,然后依据特征子区间的权值建立的预测模型。首先按照一定的浓度梯度配制45份COD标准液样本,通过实验获取标准液的紫外光谱数据;对获取到的COD紫外光谱数据做一阶导数和S-G滤波(Savitzky-Golay)的预处理,消除基线漂移和环境干扰噪声;应用SPXY(Sample set partitioning based on jiont X-Y)算法将实验样本数据组划分成校正集和预测集。然后基于BiPLS算法对全光谱区间进行波长筛选,在BiPLS筛选过程中,目标区间的划分数量会对建模产生较大影响,于是对子区间划分数量进行优化,把子区间分成15~25个,在不同区间数下都进行偏最小二乘(PLS)建模,通过交互验证均方根误差(RMSECV)来筛选最优子区间数,得到区间数为18时,模型效果最佳。从18个波长区间筛选出了6个特征波长子区间,入选的子区间为2,1,3,11,7和6,对应波长为234~240,262~268,269~275,290~296,297~303和304~310nm,这6个特征波长区间涵盖了大量的光谱信息,对最终预测模型的贡献度大;接下来通过SiPLS算法对这6个初选区间进行进一步的筛选组合,采用不同的组合数构建不同特征区间上的PLS模型,在相同组合数下,筛选出一个区间组合数最优的结果,对比不同组合数下预测模型的误差与相关性,将6个区间筛选组合为3个特征波长区间,分别为234~240,262~275和290~310nm,这三个特征区间最佳因子数分别为4,4和3。对传统SiPLS的特征区间组合方法进行改进,基于权值的大小来对这3个特征区间进行线性组合,代替过去特征区间直接组合的方法。通过权值公式计算出这3个特征区间的权重大小分别为0.509,0.318和0.173,最终建立线性组合权值COD浓度预测模型。为了验证组合权重预测模型的精度,另外建立了全波长范围内的PLS预测模型、单个特征波长区间的PLS预测模型、直接组合特征波长区间的PLS模型,并使用评价参数相关系数的平方(R2)、预测值与真实浓度值的均方根误差(RMSEP)和预测回收率(T)来对模型评价。验证结果表明,相比其他预测模型,组合权值模型相关系数的平方达到了0.9997,明显优于直接组合特征区间建模的0.9680,预测均方根误差为0.532,比直接组合特征区间的预测模型误差降低了29.3%,预测回收率为96.4%~103.1%,显著地提高了预测精度。该方法简单可行,不会产生二次污染,可为在线监测水体中COD浓度提供一定的技术支持。