针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号Na N(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的...针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号Na N(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的数据集按照完整性的大小依次找到它们在完备数据集中相应的k个近邻,根据误差平方和最小的原则,求出k个近邻相应的权值,用k个近邻及相应的权值重构出缺失的数据点。将该算法应用在不同缺失率下的两种化工过程数据中并与望最大化主成分分析(EM-PCA)法和平均值(MA)两种传统的数据恢复算法相比较,该算法的恢复数据误差最小,并且计算速度相比EM-PCA算法平均提高了2倍。实验结果表明,局部加权重构的化工过程数据恢复算法可以有效地对数据进行恢复,提高了数据的利用率,适用于非线性化工过程缺失数据的恢复。展开更多
传感器是当前公路工程中数据采集与监控的主要手段之一,然而在使用过程中时常出现的缺失值严重影响了传感器的监测效果及后续数据分析。目前多数传感器缺失值预测算法在设计时利用了传感器间的空间相关性或该传感器自身的时间相关性,具...传感器是当前公路工程中数据采集与监控的主要手段之一,然而在使用过程中时常出现的缺失值严重影响了传感器的监测效果及后续数据分析。目前多数传感器缺失值预测算法在设计时利用了传感器间的空间相关性或该传感器自身的时间相关性,具有一定的预测效果。KMRA算法(K-Nearest-Neighbor on Multiple Regression Algorithm)则采用了空间相关性及时间相关性结合预测的方法,不但大幅提高了预测准确率及算法的效率,同时具有更高的实用价值。当传感器v在时刻t出现缺失值时,KMRA首先确定v与邻居之间的相关系数,选择其中K个与v相关度最高的邻居节点,利用其相关系数进行t时刻的空间相关性预测,并形成空间相关性预测结果。其次,算法利用传感器v在监测过程中产生的时间序列,选取q/2个与t时刻相邻的数值,并分别设置不同的偏相关系数,通过多元回归的方法将偏相关系数与q个取值进行时间相关性预测。最后,在分别取得时、空相关性预测结果的基础上,算法通过样本决定系数将空间与时间两部分预测结果有机整合,形成最终预测结果。算法的试验在真实数据集上展开,将数据集中的实际数据作为缺失值进行预测,并与原数据比较以验证预测算法的准确率。在试验过程中,与其他相关算法进行了比较,试验结果显示,该算法在得出准确预测结果的同时,还能在效率上获得较大提高。展开更多
为了解决随机功率谱中的数据缺失问题,提出了一种基于K近邻回归(K neighbors regressor)与长短期记忆神经网络(long short term memory,LSTM)的预测方法。在实际工程应用中,功率谱的精度随着时程样本的增加而提高。但是,由于测量的限制...为了解决随机功率谱中的数据缺失问题,提出了一种基于K近邻回归(K neighbors regressor)与长短期记忆神经网络(long short term memory,LSTM)的预测方法。在实际工程应用中,功率谱的精度随着时程样本的增加而提高。但是,由于测量的限制或数据损坏,存在一些数据难以获取或丢失的情况。对此,引入了机器学习的方法来还原随机功率谱。首先,利用K近邻回归方法填充缺失的数据以获得完整时间历史的样本。其次,建立相应的LSTM神经网络模型进行数据训练。模拟实验结果为在缺失30%和50%数据情况下,采用K近邻回归和LSTM神经网络的方法可以很好地还原目标功率谱。目标功率谱与机器学习还原后的功率谱之间的比较证明了方法的准确性和有效性。展开更多
文摘针对化工过程数据中存在缺失数据的问题,在保持局部数据结构特征的基础上提出了基于局部加权重构的化工过程数据恢复算法。通过定位缺失的数据点并以符号Na N(Not a Number)标记,将缺失的数据集分为完备数据集和不完备数据集。不完备的数据集按照完整性的大小依次找到它们在完备数据集中相应的k个近邻,根据误差平方和最小的原则,求出k个近邻相应的权值,用k个近邻及相应的权值重构出缺失的数据点。将该算法应用在不同缺失率下的两种化工过程数据中并与望最大化主成分分析(EM-PCA)法和平均值(MA)两种传统的数据恢复算法相比较,该算法的恢复数据误差最小,并且计算速度相比EM-PCA算法平均提高了2倍。实验结果表明,局部加权重构的化工过程数据恢复算法可以有效地对数据进行恢复,提高了数据的利用率,适用于非线性化工过程缺失数据的恢复。
文摘传感器是当前公路工程中数据采集与监控的主要手段之一,然而在使用过程中时常出现的缺失值严重影响了传感器的监测效果及后续数据分析。目前多数传感器缺失值预测算法在设计时利用了传感器间的空间相关性或该传感器自身的时间相关性,具有一定的预测效果。KMRA算法(K-Nearest-Neighbor on Multiple Regression Algorithm)则采用了空间相关性及时间相关性结合预测的方法,不但大幅提高了预测准确率及算法的效率,同时具有更高的实用价值。当传感器v在时刻t出现缺失值时,KMRA首先确定v与邻居之间的相关系数,选择其中K个与v相关度最高的邻居节点,利用其相关系数进行t时刻的空间相关性预测,并形成空间相关性预测结果。其次,算法利用传感器v在监测过程中产生的时间序列,选取q/2个与t时刻相邻的数值,并分别设置不同的偏相关系数,通过多元回归的方法将偏相关系数与q个取值进行时间相关性预测。最后,在分别取得时、空相关性预测结果的基础上,算法通过样本决定系数将空间与时间两部分预测结果有机整合,形成最终预测结果。算法的试验在真实数据集上展开,将数据集中的实际数据作为缺失值进行预测,并与原数据比较以验证预测算法的准确率。在试验过程中,与其他相关算法进行了比较,试验结果显示,该算法在得出准确预测结果的同时,还能在效率上获得较大提高。
文摘为了解决随机功率谱中的数据缺失问题,提出了一种基于K近邻回归(K neighbors regressor)与长短期记忆神经网络(long short term memory,LSTM)的预测方法。在实际工程应用中,功率谱的精度随着时程样本的增加而提高。但是,由于测量的限制或数据损坏,存在一些数据难以获取或丢失的情况。对此,引入了机器学习的方法来还原随机功率谱。首先,利用K近邻回归方法填充缺失的数据以获得完整时间历史的样本。其次,建立相应的LSTM神经网络模型进行数据训练。模拟实验结果为在缺失30%和50%数据情况下,采用K近邻回归和LSTM神经网络的方法可以很好地还原目标功率谱。目标功率谱与机器学习还原后的功率谱之间的比较证明了方法的准确性和有效性。