【目的】大地电磁测深是一种通过观测天然电磁场获取地下电性结构的勘探方法,较易受到噪声干扰。脉冲类噪声是大地电磁工作中的常见噪声,其幅值高、频带宽,会对数据质量产生较大影响。【方法】为了压制脉冲类噪声,以插补思想为基础,提...【目的】大地电磁测深是一种通过观测天然电磁场获取地下电性结构的勘探方法,较易受到噪声干扰。脉冲类噪声是大地电磁工作中的常见噪声,其幅值高、频带宽,会对数据质量产生较大影响。【方法】为了压制脉冲类噪声,以插补思想为基础,提出了基于时间序列双向循环插补模型(Bidirectional recurrent imputation for time series,BRITS)的大地电磁脉冲类噪声处理方法。首先,将噪声干扰段删除,此时大地电磁时间序列可视为待插补的缺失序列,而后利用该缺失序列构建训练集,对BRITS模型进行插补训练,训练完成后对缺失序列进行插补,即可得到去噪结果。通过仿真及实测含噪声数据处理,并与经验模态分解(Empirical mode decomposition,EMD)阈值方法进行了对比。【结果和结论】结果表明:BRITS方法对仿真噪声数据处理后与原始数据的归一化互相关系数可达0.999以上,信噪比可达29 dB以上,EMD阈值方法处理前后相关系数为0.778,信噪比为3.09 dB;在实测数据处理中,BRITS方法有效恢复了噪声干扰数据,相比EMD阈值方法,其阻抗奈奎斯特图更接近天然大地电磁信号特征。通过不同训练样本试验得出:对4分量大地电磁数据而言,数据中至少需包含两道正常分量,单个含噪分量中噪声占比不大于20%,且噪声连续干扰长度不超过10个采样点,此时,BRITS方法去噪后数据的相关系数在0.96以上,可以保证一定的去噪精度。展开更多
应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN...应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。展开更多
时间序列插补旨在根据现有数据填补缺失值以恢复数据的完整性.目前基于RNN的插补方法存在较大的误差,并且增加网络层数容易出现梯度爆炸和消失问题,而基于GAN和VAE的插补方法经常面临训练困难和模式崩溃的挑战.为解决上述问题,本文提出...时间序列插补旨在根据现有数据填补缺失值以恢复数据的完整性.目前基于RNN的插补方法存在较大的误差,并且增加网络层数容易出现梯度爆炸和消失问题,而基于GAN和VAE的插补方法经常面临训练困难和模式崩溃的挑战.为解决上述问题,本文提出了一种基于扩散与时频注意力的时间序列插补模型DTFA (diffusion model and time-frequency attention),通过反向扩散实现从高斯噪声中重建缺失数据.具体而言,本研究利用多尺度卷积模块与二维注意力机制捕获时域数据中的时间依赖性,并利用MLP与二维注意力机制学习频域数据的实部与虚部信息.此外,本研究通过线性插补模块以对现有的观测数据进行初步的数据增强,从而更好地指导模型的插补过程.最后,本研究通过最小化真实噪声与估计噪声的欧氏距离来训练噪声估计网络,并利用反向扩散实现对时序数据的缺失插补.本研究的实验结果表明, DTFA在ETTm1、WindPower和Electricity这3个公开数据集上的插补效果均优于近年主流的基线模型.展开更多
气温作为研究气候演变最基础的物理量,其日值序列的完整性和准确性对于气候分析与评估工作有着重要意义。近些年随着大量无人值守地面加密自动气象站的布设,不断出现随机站点和随机长度这种双随机特点的气象资料序列缺失,给气候分析和...气温作为研究气候演变最基础的物理量,其日值序列的完整性和准确性对于气候分析与评估工作有着重要意义。近些年随着大量无人值守地面加密自动气象站的布设,不断出现随机站点和随机长度这种双随机特点的气象资料序列缺失,给气候分析和业务应用造成了不小的障碍。针对现有气象数据插补方案的不足,提出了一种全新的基于动态时间规整(dynamic time warping,DTW)的气温日值数据二次插补方法。该方法采用了一种实时的插补策略,主要技术内容包括:1)利用一元线性回归方程将原始气温观测时间序列分解出拟合直线和残差曲线,并将二者重构组成新的气温序列;2)给出了气温插补区的定义和插补条件;3)提出了利用动态时间规整方法计算站点间距离的新模式。利用山东省2021年的气温实况数据对该方法进行了双随机检验,检验结果表明:该方法可以满足日平均气温、日最高气温和日最低气温数据的插补需求;在插补流程中采用DTW距离测度和二次插补的组合方法,其插补效果优于目前常见的基于站点地理临近关系的组合方法;该方法对地形有一定的敏感性,平原或丘陵地区的插补效果要优于山地地区。展开更多
文摘【目的】大地电磁测深是一种通过观测天然电磁场获取地下电性结构的勘探方法,较易受到噪声干扰。脉冲类噪声是大地电磁工作中的常见噪声,其幅值高、频带宽,会对数据质量产生较大影响。【方法】为了压制脉冲类噪声,以插补思想为基础,提出了基于时间序列双向循环插补模型(Bidirectional recurrent imputation for time series,BRITS)的大地电磁脉冲类噪声处理方法。首先,将噪声干扰段删除,此时大地电磁时间序列可视为待插补的缺失序列,而后利用该缺失序列构建训练集,对BRITS模型进行插补训练,训练完成后对缺失序列进行插补,即可得到去噪结果。通过仿真及实测含噪声数据处理,并与经验模态分解(Empirical mode decomposition,EMD)阈值方法进行了对比。【结果和结论】结果表明:BRITS方法对仿真噪声数据处理后与原始数据的归一化互相关系数可达0.999以上,信噪比可达29 dB以上,EMD阈值方法处理前后相关系数为0.778,信噪比为3.09 dB;在实测数据处理中,BRITS方法有效恢复了噪声干扰数据,相比EMD阈值方法,其阻抗奈奎斯特图更接近天然大地电磁信号特征。通过不同训练样本试验得出:对4分量大地电磁数据而言,数据中至少需包含两道正常分量,单个含噪分量中噪声占比不大于20%,且噪声连续干扰长度不超过10个采样点,此时,BRITS方法去噪后数据的相关系数在0.96以上,可以保证一定的去噪精度。
文摘应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。
文摘时间序列插补旨在根据现有数据填补缺失值以恢复数据的完整性.目前基于RNN的插补方法存在较大的误差,并且增加网络层数容易出现梯度爆炸和消失问题,而基于GAN和VAE的插补方法经常面临训练困难和模式崩溃的挑战.为解决上述问题,本文提出了一种基于扩散与时频注意力的时间序列插补模型DTFA (diffusion model and time-frequency attention),通过反向扩散实现从高斯噪声中重建缺失数据.具体而言,本研究利用多尺度卷积模块与二维注意力机制捕获时域数据中的时间依赖性,并利用MLP与二维注意力机制学习频域数据的实部与虚部信息.此外,本研究通过线性插补模块以对现有的观测数据进行初步的数据增强,从而更好地指导模型的插补过程.最后,本研究通过最小化真实噪声与估计噪声的欧氏距离来训练噪声估计网络,并利用反向扩散实现对时序数据的缺失插补.本研究的实验结果表明, DTFA在ETTm1、WindPower和Electricity这3个公开数据集上的插补效果均优于近年主流的基线模型.
文摘气温作为研究气候演变最基础的物理量,其日值序列的完整性和准确性对于气候分析与评估工作有着重要意义。近些年随着大量无人值守地面加密自动气象站的布设,不断出现随机站点和随机长度这种双随机特点的气象资料序列缺失,给气候分析和业务应用造成了不小的障碍。针对现有气象数据插补方案的不足,提出了一种全新的基于动态时间规整(dynamic time warping,DTW)的气温日值数据二次插补方法。该方法采用了一种实时的插补策略,主要技术内容包括:1)利用一元线性回归方程将原始气温观测时间序列分解出拟合直线和残差曲线,并将二者重构组成新的气温序列;2)给出了气温插补区的定义和插补条件;3)提出了利用动态时间规整方法计算站点间距离的新模式。利用山东省2021年的气温实况数据对该方法进行了双随机检验,检验结果表明:该方法可以满足日平均气温、日最高气温和日最低气温数据的插补需求;在插补流程中采用DTW距离测度和二次插补的组合方法,其插补效果优于目前常见的基于站点地理临近关系的组合方法;该方法对地形有一定的敏感性,平原或丘陵地区的插补效果要优于山地地区。