应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN...应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。展开更多
时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景...时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景中更加常见的含缺失值的时间序列异常检测任务,提出了一种基于注意力重新表征的时间序列异常检测算法MMAD(Missing Multivariate Time Series Anomaly Detection)。具体来说,MMAD首先将包含缺失值的时间序列数据通过时间位置编码对时间序列中不同时间戳的空间关联进行建模,然后通过掩码注意力表征模块学习不同时间戳之间数据的关联关系并将其表征为一个高维的嵌入式编码矩阵,从而将包含缺失值的多元时间序列表示为不含缺失值的高维表征,最后引入条件标准化流对该表征进行重建,以重建概率作为异常评分,重建概率越小代表样本越异常。在3个经典时间序列数据集上进行实验,结果表明,相比其他基线方法,MMAD性能平均提升了11%,验证了MMAD在缺失值场景下进行多元时间序列异常检测的有效性。展开更多
文摘应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。
文摘时间序列异常检测是工业界中一个重要的研究领域。当前的时间序列异常检测方法侧重于面向完整的时间序列数据进行异常检测,而没有考虑到包含工业场景中网络异常、传感器损坏等所导致的缺失值的时间序列异常检测任务。文中针对工业场景中更加常见的含缺失值的时间序列异常检测任务,提出了一种基于注意力重新表征的时间序列异常检测算法MMAD(Missing Multivariate Time Series Anomaly Detection)。具体来说,MMAD首先将包含缺失值的时间序列数据通过时间位置编码对时间序列中不同时间戳的空间关联进行建模,然后通过掩码注意力表征模块学习不同时间戳之间数据的关联关系并将其表征为一个高维的嵌入式编码矩阵,从而将包含缺失值的多元时间序列表示为不含缺失值的高维表征,最后引入条件标准化流对该表征进行重建,以重建概率作为异常评分,重建概率越小代表样本越异常。在3个经典时间序列数据集上进行实验,结果表明,相比其他基线方法,MMAD性能平均提升了11%,验证了MMAD在缺失值场景下进行多元时间序列异常检测的有效性。