-
题名基于相关性的多维时序数据异常溯源方法
被引量:6
- 1
-
-
作者
王沐贤
丁小欧
王宏志
李建中
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2021年第11期2142-2150,共9页
-
基金
国家重点研发计划(2018YFB1004700)
国家自然科学基金(U1866602,61602129,61772157)。
-
文摘
提出一种基于统计学相关性分析的多维时序异常数据检测分析方法,以对检测中表现为异常的数据进行溯源:对反映系统故障的数据和传感器质量问题的数据进行分类,进而识别出真正的系统故障,避免误检。首先根据相关关系构建时序相关图,再进一步归纳为时序相关环模型,通过在时序相关图上搜索并确定时序相关环的过程,提取时序相关环中的特征,得到时间序列相关性集合。进而利用时间序列相关性集合进行时序数据异常来源检测,根据检测结果评估时序传感器数据对应的系统故障的几率。在真实的工业设备传感器序列数据集上进行大量实验,实验结果验证了该方法在高维时序数据的异常检测任务上的有效性。通过对比实验,验证了该方法从稳定性和效率上优于基于统计和基于机器学习模型的基准算法,时间序列的维度越高,该方法较基准算法的提升越明显。该方法通过对多维时序数据相关性知识的挖掘,既节约了计算成本,又实现了对多维异常数据来源的精准识别。
-
关键词
多维时间序列
异常检测
相关性分析
图算法
工业大数据
溯源
-
Keywords
multi-dimensional time series
abnormal detection
correlation analysis
graph algorithm
industrial big data
provenance
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于相关性分析的工业时序数据异常检测
被引量:49
- 2
-
-
作者
丁小欧
于晟健
王沐贤
王宏志
高宏
杨东华
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第3期726-747,共22页
-
基金
国家重点研发计划(2016YFB100703)
国家自然科学基金(U1509216,U1866602,61602129)
CCF-华为数据库创新研究计划(CCF-Huawei DBIR2019005B)。
-
文摘
多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一种基于序列相关性分析的多维时间序列异常检测方法.首先对多维时间序列进行分段、标准化计算,得到相关性矩阵,提取量化的相关关系;然后建立了时序相关图模型,通过在时序相关图上的相关性强度划分时间序列团,进行时间序列团内、团间以及单维的异常检测.在真实的工业设备传感器数据集上进行了大量实验,实验结果验证了该方法在高维时序数据的异常检测任务上的有效性.通过对比实验,验证了该方法从性能上优于基于统计和基于机器学习模型的基准算法.该研究通过对高维时序数据相关性知识的挖掘,既节约了计算成本,又实现了对复杂模式的异常数据的精准识别.
-
关键词
异常检测
多维时间序列
时序数据分析
工业大数据
机器学习
-
Keywords
anomaly detection
multi-dimensional time series
temporal data analysis
industrial big data
machine learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于文本化简的实体属性抽取方法
被引量:3
- 3
-
-
作者
吴呈
王朝坤
王沐贤
-
机构
清华大学软件学院
哈尔滨工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第21期115-122,共8页
-
基金
国家自然科学基金(No.61872207)
国家重点研发计划(No.2017YFC0820402)。
-
文摘
研究了非结构化中文文本的实体属性抽取方法。引入文本化简作为抽取的预处理过程,解决传统信息抽取方法因为长难句的存在和自然语言表述多样性导致抽取效果不佳的问题。其中,文本化简被建模为一个序列到序列(seq2seq)的翻译过程,并用机器翻译领域的seq2seq-RNN模型进行实现。为了提升模型的化简效果,进行了不同层面的优化,包括使用预训练词向量、收集常用词汇表、引入词性标注和设计化简评分函数,这些优化使模型专注于化简过程中句法转换的学习。针对化简后的文本,设计基于简洁规则的方法进行信息元组和实体属性抽取。实验表明,对seq2seq-RNN的改进能提升文本化简的效果,而且在化简文本上抽取的信息数量比在原始文本上的多,信息也比较精确。
-
关键词
文本化简
信息抽取
实体属性
自然语言处理
神经网络
-
Keywords
text simplification
information extraction
entity attributes
natural language processing
neural network
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TP274
[自动化与计算机技术—检测技术与自动化装置]
-