事故风险因素文本泛化是建立油气储运企业事故风险因素演化知识图谱的重要步骤。为解决现有事件文本泛化方法对油气储运企业生产过程中积累的风险因素文本泛化时的语义表征局限性以及存在的分词误差问题,针对油气储运企业安全管理文本...事故风险因素文本泛化是建立油气储运企业事故风险因素演化知识图谱的重要步骤。为解决现有事件文本泛化方法对油气储运企业生产过程中积累的风险因素文本泛化时的语义表征局限性以及存在的分词误差问题,针对油气储运企业安全管理文本语言表达复杂多变的特点,提出基于字词特征-凝聚层次聚类(Char-Word Feature Based AGNES,CW-AGNES)的事故风险因素文本泛化方法。利用Word2Vec方法获取油气储运企业事故的字特征与二元词特征向量;根据预训练词向量模型对油气储运企业事故风险因素文本进行向量化表示;在凝聚层次聚类方法的基础上加入文本的字词特征,在保留词语语义信息的基础上减少由于分词带来的误差,实现风险因素文本的泛化。在真实油气储运企业安全管理文本上对CW-AGNES方法进行应用,并与其他泛化方法进行对比,结果表明:该方法的泛化效果更好,分别在AMI、ARI、V-measure及FMI量化评估指标上提高了2.44%~5.74%,可为油气储运领域事故风险知识图谱构建研究提供支持。展开更多
文摘事故风险因素文本泛化是建立油气储运企业事故风险因素演化知识图谱的重要步骤。为解决现有事件文本泛化方法对油气储运企业生产过程中积累的风险因素文本泛化时的语义表征局限性以及存在的分词误差问题,针对油气储运企业安全管理文本语言表达复杂多变的特点,提出基于字词特征-凝聚层次聚类(Char-Word Feature Based AGNES,CW-AGNES)的事故风险因素文本泛化方法。利用Word2Vec方法获取油气储运企业事故的字特征与二元词特征向量;根据预训练词向量模型对油气储运企业事故风险因素文本进行向量化表示;在凝聚层次聚类方法的基础上加入文本的字词特征,在保留词语语义信息的基础上减少由于分词带来的误差,实现风险因素文本的泛化。在真实油气储运企业安全管理文本上对CW-AGNES方法进行应用,并与其他泛化方法进行对比,结果表明:该方法的泛化效果更好,分别在AMI、ARI、V-measure及FMI量化评估指标上提高了2.44%~5.74%,可为油气储运领域事故风险知识图谱构建研究提供支持。