针对工业设备故障领域训练数据少、实体结构复杂和实体分布不均匀等问题,文中构建了工业设备故障命名实体识别语料库。为解决字符级命名实体识别模型难以表示工业设备故障领域的专业词汇信息问题,文中提出一种基于字符增强的工业设备故...针对工业设备故障领域训练数据少、实体结构复杂和实体分布不均匀等问题,文中构建了工业设备故障命名实体识别语料库。为解决字符级命名实体识别模型难以表示工业设备故障领域的专业词汇信息问题,文中提出一种基于字符增强的工业设备故障命名实体识别模型。在嵌入层,直接在RoBERTa-WWM(Robustly Optimized BERT Pretraining Approach with Whole Word Masking)的Transformer层之间融入专业词汇信息,将单词信息分配给其包含的每个字来达到增强语义的目的,通过BiLSTM(Bidirectional Long Short-Term Memory)获得全局语义信息,利用CRF(Conditional Random Field)学习相邻标签之间的依赖关系,以获得最佳句子级标签序列。实验结果证明,所提模型对工业设备故障命名实体识别任务具有良好的效果,平均F1值达到了92.403%。展开更多
文摘针对工业设备故障领域训练数据少、实体结构复杂和实体分布不均匀等问题,文中构建了工业设备故障命名实体识别语料库。为解决字符级命名实体识别模型难以表示工业设备故障领域的专业词汇信息问题,文中提出一种基于字符增强的工业设备故障命名实体识别模型。在嵌入层,直接在RoBERTa-WWM(Robustly Optimized BERT Pretraining Approach with Whole Word Masking)的Transformer层之间融入专业词汇信息,将单词信息分配给其包含的每个字来达到增强语义的目的,通过BiLSTM(Bidirectional Long Short-Term Memory)获得全局语义信息,利用CRF(Conditional Random Field)学习相邻标签之间的依赖关系,以获得最佳句子级标签序列。实验结果证明,所提模型对工业设备故障命名实体识别任务具有良好的效果,平均F1值达到了92.403%。