[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。...[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。展开更多
文摘[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。