针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comp...针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。展开更多
为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based ...为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。展开更多
[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。...[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。展开更多
现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and...现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。展开更多
模型可以生成符合用户偏好的摘要.之前的摘要模型侧重于单独控制某个属性,而不是多个属性的组合.传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时,存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外...模型可以生成符合用户偏好的摘要.之前的摘要模型侧重于单独控制某个属性,而不是多个属性的组合.传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时,存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外单词等问题.为此,本文提出了一种基于扩展Transformer和指针生成网络(pointer generator network,PGN)的模型.模型中的扩展Transformer将Transformer单编码器-单解码器的模型形式扩展成具有双重文本语义信息提取的双编码器和单个可融合指导信号特征的解码器形式.然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表生成新的摘要信息,以解决摘要任务中常出现的OOV(out of vocabulary)问题.此外,为高效完成位置信息编码,模型在注意力层中使用相对位置表示来引入文本的序列信息.模型可以用于控制摘要的许多重要属性,包括长度、主题和具体性等.通过在公开数据集MACSum上的实验表明,相较以往方法,本文提出的模型在确保摘要质量的同时,更加符合用户给定的属性要求.展开更多
文摘针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。
文摘为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。
文摘[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。
文摘现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。
文摘模型可以生成符合用户偏好的摘要.之前的摘要模型侧重于单独控制某个属性,而不是多个属性的组合.传统的Seq2Seq多属性可控文本摘要模型在满足多个控制属性时,存在无法整合所有控制属性、无法准确再现文本中关键信息和无法处理单词表外单词等问题.为此,本文提出了一种基于扩展Transformer和指针生成网络(pointer generator network,PGN)的模型.模型中的扩展Transformer将Transformer单编码器-单解码器的模型形式扩展成具有双重文本语义信息提取的双编码器和单个可融合指导信号特征的解码器形式.然后利用指针生成网络模型选择从源文本中复制单词或利用词汇表生成新的摘要信息,以解决摘要任务中常出现的OOV(out of vocabulary)问题.此外,为高效完成位置信息编码,模型在注意力层中使用相对位置表示来引入文本的序列信息.模型可以用于控制摘要的许多重要属性,包括长度、主题和具体性等.通过在公开数据集MACSum上的实验表明,相较以往方法,本文提出的模型在确保摘要质量的同时,更加符合用户给定的属性要求.