针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comp...针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。展开更多
为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based ...为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。展开更多
目前针对复杂语义和复杂句法的知识库问答(Knowledge Base Question Answering,KBQA)研究层出不穷,但它们多以已知问题的主题实体为前提,对问题中多意图和多实体重视不足,而问句中对核心实体的识别是理解自然语言的关键。针对此问题,提...目前针对复杂语义和复杂句法的知识库问答(Knowledge Base Question Answering,KBQA)研究层出不穷,但它们多以已知问题的主题实体为前提,对问题中多意图和多实体重视不足,而问句中对核心实体的识别是理解自然语言的关键。针对此问题,提出了一种引入核心实体关注度的KBQA模型。该模型基于注意力机制及注意力增强技术,对识别到的实体引用(Mention)进行重要性评估,得到实体引用关注度,去除潜在干扰项,捕获用户提问的核心实体,解决了多实体、多意图问句的语义理解问题。此外,还将评估的结果作为重要权重引入后续的问答推理中。在英文MetaQA数据集、多实体问句MetaQA数据集、多实体问句HotpotQA数据集上,与KVMem,GraftNet,PullNet等模型进行了对比实验。结果表明,针对多实体问句,所提模型在Hits@n、准确率、召回率等评估指标上均取得了更好的实验效果。展开更多
针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundar...针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundary detection,SBDM)。SBDM首先使用训练Transformer的双向编码器表征量(bidirectional encoder representations from Transformer,BERT)模型将文本转化为词向量,并融合了通过图卷积获取的句法依赖信息以形成文本的特征表示;接着通过局部信息和句子上下文信息去探测实体边界并进行标记,以减少非实体跨度;然后将实体边界标记形成的跨度序列进行实体识别;最后将局部上下文信息融合到1个跨度实体对中并使用sigmoid函数进行关系分类。实验表明,SBDM在SciERC(multi-task identification of entities,relations,and coreference for scientific knowledge graph construction)数据集、CoNLL04(the 2004 conference on natural language learning)数据集上的关系分类指标S F1分别达到52.86%、74.47%,取得了较好效果。SBDM用于关系分类任务中,能促进跨度分类方法在关系抽取上的研究。展开更多
针对恐怖袭击事件文本语料库匮乏的问题,文章制定了恐怖袭击事件的实体标注规范,通过对全球恐怖主义数据库(GTD)的数据进行实体标注,构建了恐怖袭击事件的实体语料库。同时,针对数据标注工作的高人力和高时间成本问题,由于百度通用信息...针对恐怖袭击事件文本语料库匮乏的问题,文章制定了恐怖袭击事件的实体标注规范,通过对全球恐怖主义数据库(GTD)的数据进行实体标注,构建了恐怖袭击事件的实体语料库。同时,针对数据标注工作的高人力和高时间成本问题,由于百度通用信息抽取(Universal Information Extraction,UIE)模型在极小样本上具有较强的泛化能力,采用UIE模型进行辅助标注。实验结果证明了标注方案的有效性,并在一定程度上减少了标注时间。展开更多
文摘针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。
文摘为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF(wheat germplasm information extraction model based on deep character and word fusion)。模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力。在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑。
文摘目前针对复杂语义和复杂句法的知识库问答(Knowledge Base Question Answering,KBQA)研究层出不穷,但它们多以已知问题的主题实体为前提,对问题中多意图和多实体重视不足,而问句中对核心实体的识别是理解自然语言的关键。针对此问题,提出了一种引入核心实体关注度的KBQA模型。该模型基于注意力机制及注意力增强技术,对识别到的实体引用(Mention)进行重要性评估,得到实体引用关注度,去除潜在干扰项,捕获用户提问的核心实体,解决了多实体、多意图问句的语义理解问题。此外,还将评估的结果作为重要权重引入后续的问答推理中。在英文MetaQA数据集、多实体问句MetaQA数据集、多实体问句HotpotQA数据集上,与KVMem,GraftNet,PullNet等模型进行了对比实验。结果表明,针对多实体问句,所提模型在Hits@n、准确率、召回率等评估指标上均取得了更好的实验效果。
文摘针对大多数跨度模型将文本分割成跨度序列时,产生大量非实体跨度,导致了数据不平衡和计算复杂度高等问题,提出了基于跨度和边界探测的实体关系联合抽取模型(joint extraction model for entity relationships based on span and boundary detection,SBDM)。SBDM首先使用训练Transformer的双向编码器表征量(bidirectional encoder representations from Transformer,BERT)模型将文本转化为词向量,并融合了通过图卷积获取的句法依赖信息以形成文本的特征表示;接着通过局部信息和句子上下文信息去探测实体边界并进行标记,以减少非实体跨度;然后将实体边界标记形成的跨度序列进行实体识别;最后将局部上下文信息融合到1个跨度实体对中并使用sigmoid函数进行关系分类。实验表明,SBDM在SciERC(multi-task identification of entities,relations,and coreference for scientific knowledge graph construction)数据集、CoNLL04(the 2004 conference on natural language learning)数据集上的关系分类指标S F1分别达到52.86%、74.47%,取得了较好效果。SBDM用于关系分类任务中,能促进跨度分类方法在关系抽取上的研究。
文摘针对恐怖袭击事件文本语料库匮乏的问题,文章制定了恐怖袭击事件的实体标注规范,通过对全球恐怖主义数据库(GTD)的数据进行实体标注,构建了恐怖袭击事件的实体语料库。同时,针对数据标注工作的高人力和高时间成本问题,由于百度通用信息抽取(Universal Information Extraction,UIE)模型在极小样本上具有较强的泛化能力,采用UIE模型进行辅助标注。实验结果证明了标注方案的有效性,并在一定程度上减少了标注时间。