实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学...实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题。语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型FSSRel(Fusion of Semantic and Syntactic Graph Convolutional Networks Binary Tagging Framework for Relation triple extraction)。该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取。实验结果表明,在NYT数据集和WebNLG数据集上,该模型的F1值较基线模型分别提升了2.5%和1.6%,并且在拥有重叠三元组和多三元组等问题的复杂数据上也有良好的表现。展开更多
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉...针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。展开更多
地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重...地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。展开更多
在现有的实体关系联合抽取任务中,级联解码的方法直接对三元组进行优化,解决了一部分重叠问题,但是在特定关系下解码的实体,造成实体识别不平衡问题。仅用集合预测的方法可以同时解码出实体和关系,虽然解决了三元组的顺序问题,但也导致...在现有的实体关系联合抽取任务中,级联解码的方法直接对三元组进行优化,解决了一部分重叠问题,但是在特定关系下解码的实体,造成实体识别不平衡问题。仅用集合预测的方法可以同时解码出实体和关系,虽然解决了三元组的顺序问题,但也导致实体之间联系性不强、实体和关系之间交互性差的问题。为了进一步提高联合抽取模型的效果,提出一种融合双阶段解码的实体关系联合抽取模型,包括级联策略下的实体解码与集合预测网络阶段的关系解码。该模型分为三个部分:采用Bert进行编码,有效关注到了上下文的信息;采用级联解码的策略先对实体识别,得到不受关系限制的实体信息,充分识别实体;将融合了实体信息的表示嵌入集合预测网络解码出实体-关系三元组,加强实体与关系的联系。在公开数据集纽约时报(The New York Times,NYT)、WebNLG和ACE2005上的实验结果表明,所提出的模型基本优于基线模型,验证了该模型的有效性。展开更多
文摘实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题。语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型FSSRel(Fusion of Semantic and Syntactic Graph Convolutional Networks Binary Tagging Framework for Relation triple extraction)。该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取。实验结果表明,在NYT数据集和WebNLG数据集上,该模型的F1值较基线模型分别提升了2.5%和1.6%,并且在拥有重叠三元组和多三元组等问题的复杂数据上也有良好的表现。
文摘针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。
文摘地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。
文摘在现有的实体关系联合抽取任务中,级联解码的方法直接对三元组进行优化,解决了一部分重叠问题,但是在特定关系下解码的实体,造成实体识别不平衡问题。仅用集合预测的方法可以同时解码出实体和关系,虽然解决了三元组的顺序问题,但也导致实体之间联系性不强、实体和关系之间交互性差的问题。为了进一步提高联合抽取模型的效果,提出一种融合双阶段解码的实体关系联合抽取模型,包括级联策略下的实体解码与集合预测网络阶段的关系解码。该模型分为三个部分:采用Bert进行编码,有效关注到了上下文的信息;采用级联解码的策略先对实体识别,得到不受关系限制的实体信息,充分识别实体;将融合了实体信息的表示嵌入集合预测网络解码出实体-关系三元组,加强实体与关系的联系。在公开数据集纽约时报(The New York Times,NYT)、WebNLG和ACE2005上的实验结果表明,所提出的模型基本优于基线模型,验证了该模型的有效性。