现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and...现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。展开更多
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉...针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。展开更多
为进一步提高实体关系抽取的效果,对传统标注方案进行改进,构建一个融合预训练模型和神经网络的联合抽取模型。利用RoBERTa(robustly optimized BERT approach)和Bi-LSTM(bi-directional long short-term memory)对文本进行编码,对上下...为进一步提高实体关系抽取的效果,对传统标注方案进行改进,构建一个融合预训练模型和神经网络的联合抽取模型。利用RoBERTa(robustly optimized BERT approach)和Bi-LSTM(bi-directional long short-term memory)对文本进行编码,对上下文信息进行建模后,通过CRF(conditional random fields)识别实体,利用LSTM(long short term memory)进行关系分类。在中文数据集DuIE上进行消融实验和对比实验,此模型的F1指标达到77.1%,精确率高达78.3%,两项指标比当前主流模型FETI分别提高了1.3%和2.6%,实验结果验证了该模型的优势。展开更多
针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry...针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling,DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。展开更多
文摘现有分阶段解码的实体关系抽取模型仍存在着阶段间特征融合不充分的问题,会增大曝光偏差对抽取性能的影响。为此,提出一种双关系预测和特征融合的实体关系抽取模型(entity relation extraction model with dual relation prediction and feature fusion,DRPFF),该模型使用预训练的基于Transformer的双向编码表示模型(bidirectional encoder representation from transformers,BERT)对文本进行编码,并设计两阶段的双关系预测结构来减少抽取过程中错误三元组的生成。在阶段间通过门控线性单元(gated linear unit,GLU)和条件层规范化(conditional layer normalization,CLN)组合的结构来更好地融合实体之间的特征。在NYT和WebNLG这2个公开数据集上的试验结果表明,该模型相较于基线方法取得了更好的效果。
文摘针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm,ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数据基础。
文摘为进一步提高实体关系抽取的效果,对传统标注方案进行改进,构建一个融合预训练模型和神经网络的联合抽取模型。利用RoBERTa(robustly optimized BERT approach)和Bi-LSTM(bi-directional long short-term memory)对文本进行编码,对上下文信息进行建模后,通过CRF(conditional random fields)识别实体,利用LSTM(long short term memory)进行关系分类。在中文数据集DuIE上进行消融实验和对比实验,此模型的F1指标达到77.1%,精确率高达78.3%,两项指标比当前主流模型FETI分别提高了1.3%和2.6%,实验结果验证了该模型的优势。
文摘针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling,DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。