从无结构化自然语言文本中抽取实体关系三元组是构建大型知识图谱中最为关键的一步,但现有研究仍存在3方面问题:1)忽略文本中因多个三元组共享同一实体而产生的实体关系重叠问题;2)当前以编码器-解码器为基础的联合抽取模型未充分考虑...从无结构化自然语言文本中抽取实体关系三元组是构建大型知识图谱中最为关键的一步,但现有研究仍存在3方面问题:1)忽略文本中因多个三元组共享同一实体而产生的实体关系重叠问题;2)当前以编码器-解码器为基础的联合抽取模型未充分考虑文本语句词之间的依赖关系;3)部分三元组序列过长导致误差累积与传播,影响实体关系抽取的精度和效率.基于此,提出基于图卷积增强多路解码的实体关系联合抽取模型(graph convolution-enhanced multi-channel decoding joint entity and relation extraction model,GMCD-JERE).首先,基于BiLSTM作为模型编码器,强化文本中词的双向特征融合;其次,通过图卷积多跳特征融合句中词之间的依赖关系,提高关系抽取准确性;此外,改进传统模型按三元组先后顺序的解码机制,通过多路解码三元组机制,解决实体关系重叠问题,同时缓解三元组序列过长造成误差累积、传播的影响;最后,实验选用当前3个主流模型进行性能验证,在NYT(New York times)数据集上结果表明在精确率、召回率和F1这3个指标上分别提升了4.3%,5.1%,4.8%,同时在WebNLG(Web natural language generation)数据集上验证以关系为开始的抽取顺序.展开更多
文摘从无结构化自然语言文本中抽取实体关系三元组是构建大型知识图谱中最为关键的一步,但现有研究仍存在3方面问题:1)忽略文本中因多个三元组共享同一实体而产生的实体关系重叠问题;2)当前以编码器-解码器为基础的联合抽取模型未充分考虑文本语句词之间的依赖关系;3)部分三元组序列过长导致误差累积与传播,影响实体关系抽取的精度和效率.基于此,提出基于图卷积增强多路解码的实体关系联合抽取模型(graph convolution-enhanced multi-channel decoding joint entity and relation extraction model,GMCD-JERE).首先,基于BiLSTM作为模型编码器,强化文本中词的双向特征融合;其次,通过图卷积多跳特征融合句中词之间的依赖关系,提高关系抽取准确性;此外,改进传统模型按三元组先后顺序的解码机制,通过多路解码三元组机制,解决实体关系重叠问题,同时缓解三元组序列过长造成误差累积、传播的影响;最后,实验选用当前3个主流模型进行性能验证,在NYT(New York times)数据集上结果表明在精确率、召回率和F1这3个指标上分别提升了4.3%,5.1%,4.8%,同时在WebNLG(Web natural language generation)数据集上验证以关系为开始的抽取顺序.