从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一...从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL)。首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息。然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务。最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果。实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和WebNLG数据集上的参数量减少了3.1×10^(6)~5.4×10^(6),平均推理速度提升了2~4.2倍,F1值提升了0.5%~2.1%。展开更多
文摘从非结构化文本中抽取实体和关系是自动构建知识库的基础工作。现有的工作主要采用联合学习方法来解决嵌套实体、重叠关系、冗余计算和曝光偏差等问题,但单个模型仅在部分问题上表现出色,尚无模型可以同时解决上述问题。因此,提出了一种基于增强序列标注策略的单阶段联合实体关系抽取方法(A Token With Multi-labels Entity and Relation Extraction,ATMREL)。首先,设计了一种增强序列标注策略,将文本中的每个单词标记为多个标签,标签包含每个单词在实体中的位置、关系类型和实体位置信息。然后,将每个单词的标签预测转化为多标签分类任务,同时将联合实体关系抽取转化为序列标注任务。最后,为增强实体对之间的依赖关系,引入实体相关矩阵,用于对抽取结果进行剪枝,以提升模型抽取效果。实验结果表明,与CasRel和TPLinker模型相比,ATMREL模型在NYT和WebNLG数据集上的参数量减少了3.1×10^(6)~5.4×10^(6),平均推理速度提升了2~4.2倍,F1值提升了0.5%~2.1%。