电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法...电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法,用分类思想进行电力安全三元组抽取。首先从电力安全文本网站提取电力安全标准文本,并开发插件进行手动标注。然后利用Chinese-bert-wwm-ext(Chinese bidirectional encoder representations from transformers whole word masking extesion)预训练模型对电力安全文本数据向量化。随后将词向量枚举,将三元组转换为两对向量组,再设计分类器训练联合抽取模型抽取三元组向量,最后解码出三元组。实验结果:在电力安全数据集上取得了90.2%的F1值,比传统流水线方法Bert-BILSTM-CRF(Bidirectional encoder representations from transformers bidirectional long short-term memory conditional random fields)高10%,比联合抽取模型TPLinker(Token pair linker)高1.3%。该结果表明所提方法便于后续电力安全知识图谱建立。展开更多
针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,...针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,利用BERT(Bidirectional Encoder Representations from Transformers)模型在自构语料库上进行微调,以获取输入文本的特征向量;接着,采用投影梯度下降(PGD)方法在嵌入层进行迭代式对抗训练,提高模型对干扰样本的抵御能力和对真实样本的泛化能力;然后,利用单层头尾指针网络识别出头实体,并结合提示学习模板获取头实体对应的领域先验特征,将字向量与Prompt模板中预测得到的提示向量相结合;最后,在分层标注框架下,使用单层头尾指针网络逐个识别预定义的所有关系类型所对应的尾实体。与基线模型CasRel相比,TBPA在精确率、召回率和F1值上分别提高了3.10、6.12、4.88个百分点。实验结果表明,TBPA在煤矿机电设备领域三元组抽取任务中具有一定的优势。展开更多
文摘电力安全三元组抽取是构建电力安全知识图谱及搜索系统的基础。面对特殊语句时,电力安全传统深度学习抽取方法识别率低且容易出现误差传播,而用联合抽取方法无法处理实体对重叠和单实体重叠问题。因此,提出基于三元组分类的联合抽取方法,用分类思想进行电力安全三元组抽取。首先从电力安全文本网站提取电力安全标准文本,并开发插件进行手动标注。然后利用Chinese-bert-wwm-ext(Chinese bidirectional encoder representations from transformers whole word masking extesion)预训练模型对电力安全文本数据向量化。随后将词向量枚举,将三元组转换为两对向量组,再设计分类器训练联合抽取模型抽取三元组向量,最后解码出三元组。实验结果:在电力安全数据集上取得了90.2%的F1值,比传统流水线方法Bert-BILSTM-CRF(Bidirectional encoder representations from transformers bidirectional long short-term memory conditional random fields)高10%,比联合抽取模型TPLinker(Token pair linker)高1.3%。该结果表明所提方法便于后续电力安全知识图谱建立。
文摘针对机电设备领域相关语料匮乏、关系类型特征挖掘不充分以及文本包含重叠三元组的问题,提出一种融合提示学习与先验知识以迭代式对抗训练的三元组抽取方法TBPA(Triplet extraction Based on Prompt and Antagonistic training)。首先,利用BERT(Bidirectional Encoder Representations from Transformers)模型在自构语料库上进行微调,以获取输入文本的特征向量;接着,采用投影梯度下降(PGD)方法在嵌入层进行迭代式对抗训练,提高模型对干扰样本的抵御能力和对真实样本的泛化能力;然后,利用单层头尾指针网络识别出头实体,并结合提示学习模板获取头实体对应的领域先验特征,将字向量与Prompt模板中预测得到的提示向量相结合;最后,在分层标注框架下,使用单层头尾指针网络逐个识别预定义的所有关系类型所对应的尾实体。与基线模型CasRel相比,TBPA在精确率、召回率和F1值上分别提高了3.10、6.12、4.88个百分点。实验结果表明,TBPA在煤矿机电设备领域三元组抽取任务中具有一定的优势。