事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,...事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention,EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67%。展开更多
针对事件抽取存在未充分利用句法关系、论元角色缺失的情况,提出了基于双重注意力机制的事件抽取(event extraction based on dual attention mechanism,EEDAM)方法,有助于提高事件抽取的精确率和召回率.首先,基于4种嵌入向量进行句子编...针对事件抽取存在未充分利用句法关系、论元角色缺失的情况,提出了基于双重注意力机制的事件抽取(event extraction based on dual attention mechanism,EEDAM)方法,有助于提高事件抽取的精确率和召回率.首先,基于4种嵌入向量进行句子编码,引入依赖关系,构建依赖关系图,使深度神经网络可以充分利用句法关系.然后,通过图转换注意网络生成新的依赖弧和聚合节点信息,捕获长程依赖关系和潜在交互,加权融合注意力网络,捕捉句中关键的语义信息,抽取句子级事件论元,提升模型预测能力.最后,利用关键句检测和相似性排序,进行文档级论元填充.实验结果表明,采用基于双重注意力机制的事件抽取方法,在ACE2005数据集上,较最佳基线联合多中文事件抽取器(joint multiple Chinese event extractor,JMCEE)在精确率、召回率和F1-score分别提高17.82%、4.61%、9.80%;在大坝安全运行日志数据集上,较最佳基线JMCEE在精确率、召回率和F1-score上分别提高18.08%、4.41%、9.93%.展开更多
文摘事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention,EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67%。
文摘针对事件抽取存在未充分利用句法关系、论元角色缺失的情况,提出了基于双重注意力机制的事件抽取(event extraction based on dual attention mechanism,EEDAM)方法,有助于提高事件抽取的精确率和召回率.首先,基于4种嵌入向量进行句子编码,引入依赖关系,构建依赖关系图,使深度神经网络可以充分利用句法关系.然后,通过图转换注意网络生成新的依赖弧和聚合节点信息,捕获长程依赖关系和潜在交互,加权融合注意力网络,捕捉句中关键的语义信息,抽取句子级事件论元,提升模型预测能力.最后,利用关键句检测和相似性排序,进行文档级论元填充.实验结果表明,采用基于双重注意力机制的事件抽取方法,在ACE2005数据集上,较最佳基线联合多中文事件抽取器(joint multiple Chinese event extractor,JMCEE)在精确率、召回率和F1-score分别提高17.82%、4.61%、9.80%;在大坝安全运行日志数据集上,较最佳基线JMCEE在精确率、召回率和F1-score上分别提高18.08%、4.41%、9.93%.