事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,...事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention,EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67%。展开更多
针对传统自蒸馏方法存在数据预处理成本高、局部特征检测缺失,以及模型分类精度低的情况,提出了基于相似一致性的模型自蒸馏方法(Similarity and Consistency by Self-Distillation,SCD),提高模型分类精度。首先,对样本图像的不同层进...针对传统自蒸馏方法存在数据预处理成本高、局部特征检测缺失,以及模型分类精度低的情况,提出了基于相似一致性的模型自蒸馏方法(Similarity and Consistency by Self-Distillation,SCD),提高模型分类精度。首先,对样本图像的不同层进行学习得到特征图,通过特征权值分布获取注意力图。然后,计算Mini-batch内样本间注意力图的相似性获得相似一致性知识矩阵,构建基于相似一致性的知识,使得无须对实例数据进行失真处理或提取同一类别的数据来获取额外的实例间知识,避免了大量的数据预处理工作带来的训练成本高和训练复杂的问题。最后,将相似一致性知识矩阵在模型中间层之间单向传递,让浅层次的相似矩阵模仿深层次的相似矩阵,细化低层次的相似性,捕获更加丰富的上下文场景和局部特征,解决局部特征检测缺失问题,实现单阶段单向知识转移的自蒸馏。实验结果表明,采用基于相似一致性的模型自蒸馏方法:在公开数据集CIFAR100和TinyImageNet上,验证了SCD提取的相似一致性知识在模型自蒸馏中的有效性,相较于自注意力蒸馏方法(Self Attention Distillation,SAD)和保持相似性的知识蒸馏方法(Similarity-Preserving Knowledge Distillation,SPKD),分类精度平均提升1.42%;相较于基于深度监督的自蒸馏方法(Be Your Own Teacher,BYOT)和动态本地集成知识蒸馏方法(On-the-fly Native Ensemble,ONE),分类精度平均提升1.13%;相较于基于深度神经网络的数据失真引导自蒸馏方法(Data-Distortion Guided Self-Distillation,DDGSD)和基于类间的自蒸馏方法(Class-wise Self-Knowledge Distillation,CS-KD),分类精度平均提升1.23%。展开更多
文摘事件抽取是自然语言处理的重要任务,而事件检测是事件抽取的关键步骤之一,其目标是检测事件的发生并对其进行分类。目前基于触发器识别的中文事件检测方法存在一词多义、词与触发词不匹配的问题,影响了事件检测模型的精度。针对此问题,提出基于双重注意力的无触发词事件检测模型(Event Detection Without Triggers based on Dual Attention,EDWTDA),该模型可跳过触发词识别过程,实现在无触发词标记情况下直接判断事件类型。EDWTDA利用ALBERT改善词嵌入向量的语义表示能力,缓解一词多义问题,提高模型预测能力;采用局部注意力融合事件类型捕捉句中关键语义信息并模拟隐藏的事件触发词,解决词与触发词不匹配的问题;借助全局注意力挖掘文档中的语境信息,解决一词多义问题;最后将事件检测转化成二分类任务,解决多标签问题。同时,采用Focal loss损失函数解决转化成二分类后产生的样本不均衡问题。在ACE2005中文语料库上的实验结果表明,所提模型相比最佳基线模型JMCEE在精确率、召回率和F1-score评价指标上分别提高了3.40%,3.90%,3.67%。
文摘针对传统自蒸馏方法存在数据预处理成本高、局部特征检测缺失,以及模型分类精度低的情况,提出了基于相似一致性的模型自蒸馏方法(Similarity and Consistency by Self-Distillation,SCD),提高模型分类精度。首先,对样本图像的不同层进行学习得到特征图,通过特征权值分布获取注意力图。然后,计算Mini-batch内样本间注意力图的相似性获得相似一致性知识矩阵,构建基于相似一致性的知识,使得无须对实例数据进行失真处理或提取同一类别的数据来获取额外的实例间知识,避免了大量的数据预处理工作带来的训练成本高和训练复杂的问题。最后,将相似一致性知识矩阵在模型中间层之间单向传递,让浅层次的相似矩阵模仿深层次的相似矩阵,细化低层次的相似性,捕获更加丰富的上下文场景和局部特征,解决局部特征检测缺失问题,实现单阶段单向知识转移的自蒸馏。实验结果表明,采用基于相似一致性的模型自蒸馏方法:在公开数据集CIFAR100和TinyImageNet上,验证了SCD提取的相似一致性知识在模型自蒸馏中的有效性,相较于自注意力蒸馏方法(Self Attention Distillation,SAD)和保持相似性的知识蒸馏方法(Similarity-Preserving Knowledge Distillation,SPKD),分类精度平均提升1.42%;相较于基于深度监督的自蒸馏方法(Be Your Own Teacher,BYOT)和动态本地集成知识蒸馏方法(On-the-fly Native Ensemble,ONE),分类精度平均提升1.13%;相较于基于深度神经网络的数据失真引导自蒸馏方法(Data-Distortion Guided Self-Distillation,DDGSD)和基于类间的自蒸馏方法(Class-wise Self-Knowledge Distillation,CS-KD),分类精度平均提升1.23%。