针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入...针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。展开更多
为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型...为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型(weighted feature fusion and local feature attention model,WFLA)。模型设计加权特征融合模块增强浅层与深层特征的交互,构建局部特征注意模块重点关注区分性部位。在3个公开数据集中的大规模验证实验验证了WFLA模型在人种分类任务中具有明显优势。展开更多
针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for compa...针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for comparing historical and non-historical information,CHNH)。该模型通过BiLSTM捕捉序列中的长期依赖关系,确保准确地编码历史信息。使用RGCN进行图卷积操作,从而学习到全局的图表示。在预测过程中,针对分开编码的历史和非历史信息,采用不同的评分函数来确定预测实体对这两类信息的依赖程度。通过这种方式,模型能够更有效地补全实体和关系,提高模型的预测性能。在ICEWS18、GDELT和YAGO数据集上的实验结果表明,CHNH模型在MRR、Hits@1、Hits@3和Hits@10上普遍优于基线模型。展开更多
文摘针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。
文摘为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型(weighted feature fusion and local feature attention model,WFLA)。模型设计加权特征融合模块增强浅层与深层特征的交互,构建局部特征注意模块重点关注区分性部位。在3个公开数据集中的大规模验证实验验证了WFLA模型在人种分类任务中具有明显优势。
文摘针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for comparing historical and non-historical information,CHNH)。该模型通过BiLSTM捕捉序列中的长期依赖关系,确保准确地编码历史信息。使用RGCN进行图卷积操作,从而学习到全局的图表示。在预测过程中,针对分开编码的历史和非历史信息,采用不同的评分函数来确定预测实体对这两类信息的依赖程度。通过这种方式,模型能够更有效地补全实体和关系,提高模型的预测性能。在ICEWS18、GDELT和YAGO数据集上的实验结果表明,CHNH模型在MRR、Hits@1、Hits@3和Hits@10上普遍优于基线模型。