针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入...针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。展开更多
为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型...为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型(weighted feature fusion and local feature attention model,WFLA)。模型设计加权特征融合模块增强浅层与深层特征的交互,构建局部特征注意模块重点关注区分性部位。在3个公开数据集中的大规模验证实验验证了WFLA模型在人种分类任务中具有明显优势。展开更多
针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for compa...针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for comparing historical and non-historical information,CHNH)。该模型通过BiLSTM捕捉序列中的长期依赖关系,确保准确地编码历史信息。使用RGCN进行图卷积操作,从而学习到全局的图表示。在预测过程中,针对分开编码的历史和非历史信息,采用不同的评分函数来确定预测实体对这两类信息的依赖程度。通过这种方式,模型能够更有效地补全实体和关系,提高模型的预测性能。在ICEWS18、GDELT和YAGO数据集上的实验结果表明,CHNH模型在MRR、Hits@1、Hits@3和Hits@10上普遍优于基线模型。展开更多
基于信息论的特征选择算法在度量候选特征所提供的分类信息时,往往仅考虑单一标签的情况,忽略了候选特征和成对标签存在的多样关联关系,这可能导致低估了候选特征的重要性。为解决这一问题,提出一种新颖的基于三元互信息的成对多标签特...基于信息论的特征选择算法在度量候选特征所提供的分类信息时,往往仅考虑单一标签的情况,忽略了候选特征和成对标签存在的多样关联关系,这可能导致低估了候选特征的重要性。为解决这一问题,提出一种新颖的基于三元互信息的成对多标签特征选择算法(Pairwise multi-label feature selection based on interaction mutual information, IPFS)。具体地,IPFS算法为不同的成对标签分配基于三元互信息的不同权重,并据此权重测量候选特征为两个标签提供的分类信息总量,从而精确评估候选特征的重要性,同时基于最大相关最小冗余原则,筛选出最优的特征子集。最后,将提出的算法与其他8个先进的特征选择算法在12个多样化的数据集上进行了比较。实验结果表明,IPFS在3个评估指标上均显著优于其他算法。The feature selection methods based on information theory usually focus on considering the single label when evaluating the classification information provided by the candidate features, and do not take into account the multiple correlations between the candidate features and the paired labels, thus underestimating the importance of the candidate features. To solve this issue, an innovative paired multi-label feature selection method based on interaction mutual information (IPFS) was proposed. Specifically, IPFS method assigns different weights based on interaction mutual information to different pairs of labels, so as to accurately evaluate the importance of candidate features, and further select the most suitable feature subset based on the maximum correlation minimum redundancy strategy. To verify the effectiveness of the proposed method, IPFS is compared with eight other advanced feature selection methods on 12 diverse datasets, and the results show that IPFS significantly outperforms other methods on four different evaluation metrics.展开更多
文摘针对命名实体识别(NER)任务中相关模型通常仅对字符及相关词汇进行建模,未充分利用汉字特有的字形结构信息和实体类型信息的问题,提出一种融合先验知识和字形特征的命名实体识别模型。首先,采用结合高斯注意力机制的Transformer对输入序列进行编码,并从中文维基百科中获取实体类型的中文释义,采用双向门控循环单元(BiGRU)编码实体类型信息作为先验知识,利用注意力机制将它与字符表示进行组合;其次,采用双向长短时记忆(BiLSTM)网络编码输入序列的远距离依赖关系,通过字形编码表获得繁体的仓颉码和简体的现代五笔码,采用卷积神经网络(CNN)提取字形特征表示,并根据不同权重组合繁体与简体字形特征,利用门控机制将它与经过BiLSTM编码后的字符表示进行组合;最后,使用条件随机场(CRF)解码,得到命名实体标注序列。在偏口语化的数据集Weibo、小型数据集Boson和大型数据集PeopleDaily上的实验结果表明,与基线模型MECT(Multi-metadata Embedding based Cross-Transformer)相比,所提模型的F1值别提高了2.47、1.20和0.98个百分点,验证了模型的有效性。
文摘为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型(weighted feature fusion and local feature attention model,WFLA)。模型设计加权特征融合模块增强浅层与深层特征的交互,构建局部特征注意模块重点关注区分性部位。在3个公开数据集中的大规模验证实验验证了WFLA模型在人种分类任务中具有明显优势。
文摘针对现有的时序知识图谱补全模型高度依赖历史上已经发生过的事件,对历史上未发生过的事件预测不够准确的问题,提出了一种加入时序信息的对比历史与非历史信息的时序知识图谱补全模型(completion of temporal knowledge graph for comparing historical and non-historical information,CHNH)。该模型通过BiLSTM捕捉序列中的长期依赖关系,确保准确地编码历史信息。使用RGCN进行图卷积操作,从而学习到全局的图表示。在预测过程中,针对分开编码的历史和非历史信息,采用不同的评分函数来确定预测实体对这两类信息的依赖程度。通过这种方式,模型能够更有效地补全实体和关系,提高模型的预测性能。在ICEWS18、GDELT和YAGO数据集上的实验结果表明,CHNH模型在MRR、Hits@1、Hits@3和Hits@10上普遍优于基线模型。
文摘基于信息论的特征选择算法在度量候选特征所提供的分类信息时,往往仅考虑单一标签的情况,忽略了候选特征和成对标签存在的多样关联关系,这可能导致低估了候选特征的重要性。为解决这一问题,提出一种新颖的基于三元互信息的成对多标签特征选择算法(Pairwise multi-label feature selection based on interaction mutual information, IPFS)。具体地,IPFS算法为不同的成对标签分配基于三元互信息的不同权重,并据此权重测量候选特征为两个标签提供的分类信息总量,从而精确评估候选特征的重要性,同时基于最大相关最小冗余原则,筛选出最优的特征子集。最后,将提出的算法与其他8个先进的特征选择算法在12个多样化的数据集上进行了比较。实验结果表明,IPFS在3个评估指标上均显著优于其他算法。The feature selection methods based on information theory usually focus on considering the single label when evaluating the classification information provided by the candidate features, and do not take into account the multiple correlations between the candidate features and the paired labels, thus underestimating the importance of the candidate features. To solve this issue, an innovative paired multi-label feature selection method based on interaction mutual information (IPFS) was proposed. Specifically, IPFS method assigns different weights based on interaction mutual information to different pairs of labels, so as to accurately evaluate the importance of candidate features, and further select the most suitable feature subset based on the maximum correlation minimum redundancy strategy. To verify the effectiveness of the proposed method, IPFS is compared with eight other advanced feature selection methods on 12 diverse datasets, and the results show that IPFS significantly outperforms other methods on four different evaluation metrics.