针对不均衡数据分类问题中原有过采样方法在生成样本分布上存在的不足,文章提出改进合成样本分布的加权过采样方法——WKSMOTE(Weighted SMOTE for WKMeans preprocess)。首先,应用聚类算法中的WKMeans算法对原数据集进行预处理,进而划...针对不均衡数据分类问题中原有过采样方法在生成样本分布上存在的不足,文章提出改进合成样本分布的加权过采样方法——WKSMOTE(Weighted SMOTE for WKMeans preprocess)。首先,应用聚类算法中的WKMeans算法对原数据集进行预处理,进而划分少数类样本,使每个样本生成不同数量的新样本;然后,应用SMOTE算法合成新样本,增强决策边界;最后,将过采样后的均衡数据集在随机森林分类器中进行训练。实验结果表明,WKSMOTE方法对不均衡数据集的整体分类性能有一定的提升,验证了方法的有效性。展开更多
原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用...原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体.针对上述问题,提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks,FNFP)方法,有助于提高小样本命名实体识别的标注效果.首先,为不同的查询集样本构造不同的非实体原型,捕捉句子中关键的非实体语义特征,得到更为细粒度的原型,提升模型对非实体的识别效果;然后,设计一个不一致性度量模块以衡量同类实体之间的不一致性,对实体与非实体采用不同的度量函数,从而减小同类样本之间的特征表示,提升原型的特征表示能力;最后,引入维特比解码器捕捉标签转换关系,优化最终的标注序列.实验结果表明,采用基于细粒度原型网络的小样本命名实体识别方法,在大规模小样本命名实体识别数据集FEW-NERD上,较基线方法获得提升;同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力.展开更多
文摘针对不均衡数据分类问题中原有过采样方法在生成样本分布上存在的不足,文章提出改进合成样本分布的加权过采样方法——WKSMOTE(Weighted SMOTE for WKMeans preprocess)。首先,应用聚类算法中的WKMeans算法对原数据集进行预处理,进而划分少数类样本,使每个样本生成不同数量的新样本;然后,应用SMOTE算法合成新样本,增强决策边界;最后,将过采样后的均衡数据集在随机森林分类器中进行训练。实验结果表明,WKSMOTE方法对不均衡数据集的整体分类性能有一定的提升,验证了方法的有效性。
文摘原型网络直接应用于小样本命名实体识别(few-shot named entity recognition,FEW-NER)时存在以下问题:非实体之间不具有较强的语义关系,对实体和非实体都采用相同的方式构造原型将会造成非实体原型不能准确表示非实体的语义特征;仅使用平均实体向量表示作为原型的计算方式将难以捕捉语义特征相差较大的同类实体.针对上述问题,提出基于细粒度原型网络的小样本命名实体识别(FEW-NER based on fine-grained prototypical networks,FNFP)方法,有助于提高小样本命名实体识别的标注效果.首先,为不同的查询集样本构造不同的非实体原型,捕捉句子中关键的非实体语义特征,得到更为细粒度的原型,提升模型对非实体的识别效果;然后,设计一个不一致性度量模块以衡量同类实体之间的不一致性,对实体与非实体采用不同的度量函数,从而减小同类样本之间的特征表示,提升原型的特征表示能力;最后,引入维特比解码器捕捉标签转换关系,优化最终的标注序列.实验结果表明,采用基于细粒度原型网络的小样本命名实体识别方法,在大规模小样本命名实体识别数据集FEW-NERD上,较基线方法获得提升;同时在跨领域数据集上验证所提方法在不同领域场景下的泛化能力.