期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于长尾分类算法的网络不良信息分类
1
作者 刘金硕 王代辰 +1 位作者 邓娟 王丽娜 《计算机工程》 CAS CSCD 北大核心 2023年第8期13-19,28,共8页
目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降。针对该问题,提出一种用于长尾不良信息数据集的分类方... 目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降。针对该问题,提出一种用于长尾不良信息数据集的分类方法 LTIC。将小样本学习与知识转移策略相结合,使用BERT模型学习头部类的权重,通过专门为小样本学习而提出的Prototyper网络得到头部类的原型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题。学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果。实验结果表明:LTIC方法在Twitter和THUCNews数据集上分别达到82.7%和83.5%的分类准确率,且F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法 BNN、OLTR等相比,该方法具有更好的分类效果,平均准确率提升了3%;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到70%,具有良好的扩展性。 展开更多
关键词 不良信息分类 数据不平衡 长尾数据集 小样本学习 知识转移
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部