-
题名基于长尾分类算法的网络不良信息分类
- 1
-
-
作者
刘金硕
王代辰
邓娟
王丽娜
-
机构
武汉大学空天信息安全与可信计算教育部重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第8期13-19,28,共8页
-
基金
国家自然科学基金(U193607)
国家重点研发计划(2020YFA0607902)。
-
文摘
目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降。针对该问题,提出一种用于长尾不良信息数据集的分类方法 LTIC。将小样本学习与知识转移策略相结合,使用BERT模型学习头部类的权重,通过专门为小样本学习而提出的Prototyper网络得到头部类的原型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题。学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果。实验结果表明:LTIC方法在Twitter和THUCNews数据集上分别达到82.7%和83.5%的分类准确率,且F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法 BNN、OLTR等相比,该方法具有更好的分类效果,平均准确率提升了3%;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到70%,具有良好的扩展性。
-
关键词
不良信息分类
数据不平衡
长尾数据集
小样本学习
知识转移
-
Keywords
classification of harmful information
data imbalance
long-tailed dataset
few-shot learning
knowledge transfer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-