摘要
PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档。两步策略是解决PU学习问题的一种最常用的方法。实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好。为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法 F值有将近30%的提高。
出处
《信息通信》
2016年第3期27-28,共2页
Information & Communications
基金
四川省科技计划项目(2012ZR0120)