期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于聚类的PU主动文本分类方法 被引量:24
1
作者 刘露 彭涛 +1 位作者 左万利 戴耀康 《软件学报》 EI CSCD 北大核心 2013年第11期2571-2583,共13页
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别... 文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度. 展开更多
关键词 pu(FIositive and unlabeled)文本分类 聚类 TFIPNDF(term FREQUENCY inverse positive negative document frequency) 主动学习 可信反例 改进的Rocchio
下载PDF
基于支持向量机的PU中文文本分类器构建 被引量:6
2
作者 王宗尧 刘金岭 《南京邮电大学学报(自然科学版)》 北大核心 2015年第6期100-105,共6页
在PU文本分类中,针对文本分类中可信反例获取困难,使文本分类器性能低下的问题,提出了一种基于支持向量机的PU文本分类器的构建。该方法采用改进的特征词权值提取方法进行特征词提取,利用OB_PCZ算法从未标识文本数据集中尽可能多地移除... 在PU文本分类中,针对文本分类中可信反例获取困难,使文本分类器性能低下的问题,提出了一种基于支持向量机的PU文本分类器的构建。该方法采用改进的特征词权值提取方法进行特征词提取,利用OB_PCZ算法从未标识文本数据集中尽可能多地移除正例,从而获得更多的可信反例。结合支持向量机和改进的Rocchio构建了高效的文本分类器。实验表明,该方法比目前其它的面向PU学习的文本分类方法具有更高的分类质量。 展开更多
关键词 支持向量机 pu分类 文本分类 正例 可信反例
下载PDF
基于PU学习的建议语句分类方法 被引量:2
3
作者 张璞 刘畅 李逍 《计算机应用》 CSCD 北大核心 2019年第3期639-643,共5页
建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语... 建议挖掘作为一项新兴研究任务,具有重要的应用价值。针对传统建议语句分类方法所存在的规则复杂、标注工作量大、特征维度高、数据稀疏等问题,提出一种基于PU学习的建议语句分类方法。首先,使用简单规则从无标注评论集合中选择建议语句的正例集合;然后,为了降低特征维度,缓解数据稀疏性,在自编码神经网络(Autoencoder)特征空间中使用Spy技术划分可靠反例集合;最后,利用正例集合和可靠反例集合来训练多层感知机(MLP)对剩余的无标注样例进行分类。该方法在中文数据集上的F1值和准确率值分别达到81.98%和82.67%,实验结果表明,该方法能够有效地对建议语句进行分类,且不需要对数据进行人工标注。 展开更多
关键词 建议挖掘 建议语句分类 pu学习 自编码器 多层感知机
下载PDF
基于预测对抗网络的图像二分类模型
4
作者 余筝韵 李春 《计算机系统应用》 2023年第10期275-283,共9页
正未标记学习仅使用无标签样本和正样本训练一个二分类器,而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器.为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果,可将GAN... 正未标记学习仅使用无标签样本和正样本训练一个二分类器,而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器.为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果,可将GAN中的生成器替换为分类器C,在无标签数据集中挑选样本以欺骗判别器D,对C与D进行迭代优化.本文提出基于以Jensen-Shannon散度(JS散度)为目标函数的JS-PAN模型.最后,结合数据分布特点及现状需求,说明了PAN模型在医疗诊断图像二分类应用的合理性及高性能.在MNIST, CIFAR-10数据集上的实验结果显示:KL-PAN模型与同类正未标记学习模型对比有更高的精确度(ACC)及F1-score;对称化改进后, JS-PAN模型在两个指标上均有所提升,因此JS-PAN模型的提出更具有合理性.在Med-MNIST的3个子图像数据集上的实验显示:KL-PAN模型与4个benchmark有监督模型有几乎相同的ACC, JS-PAN也有更高表现.因此,综合PAN模型的出色分类效果及医疗诊断数据的分布特征, PAN作为半监督学习方法可获得更快、更好的效果,在医学图像的二分类的任务上具有更高的性能. 展开更多
关键词 预测对抗网络 正未标记学习 医学图像分类 对抗性训练
下载PDF
最大化AUC的正例未标注分类及其增量算法 被引量:1
5
作者 马毓敏 王士同 《计算机科学与探索》 CSCD 北大核心 2020年第11期1879-1887,共9页
正例未标注分类简称PU分类,由于只有正例样本与未标注样本,传统的分类方法在PU分类中往往效果不甚理想。为此利用PU分类下的AUC与传统分类下的AUC关系,提出了将传统分类方法中AUC作为目标函数应用到PU分类中,利用高斯核函数将原始样本... 正例未标注分类简称PU分类,由于只有正例样本与未标注样本,传统的分类方法在PU分类中往往效果不甚理想。为此利用PU分类下的AUC与传统分类下的AUC关系,提出了将传统分类方法中AUC作为目标函数应用到PU分类中,利用高斯核函数将原始样本映射到高维空间使数据线性可分。通过优化AUC目标函数得到解析解避免了多次迭代的麻烦,并可以推导出增量公式,加快了运算速度。实验结果表明,所提算法实现了与训练集内所有正例与负例标签都已知的理想支持向量机(SVM)相近的性能,并且实现了快速增量,是处理现实问题的有力工具。 展开更多
关键词 机器学习 pu分类 AUC 增量算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部