期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
针对不确定正例和未标记学习的最近邻算法(英文) 被引量:2
1
作者 潘世瑞 张阳 +1 位作者 李雪 王勇 《计算机科学与探索》 CSCD 2010年第9期769-779,共11页
研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数... 研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。 展开更多
关键词 不确定数据 例和标记样本学习 最近邻算法
下载PDF
利用主动学习改进遥感图像单类分类:以正类和未标记样本学习方法为例 被引量:5
2
作者 孙熠 李培军 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第1期155-163,共9页
针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直... 针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题,以正类和未标记样本学习(PUL)为例,研究如何利用主动学习选择训练样本,以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类,直到获得稳定的分类精度,然后利用主动学习选择和增加最有用(informative)的正类或负类样本,用于PUL分类。结果表明,当利用足够多的随机选取的正类样本得到稳定的分类精度后,利用主动学习选择和增加正类样本可以提高分类精度;利用主动学习的同时加入正类和负类样本,可以得到比只加入正类样本更高的分类精度;将利用主动学习得到的正类样本经相似性筛选后得到的正类样本,分类精度与直接利用主动学习选择的样本相似,但达到同样精度时需要更少的样本。因此,利用主动学习选择和增加样本可以有效地改善单类分类的精度。 展开更多
关键词 单类分类 主动学习 和未标记样本学习(PUL)
下载PDF
基于随机森林的正例与未标注学习 被引量:2
3
作者 邵强 张阳 蔡晓妍 《计算机工程与设计》 CSCD 北大核心 2014年第12期4329-4334,共6页
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生... 为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。 展开更多
关键词 标注学习 决策树 随机森林 集成学习 偏置支持向量机
下载PDF
基于新型间谍技术的半监督自训练正例无标记学习 被引量:2
4
作者 李婷婷 吕佳 范伟亚 《计算机应用》 CSCD 北大核心 2019年第10期2822-2828,共7页
正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框... 正例无标记(PU)学习中的间谍技术极易受噪声和离群点干扰,导致划分的可靠正例不纯,且在初始正例中随机选择间谍样本的机制极易造成划分可靠负例时效率低下,针对这些问题提出一种结合新型间谍技术和半监督自训练的PU学习框架。首先,该框架对初始有标记样本进行聚类并选取离聚类中心较近的样本来取代间谍样本,这些样本能有效地映射出无标记样本的分布结构,从而更好地辅助选取可靠负例;然后对间谍技术划分后的可靠正例进行自训练提纯,采用二次训练的方式取回被误分为正例样本的可靠负例。该框架有效地解决了传统间谍技术在PU学习中分类效率易受数据分布干扰以及随机间谍样本影响的问题。通过9个标准数据集上的仿真实验结果表明,所提框架的平均分类准确率和F-值均高于基本PU学习算法(Basic_PU)、基于间谍技术的PU学习算法(SPY)、基于朴素贝叶斯的自训练PU学习算法(NBST)和基于迭代剪枝的PU学习算法(Pruning)。 展开更多
关键词 标记学习 间谍技术 半监督自训练 聚类 可靠负 可靠
下载PDF
基于协作推断的正例未标注图学习算法
5
作者 陈航 梁春泉 +1 位作者 王紫 赵航 《计算机应用研究》 CSCD 北大核心 2022年第6期1694-1699,1748,共7页
针对现有正例未标注图学习方法仅提取节点表征信息、独立推断节点类别的问题,提出了一种基于协作推断分类算法,利用节点之间关联信息来帮助推断未标注节点的标签。首先,采用个性化网页排位算法计算每个节点与全体已知正例节点的关联度... 针对现有正例未标注图学习方法仅提取节点表征信息、独立推断节点类别的问题,提出了一种基于协作推断分类算法,利用节点之间关联信息来帮助推断未标注节点的标签。首先,采用个性化网页排位算法计算每个节点与全体已知正例节点的关联度。其次,采用一个图神经网络学习节点表征信息,与正例关联度联合构造一个局部分类器,预测未标注节点标签;采用另一个图神经网络获取局部节点标签之间依赖关系,与正例关联度联合构造一个关系分类器,协作更新未标注节点标签。然后,借鉴马尔可夫图神经网络方法交替迭代地训练两者,形成多跳步节点标签之间的协作推断;并且,为有效利用正例与未标注节点训练分类器,提出了混合非负无偏风险评估函数。最后,选择两者中任意一个,预测未标注节点的类别。在真实数据集上的实验结果表明,无论是识别单类别正例还是识别多类别合成正例,所述算法均表现出比其他正例未标注学习方法更佳效果,且对正例先验概率误差表现出更好的鲁棒性。 展开更多
关键词 标注图学习 协作推断 图神经网络 节点依赖
下载PDF
DTU-PU:针对不确定数据PU学习的决策树 被引量:2
6
作者 张星 张阳 +1 位作者 刘明建 王勇 《计算机工程与应用》 CSCD 2013年第9期127-133,共7页
不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间... 不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。 展开更多
关键词 只有样本和未标注样本(PU)学习 不确定 决策树
下载PDF
基于PU学习和自主训练的时间序列分类模型 被引量:1
7
作者 郭芷榕 王会青 白莹莹 《计算机工程与设计》 北大核心 2018年第9期2780-2786,共7页
通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭... 通过分析PU学习(positive unlabeled learning)的数据分布情况和自主训练算法的迭代过程,针对时间序列监督学习中自主训练算法的过早停止问题,提出基于PU学习和改进的自主训练的时间序列分类模型。针对不同的数据分布,进行不同轮次的迭代标记,将所有未标记数据进行标记,有效避免过早停止,增强模型的泛化能力。实验结果表明,该模型在PU学习时间序列分类中,具有较高的分类准确度、分类查全率和分类F1度量值。 展开更多
关键词 时间序列 半监督学习 正例和未标记数据学习 自主训练 停止标准
下载PDF
基于小样本学习的垃圾邮件过滤方法 被引量:2
8
作者 潘洁珠 周晓 +1 位作者 吴共庆 胡学钢 《计算机工程》 CAS CSCD 北大核心 2010年第21期245-247,共3页
针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标... 针对客户端垃圾邮件过滤器难以获取足够训练样本的问题,提出一种基于小样本学习的垃圾邮件过滤方法,利用容易获取的未标记样本提高垃圾邮件过滤的性能。该方法使用已标记的小样本邮件实例集训练一个初始Na?veBayes分类器,以此标注未标记邮件,再使用所有数据训练新的分类器,利用EM算法进行迭代直至收敛。实验结果证明,当给定5个~20个已标记小样本训练邮件时,该方法可有效提高垃圾邮件过滤性能。 展开更多
关键词 小样本学习 EM算法 标记数据 垃圾邮件过滤
下载PDF
基于分歧的半监督学习 被引量:87
9
作者 周志华 《自动化学报》 EI CSCD 北大核心 2013年第11期1871-1878,共8页
传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢... 传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢?为此,半监督学习成为近十多年来机器学习的一大研究热点.基于分歧的半监督学习是该领域的主流范型之一,它通过使用多个学习器来对未标记数据进行利用,而学习器间的"分歧"对学习成效至关重要.本文将综述简介这方面的一些研究进展. 展开更多
关键词 机器学习 半监督学习 基于分歧的半监督学习 标记数据
下载PDF
基于PU学习的软件故障检测研究 被引量:1
10
作者 张荷 李梅 +1 位作者 张阳 蔡晓妍 《计算机应用研究》 CSCD 北大核心 2015年第11期3324-3327,3331,共5页
针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少... 针对软件故障数据中正例样本相对较少且大量样本标注困难的现实场景,已知未标注样本中包含用于建立故障检测模型的大量有用信息,提出仅用正例和未标注数据构建分类模型对软件开发过程中的故障进行检测的半监督学习方法。首先采用合成少数类过采样SMOTE算法对数据集中的正例样本进行过采样,平衡数据集中的类分布。在此基础上合理构建正例集合和未标注集合,采用POSC 4.5和Bagging算法构建软件故障决策树集成分类器。通过对NASA MDP数据库中的12个数据集进行对比实验,结果表明,仅用正例和未标注数据建模可以得到与有监督学习方法相近的软件故障检测率,且集成分类器方法比单分类器方法具有更高的检测率,未标注样本集大小的软件故障检测率同样有影响。 展开更多
关键词 软件故障检测 例和标注学习 不平衡数据 决策树 集成分类器
下载PDF
PU场景下基于迁移学习的软件缺陷预测 被引量:1
11
作者 包振栋 张阳 刘斌 《计算机工程与设计》 北大核心 2018年第3期663-667,共5页
为降低软件缺陷预测对标注样本的需求,将软件缺陷预测问题模型化为PU场景下的迁移学习问题。不对要进行软件缺陷预测的目标领域样本标注类别,只对跨工程的源领域数据集标注部分正例样本,结合数据引力方法基于样本进行迁移学习,利用贝叶... 为降低软件缺陷预测对标注样本的需求,将软件缺陷预测问题模型化为PU场景下的迁移学习问题。不对要进行软件缺陷预测的目标领域样本标注类别,只对跨工程的源领域数据集标注部分正例样本,结合数据引力方法基于样本进行迁移学习,利用贝叶斯理论在源领域缺陷数据集和目标数据集上估算概率参数,构建软件缺陷预测算法TPAODE。实验结果表明,TPAODE算法比PNB和PTAN算法具有更好的缺陷预测性能,仅需标注少量正例样本的跨项目缺陷数据,即可具有较好的软件缺陷预测性能。 展开更多
关键词 迁移学习 迁移 软件缺陷预测 标注学习 贝叶斯算法
下载PDF
结合PU学习的遥感影像建筑物自动提取方法 被引量:1
12
作者 王理根 张永忠 《遥感信息》 CSCD 北大核心 2023年第3期93-99,共7页
针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对... 针对目前基于机器学习的高分辨率遥感影像的地物提取方法往往需要大量标记样本训练模型的问题,提出了一种利用正样本和未标记样本学习的遥感影像建筑物自动提取方法。首先,利用面向对象的图像分析方法对遥感影像进行分割从而产生地理对象;其次,基于影像建筑物阴影特征和边缘特征提取建筑物像素,结合分割结果自动获取正样本;再次,利用已提取的正样本和剩余的未标记样本训练Bagging-PU分类器对建筑物进行提取;最后,通过基于邻域统计的二值化处理得到建筑物检测最终结果。该方法实现了训练样本标签的自动获取,不需要外部标签样本输入,就能够自动从遥感影像中提取建筑物。在ISPRS(Vaihingen)数据集上的实验表明,该方法提取结果总体精度达到0.928,F1分数为0.864。 展开更多
关键词 建筑物提取 阴影特征 面向地理对象图像分析 标注学习 二值化
下载PDF
基于PU学习算法的文本分类研究与实现 被引量:1
13
作者 郭亚玲 徐振明 王亚强 《信息通信》 2016年第3期27-28,共2页
PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档。两步策略是解决PU学习问题的一种最常用的方法。实际问题中,当正例P数量太少的时候,这种方... PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档。两步策略是解决PU学习问题的一种最常用的方法。实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好。为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法 F值有将近30%的提高。 展开更多
关键词 半监督学习 例和标记文档 PU 文本分类
下载PDF
结合半监督与主动学习的时间序列PU问题分类
14
作者 陈娟 朱福喜 《计算机工程与应用》 CSCD 北大核心 2018年第11期116-121,共6页
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标... 目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集U中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集U中数据进行人工标注从而构建分类器的方法 OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。 展开更多
关键词 时间序列 例和标记样本(PU)问题 分类 主动学习 半监督学习
下载PDF
“无师自通”机器学习方法的核心算法分析
15
作者 周欣 《电脑知识与技术》 2011年第4期2335-2338,共4页
机器学习的发展趋势,就是不断地使用易获得的、廉价的数据作为样本数据,来辅助训练数据进行学习。“无师自通”学习是迁移学习的一种改进,它使用未标记的数据集作为样本数据集,且并不假设未标记数据集和标记数据集有着同样的数据分... 机器学习的发展趋势,就是不断地使用易获得的、廉价的数据作为样本数据,来辅助训练数据进行学习。“无师自通”学习是迁移学习的一种改进,它使用未标记的数据集作为样本数据集,且并不假设未标记数据集和标记数据集有着同样的数据分布,它运用稀疏编码方法来对未标记数据集得到一个更高层次的表示。然后,再使用经典的监督学习方法如SVM方法来对得到的新的数据集进行机器学习。该文将介绍“无师自通”学习法的主要原理,并对其核心算法一稀疏编码算法进行深入分析并通过实验给出具体的实例。 展开更多
关键词 机器学习 无师自通 标记数据 稀疏编码 监督学习
下载PDF
基于PBLC算法的滑坡空间易发性分析 被引量:2
16
作者 黄伟钧 李佳豪 +3 位作者 刘子越 胡晓梅 黄华兵 李文楷 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2023年第4期54-64,共11页
滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受... 滑坡空间易发性统计模型的构建需要正样本(滑坡点)和负样本(非滑坡点)两类数据,但历史观测数据仅记录了正样本,而负样本的选取容易受到正样本污染,因为没有滑坡记录的地方也可能在过去或未来发生滑坡,从而导致模型的预测精度与稳定性受到影响。针对此问题,将前期提出的半监督学习算法PBLC(positive and background learning with constraints)应用于滑坡空间易发性分析,探讨其解决负样本污染问题的有效性。本文以粤东地区为研究区,选择高程、坡度、坡向、剖面曲率、距离道路最短距离、距离断层线最短距离、距水系最短距离、年平均降雨量、归一化植被指数和地理坐标共11个影响因子作为环境变量。结果表明,与传统的人工神经网络模型相比,基于PBLC算法的预测概率取值范围更为合理,预测结果更加稳定,且预测精度随背景样本数量增加而提高;粤东地区的滑坡灾害高易发区集中于北部和西南区域,坡度和高程是影响该地区滑坡易发性的主要因子。结果表明,半监督学习算法PBLC可以有效解决滑坡统计建模过程负样本污染的问题,提高模型预测精度。 展开更多
关键词 滑坡易发性 带约束的样本-背景学习 人工神经网络 标记数据 粤东地区
下载PDF
PU场景下的生物医学命名实体识别算法研究 被引量:1
17
作者 高冰涛 翟振刚 刘斌 《智能物联技术》 2019年第1期22-28,47,共8页
传统的生物医学命名实体识别方法需要大量的标注数据样本,但是在实际应用中标注样本代价高昂。为降低生物医学命名实体识别对标注样本的需求,本文提出通过使用PU学习中的两步法方法,将生物医学命名实体识别问题转化为PU场景下的命名实... 传统的生物医学命名实体识别方法需要大量的标注数据样本,但是在实际应用中标注样本代价高昂。为降低生物医学命名实体识别对标注样本的需求,本文提出通过使用PU学习中的两步法方法,将生物医学命名实体识别问题转化为PU场景下的命名实体识别问题。在第一步中分别使用1-DNF、Spy、NB和Rocchio算法在未标注数据中抽取强负例,然后在已有的正例数据和强负例数据的基础上构建隐马尔可夫模型,最后对待分类数据进行命名实体识别。在GENIA语料库上的实验结果显示,在标注数据较少的情况下,通过使用PU学习方法的两步法构建分类模型,其性能显著优于直接使用标注数据构建的分类模型,同时降低了人工标注数据的成本。 展开更多
关键词 标注学习 隐马尔科夫模型 命名实体识别 文本挖掘
下载PDF
基于预测对抗网络的图像二分类模型
18
作者 余筝韵 李春 《计算机系统应用》 2023年第10期275-283,共9页
正未标记学习仅使用无标签样本和正样本训练一个二分类器,而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器.为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果,可将GAN... 正未标记学习仅使用无标签样本和正样本训练一个二分类器,而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器.为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果,可将GAN中的生成器替换为分类器C,在无标签数据集中挑选样本以欺骗判别器D,对C与D进行迭代优化.本文提出基于以Jensen-Shannon散度(JS散度)为目标函数的JS-PAN模型.最后,结合数据分布特点及现状需求,说明了PAN模型在医疗诊断图像二分类应用的合理性及高性能.在MNIST, CIFAR-10数据集上的实验结果显示:KL-PAN模型与同类正未标记学习模型对比有更高的精确度(ACC)及F1-score;对称化改进后, JS-PAN模型在两个指标上均有所提升,因此JS-PAN模型的提出更具有合理性.在Med-MNIST的3个子图像数据集上的实验显示:KL-PAN模型与4个benchmark有监督模型有几乎相同的ACC, JS-PAN也有更高表现.因此,综合PAN模型的出色分类效果及医疗诊断数据的分布特征, PAN作为半监督学习方法可获得更快、更好的效果,在医学图像的二分类的任务上具有更高的性能. 展开更多
关键词 预测对抗网络 标记学习 医学图像分类 对抗性训练
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部