期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
面向不同类型概念漂移的两阶段自适应集成学习方法 被引量:1
1
作者 郭虎升 张洋 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1799-1811,共13页
大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同... 大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出“过滤-扩充”两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能. 展开更多
关键词 流数据 概念漂移 集成学习 漂移类型 过滤阶段 扩充阶段
下载PDF
基于混合特征提取的流数据概念漂移处理方法
2
作者 郭虎升 刘艳杰 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1497-1510,共14页
大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题... 大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力. 展开更多
关键词 流数据 概念漂移 特征融合 注意力机制 样本特征 时序特征
下载PDF
基于自适应深度集成网络的概念漂移收敛方法
3
作者 郭虎升 孙妮 +1 位作者 王嘉豪 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期172-183,共12页
概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模... 概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模型难以实时调整以适应动态变化的数据流.为解决上述问题,将梯度提升算法的纠错思想引入含概念漂移的流数据挖掘任务之中,提出了一种基于自适应深度集成网络的概念漂移收敛方法(concept drift convergence method based on adaptive deep ensemble networks,CD_ADEN).该模型集成多个浅层神经网络作为基学习器,后序基学习器在前序基学习器输出的基础上不断纠错,具有较高的实时泛化性能.此外,由于浅层神经网络有较快的收敛速度,因此所提出的模型能够较快地从概念漂移造成的精度下降中恢复.多个数据集上的实验结果表明,所提出的CD_ADEN方法平均实时精度有明显提高,相较于对比方法,平均实时精度有1%~5%的提升,且平均序值在7种典型的对比算法中排名第一.说明所提出的方法能够对前序输出进行纠错,且学习模型能够快速地从概念漂移造成的精度下降中恢复,提升了在线学习模型的实时泛化性能. 展开更多
关键词 流数据 概念漂移 梯度提升 深度学习 快速适应
下载PDF
目标检测综述:从传统方法到深度学习
4
作者 郭虎升 《新兴科学和技术趋势》 2024年第2期0128-0145,共18页
目标检测是计算机视觉领域中一个基础而富有挑战性的研究领域,近年来由于其广泛的应用前景,引起了学术界和工业界的极大关注。本文阐述了目标检测技术的历史进程和最新发展,尤其关注了从传统图像处理技术向基于深度学习模型的演进过程... 目标检测是计算机视觉领域中一个基础而富有挑战性的研究领域,近年来由于其广泛的应用前景,引起了学术界和工业界的极大关注。本文阐述了目标检测技术的历史进程和最新发展,尤其关注了从传统图像处理技术向基于深度学习模型的演进过程。文章详细探讨了深度学习时代的部分标志性算法,并评估了这些算法在实际场景中的表现和优势。本综述还深入分析了目标检测当前面临的一系列挑战,包括多尺度目标的检测、遮挡处理问题及满足实时处理的需求等。针对这些挑战,我们探讨了目前的解决策略以及未来的研究方向。最后,本文展望了目标检测技术的未来发展趋势,特别关注了如自监督学习和算法优化等前沿技术的潜在影响。 展开更多
关键词 计算机视觉 深度学习 目标检测 技术演变
下载PDF
在线深度神经网络的弱监督概念漂移检测方法
5
作者 马乾骏 郭虎升 王文剑 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2094-2101,共8页
流数据作为大数据的重要形式广泛存在于实际问题中,由于流数据中数据分布变化产生概念漂移,容易导致模型的泛化性能下降,且在实际应用问题中,数据标记成本较高,难以获得强监督的信息.针对以上问题,本文提出一种基于在线深度神经网络的... 流数据作为大数据的重要形式广泛存在于实际问题中,由于流数据中数据分布变化产生概念漂移,容易导致模型的泛化性能下降,且在实际应用问题中,数据标记成本较高,难以获得强监督的信息.针对以上问题,本文提出一种基于在线深度神经网络的弱监督概念漂移检测(Weakly supervised conceptual drift detection method based on online deep neural network,WSCDD)方法.该方法设计了一种在线深度神经网络模型,采用Hedge反向传播方法在线学习网络深度,并通过设计Dropout层在模型预测时引入随机性,利用蒙特卡罗方法量化深度神经网络模型的预测不确定性,通过自适应滑动窗口技术检测弱监督环境下概念漂移的发生,并使模型适应新的概念.实验结果表明,该方法可以准确检测数据流中概念漂移的发生,在漂移发生后能够快速收敛到新的数据分布,提高了学习模型的泛化性能. 展开更多
关键词 流数据 概念漂移 弱监督 深度神经网络 蒙特卡罗方法 预测不确定性
下载PDF
基于弱监督集成的概念演化自适应检测方法
6
作者 王婧 郭虎升 王文剑 《吉林大学学报(信息科学版)》 CAS 2024年第3期406-420,共15页
由于现有的多数概念演化检测方法本质上是基于监督学习,且通常用于解决一个时间段内仅出现一个新类,不能处理数据流中的类消失和类循环任务。为此,提出一种基于弱监督集成的概念演化自适应检测方法(AD_WE:Adaptive Detection Method for... 由于现有的多数概念演化检测方法本质上是基于监督学习,且通常用于解决一个时间段内仅出现一个新类,不能处理数据流中的类消失和类循环任务。为此,提出一种基于弱监督集成的概念演化自适应检测方法(AD_WE:Adaptive Detection Method for Concept Evolution Based on Weakly Supervised Ensemble)。该方法利用弱监督集成策略构建集成学习器,对数据块中的训练样本进行局部预测,在此基础上,基于局部密度和相对距离识别特征空间中具有较强内聚性的相似数据并对其聚类,对聚类结果进行相似度比较,实现新类实例的检测及不同新类的区分;同时根据数据随时间变化特征建立动态衰减模型,及时消除消失类,并通过相似度比较检测循环类。实验表明,所提方法能对概念演化做出及时响应,可有效识别消失类和循环类,提高学习器的泛化性能。 展开更多
关键词 概念演化 弱监督集成 自适应模型 动态衰减模型 消失类 循环类
下载PDF
基于在线集成的概念漂移自适应分类方法
7
作者 郭虎升 丛璐 +1 位作者 高淑花 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2023年第7期1592-1602,共11页
针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept ... 针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE).一方面,该方法利用在线集成策略构建在线集成学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,对数据分布变化进行精准响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性.实验结果表明,该方法能够对概念漂移做出及时响应并加速在线学习模型的收敛速度,同时有效提高学习器的整体泛化性能. 展开更多
关键词 流数据 概念漂移 在线集成 增量学习 自适应模型
下载PDF
处理非平衡数据的粒度SVM学习算法 被引量:15
8
作者 郭虎升 亓慧 王文剑 《计算机工程》 CAS CSCD 北大核心 2010年第2期181-183,共3页
针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数... 针对支持向量机对于非平衡数据不能进行有效分类的问题,提出一种粒度支持向量机学习算法。根据粒度计算思想对多数类样本进行粒划分并从中获取信息粒,以使数据趋于平衡。通过这些信息粒来寻找局部支持向量,并在这些局部支持向量和少数类样本上进行有效学习,使SVM在非平衡数据集上获得令人满意的泛化能力。 展开更多
关键词 粒度支持向量机 非平衡数据 信息粒 局部支持向量
下载PDF
动态粒度支持向量回归机 被引量:17
9
作者 郭虎升 王文剑 《软件学报》 EI CSCD 北大核心 2013年第11期2535-2547,共13页
粒度支持向量机(granular support vector machine,简称GSVM)可以有效提高支持向量机(support vector machine,简称SVM)的学习效率,但由于经典GSVM通常将粒用个别样本替代,且粒划和学习在不同空间进行,因而不可避免地改变了原始数据分布... 粒度支持向量机(granular support vector machine,简称GSVM)可以有效提高支持向量机(support vector machine,简称SVM)的学习效率,但由于经典GSVM通常将粒用个别样本替代,且粒划和学习在不同空间进行,因而不可避免地改变了原始数据分布,从而可能导致泛化能力降低.针对这一问题,通过引入动态层次粒划的方法,设计了动态粒度支持向量回归(dynamical granular support vector regression,简称DGSVR)模型.该方法首先将训练样本映射到高维空间,使得在低维样本空间无法直接得到的分布信息显示出来,并在该特征空间中进行初始粒划.然后,通过衡量样本粒与当前回归超平面的距离,找到含有较多回归信息的粒,并通过计算其半径和密度进行深层次的动态粒划.如此循环迭代,直到没有信息粒需要进行深层粒划时为止.最后,通过动态粒划过程得到的不同层次的粒进行回归训练,在有效压缩训练集的同时,尽可能地使含有重要信息的样本在最终训练集中保留下来.在基准函数数据集及UCI上的回归数据集上的实验结果表明,DGSVR方法能够以较快的速度完成动态粒划的过程并收敛,在保持较高训练效率的同时可有效提高传统粒度支持向量回归机(granular support vector regression machine,简称GSVR)的泛化性能. 展开更多
关键词 支持向量回归 动态粒度支持向量回归 动态粒划 信息粒 半径 密度
下载PDF
基于神经网络的支持向量机学习方法研究 被引量:23
10
作者 郭虎升 王文剑 《计算机工程与应用》 CSCD 北大核心 2009年第2期51-54,共4页
针对支持向量机(Support Vector Machine,SVM)对大规模样本分类效率低下的问题,提出了基于自适应共振理论(Adaptive Resonance Theory,ART)神经网络与自组织特征映射(Self-Organizing feature Map,SOM)神经网络的SVM训练算法,分别称为AR... 针对支持向量机(Support Vector Machine,SVM)对大规模样本分类效率低下的问题,提出了基于自适应共振理论(Adaptive Resonance Theory,ART)神经网络与自组织特征映射(Self-Organizing feature Map,SOM)神经网络的SVM训练算法,分别称为ART-SVM算法与SOM-SVM算法。这两种算法通过聚类压缩数据集,使SVM训练的速度大大提高,同时可获得令人满意的泛化能力。 展开更多
关键词 支持向量机 ART-SVM算法 SOM-SVM算法 聚类
下载PDF
基于在线性能测试的概念漂移检测方法 被引量:12
11
作者 郭虎升 张爱娟 王文剑 《软件学报》 EI CSCD 北大核心 2020年第4期932-947,共16页
概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问... 概念漂移是动态流数据挖掘中一类常见的问题,但混杂噪声或训练样本规模过小而产生的伪概念漂移会引起与真实概念漂移相似的结果,即模型在线测试性能的不稳定波动,导致二者容易混淆,发生概念漂移的误报.针对流数据中真伪概念漂移的混淆问题,提出一种基于在线性能测试的概念漂移检测方法(concept drift detection method based on online performance test,简称CDPT).该方法将最新获得的数据集进行均匀分组,在每组子数据集上分别进行在线学习,同时记录每组子数据集训练测试得到的分类精度向量,并计算相邻学习时间单元之间的精度落差,依据测试精度下降阈值得到有效波动位点.然后采用交叉检验的方式整合不同分组中的有效波动位点,以消除流数据在线学习过程中由于训练样本过小导致模型不稳定造成的检测干扰,根据精度波动一致性得到一致波动位点.最后,通过跟踪在线学习分类准确率,得到一致波动位点邻域参照点的测试精度变化,比较一致波动位点邻域参照点对应的模型测试精度下降幅度及收敛情况,以有效检测一致波动位点当中真实的概念漂移位点.实验结果表明,该方法能够有效辨识流数据在线学习过程中发生的真实概念漂移,并能有效避免训练样本过小或者流数据中噪声对检测结果的负面影响,同时提高模型的泛化性能. 展开更多
关键词 流数据 概念漂移 交叉检验 有效波动位点 一致波动位点 概念漂移位点
下载PDF
基于组合半监督的增量支持向量机学习算法 被引量:7
12
作者 郭虎升 王文剑 潘世超 《模式识别与人工智能》 EI CSCD 北大核心 2016年第6期504-510,共7页
增量支持向量机(ISVM)由于在每次增量学习过程中无法选择最有效的增量样本,导致模型的泛化性能较差.针对此问题,文中提出基于组合半监督方式的增量支持向量机学习算法(ICS3VM).通过将大量的无标记样本分批进行组合标记以选择最优的增量... 增量支持向量机(ISVM)由于在每次增量学习过程中无法选择最有效的增量样本,导致模型的泛化性能较差.针对此问题,文中提出基于组合半监督方式的增量支持向量机学习算法(ICS3VM).通过将大量的无标记样本分批进行组合标记以选择最优的增量样本,即每次选择位于分类间隔内部的最有价值样本加入训练集,以此修正模型.同时选择分类间隔最大的一组标记作为最终标记,确保标记的准确性.在标准数据集上的实验表明,ICS3VM能以较高的学习效率提高模型的泛化性能. 展开更多
关键词 支持向量机 组合半监督学习 增量支持向量机(ISVM)
下载PDF
基于时序窗口的概念漂移类别检测 被引量:10
13
作者 郭虎升 任巧燕 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2022年第1期127-143,共17页
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境... 流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能. 展开更多
关键词 流数据 概念漂移 时序窗口 漂移跨度 概念漂移类别
下载PDF
基于粒度偏移因子的支持向量机学习方法 被引量:4
14
作者 郭虎升 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2315-2324,共10页
在实际应用中,数据集样本规模、分布密度的不平衡性可能会使传统支持向量机(support vector machine,SVM)得到的分类超平面不是最优.在对传统支持向量机最优分类面分析的基础上,结合粒度计算(granular computing,GrC)理论,针对数据规模... 在实际应用中,数据集样本规模、分布密度的不平衡性可能会使传统支持向量机(support vector machine,SVM)得到的分类超平面不是最优.在对传统支持向量机最优分类面分析的基础上,结合粒度计算(granular computing,GrC)理论,针对数据规模和分布密度不平衡的数据集,提出一种基于粒度偏移因子的粒度支持向量机(granular SVM,GSVM)学习方法,称为S_GSVM方法.该方法将原始样本用Mercer核映射到高维空间,然后在高维空间中对数据进行有效的粒划分,通过对不同的粒计算不同的超平面偏移因子,重新构造支持向量机的凸二次优化问题,以得到一个泛化能力更好的分类超平面.S_GSVM方法充分考虑了数据复杂分布对于泛化能力的影响,对基于最大间隔的分类面进行改进.实验结果表明,S_GSVM方法在非平衡数据集上能得到较好的泛化性能. 展开更多
关键词 支持向量机 粒度支持向量机 不平衡分布 偏移因子 S—GSVM模型
下载PDF
基于主动学习的模式类别挖掘模型 被引量:4
15
作者 郭虎升 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2148-2159,共12页
在实际应用问题中,由于客观世界物质的多样性、模糊性和复杂性,经常会遇到大量未知样本类别信息的数据挖掘问题,而传统方法往往都依赖于已知样本类别信息才能对数据进行有效挖掘,对于未知模式类别信息的多类数据目前还没有有效的处理方... 在实际应用问题中,由于客观世界物质的多样性、模糊性和复杂性,经常会遇到大量未知样本类别信息的数据挖掘问题,而传统方法往往都依赖于已知样本类别信息才能对数据进行有效挖掘,对于未知模式类别信息的多类数据目前还没有有效的处理方法.针对未知类别信息的多类样本挖掘问题,提出了一种基于主动学习的模式类别挖掘模型(pattern class mining model based on active learning,PM_AL)来解决未知类别信息的模式类别挖掘问题.该模型通过衡量已得到的模式类别与未标记样本间的关系,引入样本差异度的方法来抽取最有价值样本,通过主动学习方式以较小的标记代价快速挖掘无标记样本所蕴含的可能模式类别,从而有助于将无类别标记的多分类问题转化成有类别标记的多分类问题.实验结果表明,PM_AL算法能够以较小的标记代价处理无类别信息的模式类别挖掘问题. 展开更多
关键词 模式类别挖掘 主动学习 PM_AL模型 差异度 标记代价
下载PDF
基于串行交叉混合集成的概念漂移检测及收敛方法 被引量:2
16
作者 郭虎升 高淑花 王文剑 《数据采集与处理》 CSCD 北大核心 2022年第5期997-1011,共15页
概念漂移处理大多采用集成学习策略,然而这些方法多数不能及时提取漂移发生后新分布数据的关键信息,导致模型性能较差。针对这个问题,本文提出一种基于串行交叉混合集成的概念漂移检测及收敛方法(Concept drift detection and convergen... 概念漂移处理大多采用集成学习策略,然而这些方法多数不能及时提取漂移发生后新分布数据的关键信息,导致模型性能较差。针对这个问题,本文提出一种基于串行交叉混合集成的概念漂移检测及收敛方法(Concept drift detection and convergence method based on hybrid ensemble of serial and cross,SC_ensemble)。在流数据处于平稳状态下,该方法通过构建串行基分类器进行集成,以提取代表数据整体分布的有效信息。概念漂移发生后,在漂移节点附近构建并行的交叉基分类器进行集成,提取代表最新分布数据的局部有效信息。通过串行基分类器和交叉基分类器的混合集成,该方法兼顾了流数据包含的整体分布信息,又强化了概念漂移发生时的重要局部信息,使集成模型中包含了较多“好而不同”的基学习器,实现了漂移发生后学习模型的高效融合。实验结果表明,该方法可使在线学习模型在漂移发生后快速收敛,提高了模型的泛化性能。 展开更多
关键词 流数据 概念漂移 集成学习 串行分类器 交叉分类器 混合集成
下载PDF
基于向量余弦的支持向量机主动学习策略 被引量:1
17
作者 郭虎升 王文剑 白龙飞 《计算机科学与探索》 CSCD 2014年第7期868-876,共9页
针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on... 针对传统基于主动学习的支持向量机(support vector machine,SVM)方法中所采用的欧式距离不能有效衡量高维样本之间的相关程度,导致学习器泛化能力下降的问题,提出了一种基于向量余弦的支持向量机主动学习(SVM active learning based on vector cosine)策略,称为COS_SVMactive方法。该方法通过在主动学习过程中引入向量余弦来度量训练集中样本信息的冗余度,以挑选那些含有重要分类信息的最有价值样本交给专家进行人工标注,并在迭代的样本标注过程中对训练集的平衡度进行逐步调整,使学习器获得更好的泛化性能。实验结果表明,与传统基于随机采样的SVM主动学习方法(SVM active learning based on random sampling,RS_SVMactive)和基于距离的SVM主动学习方法(SVM active learning based on distance,DIS_SVMactive)相比,COS_SVMactive方法不仅可以提高分类精度,而且能够减少专家标记代价。 展开更多
关键词 支持向量机 主动学习 向量余弦 冗余度 平衡度
下载PDF
处理多类不平衡数据的SVM分类算法 被引量:7
18
作者 李珍香 王文剑 郭虎升 《计算机工程与设计》 CSCD 北大核心 2014年第7期2499-2503,共5页
针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其... 针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。 展开更多
关键词 多类不平衡数据 支持向量机 空间扩展 小区快 上采样 SS-SVM算法
下载PDF
一种基于特征选择的SVM Bagging集成方法 被引量:9
19
作者 亓慧 王文剑 郭虎升 《小型微型计算机系统》 CSCD 北大核心 2014年第11期2533-2537,共5页
针对传统支持向量机(Support Vector Machine,SVM)集成学习(Ensemble Learning,EL)方法不能够解决高维复杂数据且子学习器差异性小集成效果不明显的问题,提出一种基于多种特征选择方法进行Bagging集成的支持向量机学习(Support Vector M... 针对传统支持向量机(Support Vector Machine,SVM)集成学习(Ensemble Learning,EL)方法不能够解决高维复杂数据且子学习器差异性小集成效果不明显的问题,提出一种基于多种特征选择方法进行Bagging集成的支持向量机学习(Support Vector M achine Based on M ultiple Feature Selection Bagging,M FSB_SVM)方法.该方法首先采用不同的特征选择方法构建子学习器,以增加不同子学习器间的差异性,并直接从训练数据中对样本特征的重要性进行评估,而无需学习算法的反馈.实验表明,本文提出的MFSB_SVM方法既可以有效解决高维数据问题,也可避免传统SVM集成方法效果不明显的缺点,从而进一步提高学习模型的泛化性能. 展开更多
关键词 支持向量机 集成学习 特征选择 Bagging方法
下载PDF
一种新的支持向量机主动学习策略 被引量:10
20
作者 白龙飞 王文剑 郭虎升 《南京大学学报(自然科学版)》 CSCD 北大核心 2012年第2期182-189,共8页
本文提出一种新的支持向量机(support vector machine,SVM)主动学习策略,称为Dix_SVMactive.通过定义新的数据置信度度量来挑选最有价值样本进行人工标注,并在每次迭代中对训练集的平衡度进行调整,以获得更好的泛化能力.在UCI标准数据... 本文提出一种新的支持向量机(support vector machine,SVM)主动学习策略,称为Dix_SVMactive.通过定义新的数据置信度度量来挑选最有价值样本进行人工标注,并在每次迭代中对训练集的平衡度进行调整,以获得更好的泛化能力.在UCI标准数据集上的测试结果表明,与基于随机选样的SVMactive和传统SVMactive(Tong SVMactive)方法相比,本文算法不仅可以提高分类精度,而且能减少人工标注的工作量. 展开更多
关键词 支持向量机 主动学习 置信度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部