期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
1
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 smote Biased-svm
下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
2
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数类样本合成过采样技术 支持向量机
下载PDF
基于集成的非均衡数据分类主动学习算法 被引量:4
3
作者 李卓然 张永 《计算机应用与软件》 CSCD 北大核心 2012年第6期81-83,88,共4页
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),... 当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。 展开更多
关键词 非均衡数据 集成 主动学习 分类
下载PDF
基于主动学习的微博数据分类 被引量:1
4
作者 刘东江 黎建辉 《计算机应用研究》 CSCD 北大核心 2018年第3期803-806,816,共5页
支持向量机(SVM)主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,即没有对微博数据内容多样的特点进行考虑,因此提出了一种新的基于SVM的主动学习算法。该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和... 支持向量机(SVM)主动学习算法是主动学习中相当著名的算法,但是该算法还存在缺陷,即没有对微博数据内容多样的特点进行考虑,因此提出了一种新的基于SVM的主动学习算法。该算法通过未标注样本点与所有已标注样本点之间的余弦相似度之和来度量未标注样本与所有已标注样本点之间的相似性,通过选择与已选择的所有样本不相似的样本点进行标注就可以实现对于数据多样性的充分考虑;另外,为了避免太大的余弦相似度值对于余弦相似度之和的影响,该算法通过设置阈值的方法使得被选择样本的最小余弦相似度尽可能大;除此之外,为了选择最佳的样本进行标注,除了考虑数据多样性之外,算法也对样本点和分类超平面之间的距离进行了考虑。 展开更多
关键词 微博数据 主动学习 支持向量机 分类模型 训练集
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部