期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
非平衡概念漂移数据流主动学习方法
1
作者 李艳红 王甜甜 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第3期589-606,共18页
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真... 数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法. 展开更多
关键词 数据流分类 主动学习 概念漂移 多类不平衡
下载PDF
非平衡数据流在线主动学习方法
2
作者 李艳红 任霖 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1389-1401,共13页
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主... 数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法. 展开更多
关键词 主动学习 数据流分类 多类非平衡 概念漂移
下载PDF
基于时序窗口的概念漂移类别检测 被引量:10
3
作者 郭虎升 任巧燕 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2022年第1期127-143,共17页
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境... 流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window,CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能. 展开更多
关键词 流数据 概念漂移 时序窗口 漂移跨度 概念漂移类别
下载PDF
一种面向不平衡数据流的集成分类算法 被引量:4
4
作者 孙艳歌 王志海 白洋 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1178-1183,共6页
大部分数据流算法都是基于类分布大致平衡这一假设的,然而在现实世界中数据流中类的分布往往是不平衡的.同时,数据流中目标概念可能会随着时间发生变化,即概念漂移.本文针对数据流中的概念漂移和类不平衡问题,提出了一种基于集成的不平... 大部分数据流算法都是基于类分布大致平衡这一假设的,然而在现实世界中数据流中类的分布往往是不平衡的.同时,数据流中目标概念可能会随着时间发生变化,即概念漂移.本文针对数据流中的概念漂移和类不平衡问题,提出了一种基于集成的不平衡数据流分类算法.在分类之前加入采样方法应对类不平衡问题,并采取有效的基分类器更新和加权策略应对概念漂移现象,从而提高分类器的性能.针对本文所提出的算法,和几种经典学习算法,在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明本文所提出的算法,其整体分类性能优于其他算法,更能适应存在概念漂移和类不平衡的数据流环境. 展开更多
关键词 数据流 概念漂移 集成分类 类不平衡
下载PDF
面向概念漂移和类不平衡数据流的在线分类算法 被引量:10
5
作者 陆克中 陈超凡 +1 位作者 蔡桓 吴定明 《电子学报》 EI CAS CSCD 北大核心 2022年第3期585-597,共13页
数据流是大数据的重要形式,数据流分类是数据挖掘的重要任务之一,该任务在现实生活中有着巨大的应用前景,因此得到了研究者们的广泛关注.概念漂移和类不平衡是影响数据流分类性能的两个核心问题,但目前大多数算法都只考虑处理两者之一,... 数据流是大数据的重要形式,数据流分类是数据挖掘的重要任务之一,该任务在现实生活中有着巨大的应用前景,因此得到了研究者们的广泛关注.概念漂移和类不平衡是影响数据流分类性能的两个核心问题,但目前大多数算法都只考虑处理两者之一,并且大多数算法过于理想,只能在人工设置的数据流上才能发挥较好的性能,无法适用于复杂的真实数据流.针对这一问题,提出了一种同时处理概念漂移和类不平衡复杂数据流的算法——具有自适应遗忘因子的加权在线顺序极限学习机集成算法.该算法首先融合加权机制和遗忘机制,初步提出具有遗忘机制的加权在线顺序极限学习机算法.为了更好地适应复杂数据流,进一步以初步算法为基分类器,设计包含自适应遗忘因子和概念漂移检测机制的在线集成策略.大量仿真实验表明,所提算法在所有数据集上都取得了最佳的Gmean值,具有更好的概念漂移和类不平衡适应能力,表现出了更稳定、更平衡以及更准确的分类效果. 展开更多
关键词 数据流分类 概念漂移 类不平衡 在线学习 极限学习机
下载PDF
改进的K-均值聚类邮件过滤算法 被引量:1
6
作者 包理群 李祥林 《兰州工业高等专科学校学报》 2010年第2期5-9,共5页
分析了基于内容过滤的反垃圾邮件技术存在的不足,如概念漂移和偏斜类分布会导致召回率降低.在Minoru Sasaki和Hiroyuki Shinnou提出的邮件检测方法的基础上,对特征选择算法做了改进,并增加了自动学习机制,提出了一种基于改进K-均值聚类... 分析了基于内容过滤的反垃圾邮件技术存在的不足,如概念漂移和偏斜类分布会导致召回率降低.在Minoru Sasaki和Hiroyuki Shinnou提出的邮件检测方法的基础上,对特征选择算法做了改进,并增加了自动学习机制,提出了一种基于改进K-均值聚类的垃圾邮件过滤算法.实验表明此方法能较好地适应概念漂移和偏斜类分布现象. 展开更多
关键词 垃圾邮件过滤 概念漂移 偏斜类分布 K-均值聚类算法
下载PDF
倾斜数据流中正例样本的漂移检测方法
7
作者 张玉红 胡学钢 张娟 《计算机科学与探索》 CSCD 2013年第6期545-550,共6页
倾斜数据中普遍存在概念漂移,而已有数据流概念漂移检测方法多假设类分布是平衡的,难以用于倾斜数据流。为此,提出了一种基于正例分布的倾斜数据流概念漂移检测方法CDPSD。首先采用改进的重采样方法,避免将不同概念的实例采样到同一数... 倾斜数据中普遍存在概念漂移,而已有数据流概念漂移检测方法多假设类分布是平衡的,难以用于倾斜数据流。为此,提出了一种基于正例分布的倾斜数据流概念漂移检测方法CDPSD。首先采用改进的重采样方法,避免将不同概念的实例采样到同一数据块中,并构建分类器;再通过检测正例而非所有实例的类分布变化进行概念漂移的检测及分类器更新。实验表明,CDPSD能及时检测到倾斜数据流中的概念漂移,并快速更新分类模型,提高了正类样本的分类效果。 展开更多
关键词 概念漂移 倾斜数据流 重采样 分类 正类
下载PDF
概念漂移数据流中可探测新颖类别的分类算法 被引量:2
8
作者 谢益均 缪裕青 +2 位作者 邵其武 高韩 文益民 《桂林电子科技大学学报》 2015年第6期459-465,共7页
针对可探测新颖类别的框架将数据流分成固定大小的数据块,导致新颖类别探测的准确率较低和处理速率较慢,且均假定数据对象所有属性具有相同的权重不符合实际情况的问题,提出一种在概念漂移数据流中探测新颖类别的分类算法(DNCS)。该算... 针对可探测新颖类别的框架将数据流分成固定大小的数据块,导致新颖类别探测的准确率较低和处理速率较慢,且均假定数据对象所有属性具有相同的权重不符合实际情况的问题,提出一种在概念漂移数据流中探测新颖类别的分类算法(DNCS)。该算法通过周期检测滑动窗口中的数据分布,依据其变化动态调整数据块大小,以此更新分类模型,以适应新的数据变化。该算法框架使用基于属性权重的聚类算法作为探测新颖类别的基本步骤。实验结果表明,该算法具有更高的新颖类别探测精度和处理速率。 展开更多
关键词 数据流 集成分类器 概念漂移 新颖类别探测
下载PDF
基于类标签聚类的动态问题分类集成学习算法
9
作者 田晶华 李翠平 陈红 《计算机科学与探索》 CSCD 2011年第9期826-834,共9页
问题分类是问答社区系统的关键技术,分析用户提出的自然语言问题,并返回一个确切而适当的问题类别。针对网络社区中问题分类标签众多(>1000)、有一定层次且易受时间演化影响的问题,提出了针对两种不同流动粒度的问题分类算法,运用不... 问题分类是问答社区系统的关键技术,分析用户提出的自然语言问题,并返回一个确切而适当的问题类别。针对网络社区中问题分类标签众多(>1000)、有一定层次且易受时间演化影响的问题,提出了针对两种不同流动粒度的问题分类算法,运用不同时刻的数据集层次集成学习方法提高了问题分类精度和效率。同时,针对单次分类标签过多引起的特征集混淆问题,将已有层次的分类标签树基于基分类器错误率和混淆矩阵进行聚类,进一步提高了问题分类的精度和效率。 展开更多
关键词 问题分类 概念漂移 类标签聚类
下载PDF
面向概念漂移且不平衡数据流的G-mean加权分类方法 被引量:6
10
作者 梁斌 李光辉 代成龙 《计算机研究与发展》 EI CSCD 北大核心 2022年第12期2844-2857,共14页
数据流中的概念漂移和类别不平衡问题会严重影响数据流分类算法的性能和稳定性.针对二分类数据流中概念漂移和类别不平衡的问题,在基于数据块的集成分类方法上引入成员分类器权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了... 数据流中的概念漂移和类别不平衡问题会严重影响数据流分类算法的性能和稳定性.针对二分类数据流中概念漂移和类别不平衡的问题,在基于数据块的集成分类方法上引入成员分类器权重的在线更新机制,结合重采样和自适应滑动窗口技术,提出了一种基于G-mean加权的不平衡数据流在线分类方法(online G-mean update ensemble for imbalance learning,OGUEIL).该方法基于集成学习框架,利用时间衰减因子增量计算成员分类器最近若干实例上的G-mean性能,并确定成员分类器权重,每到达一个新实例,在线更新所有成员分类器及其权重,并对少类实例进行随机过采样.同时,OGUEIL会周期性地根据当前数据构造类别平衡数据集训练新的候选分类器,并选择性地添加至集成框架中.在真实和人工数据集上的结果表明,所提方法的综合性能优于其他同类方法. 展开更多
关键词 数据流 概念漂移 集成学习 类别不平衡 分类
下载PDF
Data streams classification with ensemble model based on decision-feedback
11
作者 LIU Jing XU Guo-sheng +2 位作者 ZHENG Shi-hui XIAO Da GU Li-ze 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2014年第1期79-85,共7页
The main challenges of data streams classification include infinite length, concept-drifting, arrival of novel classes and lack of labeled instances. Most existing techniques address only some of them and ignore other... The main challenges of data streams classification include infinite length, concept-drifting, arrival of novel classes and lack of labeled instances. Most existing techniques address only some of them and ignore others. So an ensemble classification model based on decision-feedback(ECM-BDF) is presented in this paper to address all these challenges. Firstly, a data stream is divided into sequential chunks and a classification model is trained from each labeled data chunk. To address the infinite length and concept-drifting problem, a fixed number of such models constitute an ensemble model E and subsequent labeled chunks are used to update E. To deal with the appearance of novel classes and limited labeled instances problem, the model incorporates a novel class detection mechanism to detect the arrival of a novel class without training E with labeled instances of that class. Meanwhile, unsupervised models are trained from unlabeled instances to provide useful constraints for E. An extended ensemble model Ex can be acquired with the constraints as feedback information, and then unlabeled instances can be classified more accurately by satisfying the maximum consensus of Ex. Experimental results demonstrate that the proposed ECM-BDF outperforms traditional techniques in classifying data streams with limited labeled data. 展开更多
关键词 ensemble classification novel class concept drifting decision-feedback
原文传递
基于改进AdaBoost算法的动态不平衡财务预警模型 被引量:15
12
作者 任婷婷 鲁统宇 崔俊 《数量经济技术经济研究》 CSSCI CSCD 北大核心 2021年第11期182-196,F0003,共16页
研究目标:构建动态不平衡财务预警模型以同时处理概念漂移和数据分布不平衡问题。研究方法:在改进AdaBoost算法的基础上,以代价敏感支持向量机为基分类器构建ADA-CSSVM-TW模型,并利用我国2010~2020年制造业公司数据进行分析。研究发现:A... 研究目标:构建动态不平衡财务预警模型以同时处理概念漂移和数据分布不平衡问题。研究方法:在改进AdaBoost算法的基础上,以代价敏感支持向量机为基分类器构建ADA-CSSVM-TW模型,并利用我国2010~2020年制造业公司数据进行分析。研究发现:ADA-CSSVM-TW模型可显著提高预测准确率,性能良好,模型稳健。研究创新:将代价敏感支持向量机作为改进AdaBoost算法的基分类器,建立动态不平衡预警模型。研究价值:对我国上市公司有效防范财务困境具有重要的理论价值和现实意义。 展开更多
关键词 财务预警 不平衡数据 代价敏感学习 概念漂移 ADABOOST算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部