期刊文献+
共找到192篇文章
< 1 2 10 >
每页显示 20 50 100
面向不同类型概念漂移的两阶段自适应集成学习方法 被引量:2
1
作者 郭虎升 张洋 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1799-1811,共13页
大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同... 大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出“过滤-扩充”两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能. 展开更多
关键词 流数据 概念漂移 集成学习 漂移类型 过滤阶段 扩充阶段
下载PDF
基于自适应深度集成网络的概念漂移收敛方法
2
作者 郭虎升 孙妮 +1 位作者 王嘉豪 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期172-183,共12页
概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模... 概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模型难以实时调整以适应动态变化的数据流.为解决上述问题,将梯度提升算法的纠错思想引入含概念漂移的流数据挖掘任务之中,提出了一种基于自适应深度集成网络的概念漂移收敛方法(concept drift convergence method based on adaptive deep ensemble networks,CD_ADEN).该模型集成多个浅层神经网络作为基学习器,后序基学习器在前序基学习器输出的基础上不断纠错,具有较高的实时泛化性能.此外,由于浅层神经网络有较快的收敛速度,因此所提出的模型能够较快地从概念漂移造成的精度下降中恢复.多个数据集上的实验结果表明,所提出的CD_ADEN方法平均实时精度有明显提高,相较于对比方法,平均实时精度有1%~5%的提升,且平均序值在7种典型的对比算法中排名第一.说明所提出的方法能够对前序输出进行纠错,且学习模型能够快速地从概念漂移造成的精度下降中恢复,提升了在线学习模型的实时泛化性能. 展开更多
关键词 流数据 概念漂移 梯度提升 深度学习 快速适应
下载PDF
基于混合特征提取的流数据概念漂移处理方法
3
作者 郭虎升 刘艳杰 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1497-1510,共14页
大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题... 大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力. 展开更多
关键词 流数据 概念漂移 特征融合 注意力机制 样本特征 时序特征
下载PDF
非平衡概念漂移数据流主动学习方法
4
作者 李艳红 王甜甜 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第3期589-606,共18页
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真... 数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法. 展开更多
关键词 数据流分类 主动学习 概念漂移 多类不平衡
下载PDF
非平衡数据流在线主动学习方法
5
作者 李艳红 任霖 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1389-1401,共13页
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主... 数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法. 展开更多
关键词 主动学习 数据流分类 多类非平衡 概念漂移
下载PDF
结合软约束的演化数据流模糊聚类算法
6
作者 代少升 边志奇 袁中明 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期287-298,共12页
多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,... 多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,提出了一种结合软约束的实时数据流模糊聚类算法。算法引入2种模糊性软约束来描述微簇距离和密度上的不确定度,通过阈值划分出核心微簇、边界微簇和离群微簇;在类簇边缘使用模糊隶属度,给予微簇分属不同类簇的可能性,保证类簇的完整性并提高聚类效果;使用两阶段的流程结构和2种时间窗口模型,赋予算法具有对可变化数据流的适应能力和更低的时间空间占用率。在多种数据集上的实验表明,该算法相比同类型算法在聚类效果上提升了1%~3%,且平均运行时间缩短5%~20%,在实际硬件平台的测试中也验证了算法的聚类分离性能。 展开更多
关键词 数据流聚类 密度聚类 模糊聚类 概念漂移 局部放电
下载PDF
基于动态样本选择的概念漂移自适应预测方法
7
作者 代劲 李昊 王国胤 《电子学报》 EI CAS CSCD 北大核心 2024年第9期3228-3239,共12页
概念漂移是影响流数据挖掘性能的重要因素,当前主要通过增量更新或重训练模型进行处理,但对已有知识并未充分利用.从综合利用全体样本出发,本文构建了一种基于动态样本选择的概念漂移自适应分类方法.该方法在新样本到来时进行基于局部... 概念漂移是影响流数据挖掘性能的重要因素,当前主要通过增量更新或重训练模型进行处理,但对已有知识并未充分利用.从综合利用全体样本出发,本文构建了一种基于动态样本选择的概念漂移自适应分类方法.该方法在新样本到来时进行基于局部一致性的漂移检测,在发现漂移发生时去除区域内的噪声样本,当检测到新概念出现时,对历史相似概念进行重用.最后,对区域内不同类别样本进行多代表点归纳,并同步更新预测模型.本文在含有不同漂移类型的合成数据集上进行去噪效果验证,并在真实数据集上进行预测任务.实验结果表明,该方法可以有效去除因概念漂移而形成的漂移噪声,有效提升了预测模型性能,整体预测表现优于流行的概念漂移自适应模型. 展开更多
关键词 概念漂移 局部漂移检测 流数据 样本选择 样本去噪 自适应预测
下载PDF
在线深度神经网络的弱监督概念漂移检测方法
8
作者 马乾骏 郭虎升 王文剑 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2094-2101,共8页
流数据作为大数据的重要形式广泛存在于实际问题中,由于流数据中数据分布变化产生概念漂移,容易导致模型的泛化性能下降,且在实际应用问题中,数据标记成本较高,难以获得强监督的信息.针对以上问题,本文提出一种基于在线深度神经网络的... 流数据作为大数据的重要形式广泛存在于实际问题中,由于流数据中数据分布变化产生概念漂移,容易导致模型的泛化性能下降,且在实际应用问题中,数据标记成本较高,难以获得强监督的信息.针对以上问题,本文提出一种基于在线深度神经网络的弱监督概念漂移检测(Weakly supervised conceptual drift detection method based on online deep neural network,WSCDD)方法.该方法设计了一种在线深度神经网络模型,采用Hedge反向传播方法在线学习网络深度,并通过设计Dropout层在模型预测时引入随机性,利用蒙特卡罗方法量化深度神经网络模型的预测不确定性,通过自适应滑动窗口技术检测弱监督环境下概念漂移的发生,并使模型适应新的概念.实验结果表明,该方法可以准确检测数据流中概念漂移的发生,在漂移发生后能够快速收敛到新的数据分布,提高了学习模型的泛化性能. 展开更多
关键词 流数据 概念漂移 弱监督 深度神经网络 蒙特卡罗方法 预测不确定性
下载PDF
基于增量加权的不平衡漂移数据流分类算法
9
作者 蔡博 张海清 +3 位作者 李代伟 向筱铭 于曦 邓钧予 《计算机应用研究》 CSCD 北大核心 2024年第3期854-860,共7页
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成... 概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning,IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。 展开更多
关键词 数据流 不平衡数据 概念漂移 增量加权 集成学习
下载PDF
基于聚簇模型重用的概念漂移数据流半监督分类算法 被引量:1
10
作者 康伟 黎利辉 文益民 《计算机科学》 CSCD 北大核心 2024年第4期124-131,共8页
带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史... 带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史聚簇模型。因此,文中提出了一种新的聚簇模型重用的半监督分类算法,称为CDCMR。首先,数据流以数据块的形式到来,对数据块分完类后,训练一个簇数自适应确定的聚簇模型。其次,通过计算分类器池中的各组件分类器与聚簇模型之间的相似度,挑选多个组件分类器。再次,用当前数据块对挑选出来的组件分类器进行模型重用后,与聚簇模型集成。然后,将分类器池划分为新旧更替和多样性最大化分类器池进行更新。最后,对下一个数据块的样本进行集成分类。在多个人工和真实数据集上进行实验,结果表明,所提算法1)能有效适应概念漂移,与现有方法相比其性能有显著性提升。 展开更多
关键词 数据流 半监督学习 概念漂移 聚簇模型重用 集成学习
下载PDF
基于闭合频繁模式的半随机森林数据流分类算法
11
作者 孙艳歌 邵罕 蒋明毅 《信阳师范学院学报(自然科学版)》 CAS 2024年第4期442-448,共7页
提出了一种基于闭合频繁模式的半随机森林数据流分类算法(Semi-Random Forest based on Closed Frequent Pattern,SRFCFP),以解决数据流中噪声和概念漂移问题。SRFCFP利用闭合频繁模式对数据流进行表示,去除冗余信息和噪声,突出数据特... 提出了一种基于闭合频繁模式的半随机森林数据流分类算法(Semi-Random Forest based on Closed Frequent Pattern,SRFCFP),以解决数据流中噪声和概念漂移问题。SRFCFP利用闭合频繁模式对数据流进行表示,去除冗余信息和噪声,突出数据特征。采用半随机森林建立分类模型,并通过基于时间衰减的模式集更新机制适应数据流的无限性。为了检测概念漂移并及时适应,引入了一种模式集差异性度量方式,用于测量数据分布变化。实验结果表明,在MOA平台下使用真实和合成数据集,SRFCFP在平均精度上超越了相关对比算法,并能有效处理数据流中的概念漂移和噪声问题。 展开更多
关键词 数据流 闭合频繁模式 半随机森林 概念漂移 噪声
下载PDF
改进自适应模型池的在线异常检测算法
12
作者 项秋艳 訾玲玲 丛鑫 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2503-2514,共12页
精确的在线异常检测方法是物联网行业发展的核心,其中,以复杂和动态数据流为对象的在线异常识别是研究热点.现有在线异常检测方法存在处理复杂性负载过重问题,离线深度异常检测方法则存在因数据分布变化导致概念漂移问题.针对上述问题,... 精确的在线异常检测方法是物联网行业发展的核心,其中,以复杂和动态数据流为对象的在线异常识别是研究热点.现有在线异常检测方法存在处理复杂性负载过重问题,离线深度异常检测方法则存在因数据分布变化导致概念漂移问题.针对上述问题,本文提出了改进自适应模型池的在线异常检测框架,该框架可以与基于自动编码器的异常检测方法协作实现在线异常检测.首先,利用基于自动编码器的异常检测模型进行基本异常识别;其次,以自适应模型池为基础,融合概念漂移检测算法准确识别概念漂移,适应动态变化的数据流,解决概念漂移现象;最后,优化自适应模型池的模型合并方法,提升在线异常识别能力.实验结果表明,相比自动编码器模型的流变体和原自适应模型池算法,提出的算法在异常检测精度指标上分别提升了20.2%和5.83%,同时,最佳精度指标高于现有在线异常检测算法约16.7%. 展开更多
关键词 无监督学习 自动编码器 概念漂移 异常检测 自适应模型池 数据流
下载PDF
THRFuzzy:Tangential holoentropy-enabled rough fuzzy classifier to classification of evolving data streams 被引量:1
13
作者 Jagannath E.Nalavade T.Senthil Murugan 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第8期1789-1800,共12页
The rapid developments in the fields of telecommunication, sensor data, financial applications, analyzing of data streams, and so on, increase the rate of data arrival, among which the data mining technique is conside... The rapid developments in the fields of telecommunication, sensor data, financial applications, analyzing of data streams, and so on, increase the rate of data arrival, among which the data mining technique is considered a vital process. The data analysis process consists of different tasks, among which the data stream classification approaches face more challenges than the other commonly used techniques. Even though the classification is a continuous process, it requires a design that can adapt the classification model so as to adjust the concept change or the boundary change between the classes. Hence, we design a novel fuzzy classifier known as THRFuzzy to classify new incoming data streams. Rough set theory along with tangential holoentropy function helps in the designing the dynamic classification model. The classification approach uses kernel fuzzy c-means(FCM) clustering for the generation of the rules and tangential holoentropy function to update the membership function. The performance of the proposed THRFuzzy method is verified using three datasets, namely skin segmentation, localization, and breast cancer datasets, and the evaluated metrics, accuracy and time, comparing its performance with HRFuzzy and adaptive k-NN classifiers. The experimental results conclude that THRFuzzy classifier shows better classification results providing a maximum accuracy consuming a minimal time than the existing classifiers. 展开更多
关键词 data stream classification fuzzy rough set tangential holoentropy concept change
下载PDF
基于在线集成的概念漂移自适应分类方法
14
作者 郭虎升 丛璐 +1 位作者 高淑花 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2023年第7期1592-1602,共11页
针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept ... 针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE).一方面,该方法利用在线集成策略构建在线集成学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,对数据分布变化进行精准响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性.实验结果表明,该方法能够对概念漂移做出及时响应并加速在线学习模型的收敛速度,同时有效提高学习器的整体泛化性能. 展开更多
关键词 流数据 概念漂移 在线集成 增量学习 自适应模型
下载PDF
情境流驱动的大规模在线学习动态分组方法
15
作者 廖宏建 曲哲 +1 位作者 赵文静 陈俊城 《现代教育技术》 CSSCI 2023年第3期118-126,共9页
在大规模在线学习社区中,学习者的行为特征可能会随时间发生变化,如何根据个体和群体的动态演化特征实现学习小组的自适应动态划分,是有效开展协作学习的关键。为此,文章提出一种情境流驱动的大规模在线学习动态分组方法:首先,构建基于... 在大规模在线学习社区中,学习者的行为特征可能会随时间发生变化,如何根据个体和群体的动态演化特征实现学习小组的自适应动态划分,是有效开展协作学习的关键。为此,文章提出一种情境流驱动的大规模在线学习动态分组方法:首先,构建基于活动理论的学习者情境模型,将反映情境指标的多模态数据转化为情境流;然后,扩展模糊C均值聚类算法,使用增量式流处理和动态滑动窗口技术检测概念漂移,实现基于某一情境维度的学习群体自适应动态聚类;最后,对不同情境维度的同质聚类结果进行差异化组合,得到异质学习小组。实验证明,动态分组在合作倾向、互惠性、群体互动一致性等方面比静态分组更具优势。文章的研究可为在线学习平台智能分组提供方法指引,并为实现有效的在线协作学习提供支撑。 展开更多
关键词 情境感知 概念漂移 情境流 大规模在线学习 动态分组
下载PDF
结合微聚类和主动学习的流分类方法
16
作者 尹春勇 陈双双 《计算机工程与应用》 CSCD 北大核心 2023年第20期254-265,共12页
数据流分类是数据挖掘中重要的研究内容,但是数据流中的概念漂移和标记成本昂贵的问题给分类带来了巨大的挑战。现有的研究工作大多采用基于主动学习的在线分类技术,一定程度上缓解了概念漂移和有限标签的问题,但是这些方法的分类效率较... 数据流分类是数据挖掘中重要的研究内容,但是数据流中的概念漂移和标记成本昂贵的问题给分类带来了巨大的挑战。现有的研究工作大多采用基于主动学习的在线分类技术,一定程度上缓解了概念漂移和有限标签的问题,但是这些方法的分类效率较低,并且忽略了内存开销的问题。针对这些问题提出了一种结合微聚类和主动学习的流分类方法(a data stream classification method combining micro-clustering and active learning,CALC)。提出一种新的主动学习混合查询策略,将其与基于错误的表示学习相结合,从而在维护过程中衡量每个微聚类的重要性,通过动态维护一组微聚类以适应数据流中产生的概念漂移。采用基于微聚类的惰性学习方法,实现对数据流的分类,并完成对缓存微聚类的在线更新。使用三个真实数据集和三个人工合成数据集进行实验,结果显示CALC在分类准确率和内存开销方面优于现有的数据流分类算法。与基准模型(online reliable semi-supervised learning on evolving data streams,ORSL)相比,CALC的分类准确率有一定的提升,在六个数据集上的平均准确率分别提高了5.07、2.41、1.04、1.03、3.47、0.64个百分点。 展开更多
关键词 主动学习 数据流分类 微聚类 概念漂移
下载PDF
概念漂移复杂数据流分类方法综述 被引量:2
17
作者 穆栋梁 韩萌 +2 位作者 李昂 刘淑娟 高智慧 《计算机应用》 CSCD 北大核心 2023年第6期1664-1675,共12页
传统分类器难以应对含概念漂移的复杂类型数据流分类这一难题,且得到的分类效果往往不尽如人意。针对不同类型数据流中处理概念漂移的方法,从不平衡、概念演化、多标签和含噪声4个方面对概念漂移复杂数据流分类方法进行了综述。首先,对... 传统分类器难以应对含概念漂移的复杂类型数据流分类这一难题,且得到的分类效果往往不尽如人意。针对不同类型数据流中处理概念漂移的方法,从不平衡、概念演化、多标签和含噪声4个方面对概念漂移复杂数据流分类方法进行了综述。首先,对基于块的和基于在线的学习方式对不平衡概念漂移数据流、基于聚类和基于模型的学习方式对概念演化概念漂移数据流、基于问题转换和基于算法适应的学习方式对多标签概念漂移数据流和含噪声概念漂移数据流这四个方面的分类方法进行了分析介绍;然后,对所提到概念漂移复杂数据流分类方法的实验结果及性能指标进行了详细的对比和分析;最后,给出了现有方法的不足和下一步研究方向。 展开更多
关键词 数据流分类 复杂数据流 概念漂移 不平衡数据流 概念演化
下载PDF
一种面向动态不平衡数据流的集成超限学习机分类算法 被引量:1
18
作者 高源 施伟谊 +3 位作者 周亦华 梅颖 卢诚波 蔡锡飞 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期352-361,共10页
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不... 随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。 展开更多
关键词 动态不平衡 数据流 集成 超限学习机 概念漂移
下载PDF
基于差异指标的概念漂移数据流集成分类仿真
19
作者 柳京秀 梅颖 卢诚波 《计算机仿真》 北大核心 2023年第7期311-315,共5页
集成算法是处理概念漂移数据流的常用方法之一。为了更全面反映基分类器在模型中的整体价值,提出了一种基于差异指标的概念漂移数据流的集成分类算法AE-Div(Ensemble Algorithm for Data Streams with Concept Drift Based on Diversity... 集成算法是处理概念漂移数据流的常用方法之一。为了更全面反映基分类器在模型中的整体价值,提出了一种基于差异指标的概念漂移数据流的集成分类算法AE-Div(Ensemble Algorithm for Data Streams with Concept Drift Based on Diversity Measure)。将基分类器的分类准确率和集成差异性进行融合,结合时间因子作为综合度量指标,并根据概念漂移检测情况对基分类器设置不同权重。将AE-Div算法与其它几种使用广泛的概念漂移分类算法在合成数据集与真实数据集上进行仿真。结果表明,AE-Div具有更高的准确率和更好的适应性和稳定性。 展开更多
关键词 数据流 概念漂移检测 集成分类器 差异性
下载PDF
分段加权的概念漂移检测方法
20
作者 陈志强 韩萌 +2 位作者 武红鑫 李慕航 张喜龙 《计算机应用》 CSCD 北大核心 2023年第3期776-784,共9页
针对现有漂移检测方法无法平衡检测延迟、误报与漏报以及时空效率等问题,提出一个新的阶段转换阈值参数,在概念漂移检测中引入包含“稳定阶段-警告阶段-漂移阶段”的分段加权机制,对实例分阶段地赋予权重,并将该机制应用在双层滑动窗口... 针对现有漂移检测方法无法平衡检测延迟、误报与漏报以及时空效率等问题,提出一个新的阶段转换阈值参数,在概念漂移检测中引入包含“稳定阶段-警告阶段-漂移阶段”的分段加权机制,对实例分阶段地赋予权重,并将该机制应用在双层滑动窗口中;然后基于Hoeffding不等式提出一种分段加权的概念漂移检测方法(MSDDM)。在人工数据集上,相较于FHDDM、HDDM等漂移检测方法,MSDDM能够更快地检测出突变与渐变概念漂移,同时又能保持较低的误检率与漏检率;在真实数据集上,MSDDM相较于其他方法在大部分情况下都具有最高的分类准确率。实验结果表明,MSDDM能够以较高的漂移检测性能和较优的时空效率检测出数据流中的概念漂移。 展开更多
关键词 数据流 概念漂移 漂移检测 滑动窗口 分段加权机制
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部