期刊文献+
共找到278篇文章
< 1 2 14 >
每页显示 20 50 100
非平衡概念漂移数据流主动学习方法
1
作者 李艳红 王甜甜 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第3期589-606,共18页
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真... 数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法. 展开更多
关键词 数据流分类 主动学习 概念漂移 多类不平衡
下载PDF
基于自适应深度集成网络的概念漂移收敛方法
2
作者 郭虎升 孙妮 +1 位作者 王嘉豪 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期172-183,共12页
概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模... 概念漂移是流数据挖掘领域中的一个重要且具有挑战性的难题.然而,目前的方法大多仅能够处理线性或简单的非线性映射,深度神经网络虽然有较强的非线性拟合能力,但在流数据挖掘任务中,每次只能在新得到的1个或一批样本上进行训练,学习模型难以实时调整以适应动态变化的数据流.为解决上述问题,将梯度提升算法的纠错思想引入含概念漂移的流数据挖掘任务之中,提出了一种基于自适应深度集成网络的概念漂移收敛方法(concept drift convergence method based on adaptive deep ensemble networks,CD_ADEN).该模型集成多个浅层神经网络作为基学习器,后序基学习器在前序基学习器输出的基础上不断纠错,具有较高的实时泛化性能.此外,由于浅层神经网络有较快的收敛速度,因此所提出的模型能够较快地从概念漂移造成的精度下降中恢复.多个数据集上的实验结果表明,所提出的CD_ADEN方法平均实时精度有明显提高,相较于对比方法,平均实时精度有1%~5%的提升,且平均序值在7种典型的对比算法中排名第一.说明所提出的方法能够对前序输出进行纠错,且学习模型能够快速地从概念漂移造成的精度下降中恢复,提升了在线学习模型的实时泛化性能. 展开更多
关键词 流数据 概念漂移 梯度提升 深度学习 快速适应
下载PDF
面向不同类型概念漂移的两阶段自适应集成学习方法
3
作者 郭虎升 张洋 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1799-1811,共13页
大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同... 大数据时代,流数据大量涌现.概念漂移作为流数据挖掘中最典型且困难的问题,受到了越来越广泛的关注.集成学习是处理流数据中概念漂移的常用方法,然而在漂移发生后,学习模型往往无法对流数据的分布变化做出及时响应,且不能有效处理不同类型概念漂移,导致模型泛化性能下降.针对这个问题,提出一种面向不同类型概念漂移的两阶段自适应集成学习方法(two-stage adaptive ensemble learning method for different types of concept drift,TAEL).该方法首先通过检测漂移跨度来判断概念漂移类型,然后根据不同漂移类型,提出“过滤-扩充”两阶段样本处理机制动态选择合适的样本处理策略.具体地,在过滤阶段,针对不同漂移类型,创建不同的非关键样本过滤器,提取历史样本块中的关键样本,使历史数据分布更接近最新数据分布,提高基学习器有效性;在扩充阶段,提出一种分块优先抽样方法,针对不同漂移类型设置合适的抽取规模,并根据历史关键样本所属类别在当前样本块上的规模占比设置抽样优先级,再由抽样优先级确定抽样概率,依据抽样概率从历史关键样本块中抽取关键样本子集扩充当前样本块,缓解样本扩充后的类别不平衡现象,解决当前基学习器欠拟合问题的同时增强其稳定性.实验结果表明,所提方法能够对不同类型的概念漂移做出及时响应,加快漂移发生后在线集成模型的收敛速度,提高模型的整体泛化性能. 展开更多
关键词 流数据 概念漂移 集成学习 漂移类型 过滤阶段 扩充阶段
下载PDF
基于混合特征提取的流数据概念漂移处理方法
4
作者 郭虎升 刘艳杰 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1497-1510,共14页
大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题... 大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力. 展开更多
关键词 流数据 概念漂移 特征融合 注意力机制 样本特征 时序特征
下载PDF
网络异常检测领域概念漂移问题研究综述
5
作者 杜冠瑶 郭勇杰 +2 位作者 龙春 赵静 万巍 《数据与计算发展前沿》 CSCD 2024年第1期162-178,共17页
【目的】随着网络技术的快速发展和广泛应用,网络异常检测作为保护网络安全和维护系统正常运行的手段变得越来越重要。然而,网络中异常行为和攻击手段不断变化,给异常检测带来了新的挑战。其中,概念漂移问题是网络异常检测领域中受到广... 【目的】随着网络技术的快速发展和广泛应用,网络异常检测作为保护网络安全和维护系统正常运行的手段变得越来越重要。然而,网络中异常行为和攻击手段不断变化,给异常检测带来了新的挑战。其中,概念漂移问题是网络异常检测领域中受到广泛关注的难点之一。【方法】本综述旨在对网络异常检测领域中概念漂移问题进行研究分析和总结。与前人的研究相比,本文将专注于网络异常检测领域的流数据。【文献范围】首先,对概念漂移进行详细介绍,包括定义、产生原因和特点。通过对概念漂移的全面理解,可以为后续的检测方法提供指导。其次,系统性地介绍了概念漂移检测方法,主要包括基于统计的方法、机器学习方法和深度学习方法等,并对比了各类方法的优缺点和适用场景。最后,探讨了概念漂移在未来可能的研究方向。【结论】本文聚焦于网络异常检测领域的概念漂移问题,通过详细介绍概念漂移的定义、产生原因和特点,以及深入分析和总结针对流数据概念漂移的检测方法,为未来研究方向提供了有价值的参考和指导。 展开更多
关键词 概念漂移 网络异常检测 数据分布 模型更新
下载PDF
结合软约束的演化数据流模糊聚类算法
6
作者 代少升 边志奇 袁中明 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第2期287-298,共12页
多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,... 多源局部放电检测中,不同类型的局放信号同时存在且不断变化使得信号的分离更具挑战,而这种情况同样存在于许多数据流的聚类分析场景中。为了能够适应类簇内的不均匀密度和类簇间的重叠边界问题,同时对数据流的漂移和演化进行及时跟踪,提出了一种结合软约束的实时数据流模糊聚类算法。算法引入2种模糊性软约束来描述微簇距离和密度上的不确定度,通过阈值划分出核心微簇、边界微簇和离群微簇;在类簇边缘使用模糊隶属度,给予微簇分属不同类簇的可能性,保证类簇的完整性并提高聚类效果;使用两阶段的流程结构和2种时间窗口模型,赋予算法具有对可变化数据流的适应能力和更低的时间空间占用率。在多种数据集上的实验表明,该算法相比同类型算法在聚类效果上提升了1%~3%,且平均运行时间缩短5%~20%,在实际硬件平台的测试中也验证了算法的聚类分离性能。 展开更多
关键词 数据流聚类 密度聚类 模糊聚类 概念漂移 局部放电
下载PDF
基于增量加权的不平衡漂移数据流分类算法
7
作者 蔡博 张海清 +3 位作者 李代伟 向筱铭 于曦 邓钧予 《计算机应用研究》 CSCD 北大核心 2024年第3期854-860,共7页
概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成... 概念漂移是数据流学习领域中的一个难点问题,同时数据流中存在的类不平衡问题也会严重影响算法的分类性能。针对概念漂移和类不平衡的联合问题,在基于数据块集成的方法上引入在线更新机制,结合重采样和遗忘机制提出了一种增量加权集成的不平衡数据流分类方法(incremental weighted ensemble for imbalance learning,IWEIL)。该方法以集成框架为基础,利用基于可变大小窗口的遗忘机制确定基分类器对窗口内最近若干实例的分类性能,并计算基分类器的权重,随着新实例的逐个到达,在线更新IWEIL中每个基分器及其权重。同时,使用改进的自适应最近邻SMOTE方法生成符合新概念的新少数类实例以解决数据流中类不平衡问题。在人工数据集和真实数据集上进行实验,结果表明,相比于DWMIL算法,IWEIL在HyperPlane数据集上的G-mean和recall指标分别提升了5.77%和6.28%,在Electricity数据集上两个指标分别提升了3.25%和6.47%。最后,IWEIL在安卓应用检测问题上表现良好。 展开更多
关键词 数据流 不平衡数据 概念漂移 增量加权 集成学习
下载PDF
复杂数据流在线集成分类算法综述
8
作者 李春鹏 韩萌 +2 位作者 孟凡兴 何菲菲 张瑞华 《计算机应用研究》 CSCD 北大核心 2024年第3期641-651,共11页
复杂数据流中所存在的概念漂移及不平衡问题降低了分类器的性能。传统的批量学习算法需要考虑内存以及运行时间等因素,在快速到达的海量数据流中性能并不突出,并且其中还包含着大量的漂移及类失衡现象,利用在线集成算法处理复杂数据流... 复杂数据流中所存在的概念漂移及不平衡问题降低了分类器的性能。传统的批量学习算法需要考虑内存以及运行时间等因素,在快速到达的海量数据流中性能并不突出,并且其中还包含着大量的漂移及类失衡现象,利用在线集成算法处理复杂数据流问题已经成为数据挖掘领域重要的研究课题。从集成策略的角度对bagging、boosting、stacking集成方法的在线版本进行了介绍与总结,并对比了不同模型之间的性能。首次对复杂数据流的在线集成分类算法进行了详细的总结与分析,从主动检测和被动自适应两个方面对概念漂移数据流检测与分类算法进行了介绍,从数据预处理和代价敏感两个方面介绍不平衡数据流,并分析了代表性算法的时空效率,之后对使用相同数据集的算法性能进行了对比。最后,针对复杂数据流在线集成分类研究领域的挑战提出了下一步研究方向。 展开更多
关键词 在线学习 集成学习 概念漂移 不平衡
下载PDF
基于聚簇模型重用的概念漂移数据流半监督分类算法
9
作者 康伟 黎利辉 文益民 《计算机科学》 CSCD 北大核心 2024年第4期124-131,共8页
带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史... 带概念漂移的半监督数据流分类任务中,仅有少部分的数据被标记,这给分类器的训练、概念漂移的检测以及分类器对新概念的适应带来了巨大的挑战。现有的半监督聚簇分类算法仅对分类器池中的聚簇模型进行简单的增量更新,未能有效重用历史聚簇模型。因此,文中提出了一种新的聚簇模型重用的半监督分类算法,称为CDCMR。首先,数据流以数据块的形式到来,对数据块分完类后,训练一个簇数自适应确定的聚簇模型。其次,通过计算分类器池中的各组件分类器与聚簇模型之间的相似度,挑选多个组件分类器。再次,用当前数据块对挑选出来的组件分类器进行模型重用后,与聚簇模型集成。然后,将分类器池划分为新旧更替和多样性最大化分类器池进行更新。最后,对下一个数据块的样本进行集成分类。在多个人工和真实数据集上进行实验,结果表明,所提算法1)能有效适应概念漂移,与现有方法相比其性能有显著性提升。 展开更多
关键词 数据流 半监督学习 概念漂移 聚簇模型重用 集成学习
下载PDF
基于自适应集成学习的异常流量检测 被引量:1
10
作者 倪嘉翼 陈伟 +1 位作者 童家铖 李频 《信息安全研究》 CSCD 北大核心 2024年第1期34-39,共6页
提出了一种基于自适应集成学习的异常流量检测方法,使用离散傅里叶变换提取流量的频域特征,使得对流量特征提取过程中信息损失较小.用一种基于稳定性和准确性波动的评估指标来动态评估当前流量特征的可靠性,通过评估的特征数据块用于生... 提出了一种基于自适应集成学习的异常流量检测方法,使用离散傅里叶变换提取流量的频域特征,使得对流量特征提取过程中信息损失较小.用一种基于稳定性和准确性波动的评估指标来动态评估当前流量特征的可靠性,通过评估的特征数据块用于生成新的子分类器.同时,设计了一种集成自适应分类器,其参数和子分类器会根据当前的情况进行实时调整.实验结果表明,该方法对于解决异常流量检测中的概念漂移问题和机器学习对抗攻击问题有良好的效果. 展开更多
关键词 异常流量检测 频域特征 概念漂移 集成学习 自适应学习
下载PDF
一种基于局部分类精度的概念漂移数据流分类算法
11
作者 张玲 马士伦 +1 位作者 黎利辉 文益民 《广西科学》 CAS 北大核心 2024年第1期100-109,共10页
概念漂移数据流分类是一个极具挑战性的问题。当新概念出现时,该概念下的学习样本过少,无法对分类器进行及时调整,进而导致分类精度不高。为了解决该问题,本文提出一种基于局部分类精度的概念漂移数据流分类算法——LA-MS-CDC。第一,LA-... 概念漂移数据流分类是一个极具挑战性的问题。当新概念出现时,该概念下的学习样本过少,无法对分类器进行及时调整,进而导致分类精度不高。为了解决该问题,本文提出一种基于局部分类精度的概念漂移数据流分类算法——LA-MS-CDC。第一,LA-MS-CDC将k-means聚类和局部分类精度算法结合,从分类器池中挑选出最优源领域分类器;第二,将最优源领域分类器与目标领域分类器加权集成,进而对样本分类;第三,根据分类样本的真实标签分别计算各分类器的损失,并对目标领域和源领域的分类器权重进行更新;第四,再利用该分类样本对目标领域分类器、最优源领域分类器进行更新;最后,完成分类器池的更新。在公开数据集上的实验结果表明,LA-MS-CDC能够有效地将源领域知识迁移到目标领域,与现有方法相比,其分类效果具有显著性提升。算法代码可在https://gitee.com/ymw12345/LAMSCDC上获取。 展开更多
关键词 概念漂移 多源在线迁移学习 局部分类精度 集成学习 多样性
下载PDF
概念漂移下的系统日志在线异常检测模型 被引量:1
12
作者 吕宗平 梁婷婷 +3 位作者 顾兆军 刘春波 王双 王志 《计算机应用与软件》 北大核心 2023年第10期314-321,共8页
针对在线系统的动态日志中存在的概念漂移问题,提出一种结合置信度的系统日志在线异常检测模型(COP)。按照时间顺序模拟Hadoop分布式文件系统日志,使用滑动窗口以日志块的方式接收日志并进行预处理;获取一定时间内的日志作为预先知识并... 针对在线系统的动态日志中存在的概念漂移问题,提出一种结合置信度的系统日志在线异常检测模型(COP)。按照时间顺序模拟Hadoop分布式文件系统日志,使用滑动窗口以日志块的方式接收日志并进行预处理;获取一定时间内的日志作为预先知识并计算p值;使用一致性预测得分计算置信度,根据预先知识中获得的显著性水平过滤异常日志;建立当前与之前日志数据之间的联系,动态更新校准集并输出一个可信的检测结果。实验结果表明,COP与用于模拟增量学习的重训练异常检测模型相比,得到的在线检测结果和时间性能更优。 展开更多
关键词 概念漂移 在线学习 一致性预测 异常检测 滑动窗口 置信度
下载PDF
基于多元区域集划分的工业数据流概念漂移检测
13
作者 韩光洁 赵腾飞 +2 位作者 刘立 张帆 徐政伟 《电子学报》 EI CAS CSCD 北大核心 2023年第7期1906-1916,共11页
为了快速适应非平稳环境中工业数据流的分布变化,需要在非结构化和噪声干扰的数据中准确、实时的完成概念漂移的检测.本文提出了一种基于多元区域集划分的工业数据流概念漂移检测算法(Concept Drift detection-Multivariate region set ... 为了快速适应非平稳环境中工业数据流的分布变化,需要在非结构化和噪声干扰的数据中准确、实时的完成概念漂移的检测.本文提出了一种基于多元区域集划分的工业数据流概念漂移检测算法(Concept Drift detection-Multivariate region set Partition,CDMP).首先基于实例模糊密度进行多元区域集划分,根据划分的若干模糊分区集合,识别概念漂移发生的区域.概念漂移的持续发生会显著降低基于多元区域集构建的模型的分类性能,CDMP通过构建多元历史模型池来保留具有多样性的历史模型,以降低模型调整或再训练造成的性能损耗,同时保证概念漂移检测中准确性.CDMP在不同数据集上进行了性能测试.实验结果表明,CDMP实现了对历史模型多样性的保留和重用,能够在不同噪声水平的工业物联网环境中实现对重现型、突发型等多类型概念漂移的准确检测. 展开更多
关键词 工业物联网 概念漂移 多元区域集 实例模糊分区 多样性历史模型
下载PDF
基于在线集成的概念漂移自适应分类方法
14
作者 郭虎升 丛璐 +1 位作者 高淑花 王文剑 《计算机研究与发展》 EI CSCD 北大核心 2023年第7期1592-1602,共11页
针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept ... 针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE).一方面,该方法利用在线集成策略构建在线集成学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,对数据分布变化进行精准响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性.实验结果表明,该方法能够对概念漂移做出及时响应并加速在线学习模型的收敛速度,同时有效提高学习器的整体泛化性能. 展开更多
关键词 流数据 概念漂移 在线集成 增量学习 自适应模型
下载PDF
基于机器学习的信用卡交易欺诈检测研究综述
15
作者 蒋洪迅 江俊毅 梁循 《计算机工程与应用》 CSCD 北大核心 2023年第21期1-25,共25页
机器学习在信用卡交易检测中有其特殊性,面对的环境更为复杂。由于有人的智力介入,战胜信用卡交易欺诈,其挑战性比人脸识别、无人驾驶等工程问题的难度更高,照搬工程学科的机器学习方法往往会失败。综述了2000年以来基于机器学习的信用... 机器学习在信用卡交易检测中有其特殊性,面对的环境更为复杂。由于有人的智力介入,战胜信用卡交易欺诈,其挑战性比人脸识别、无人驾驶等工程问题的难度更高,照搬工程学科的机器学习方法往往会失败。综述了2000年以来基于机器学习的信用卡欺诈检测研究历程,辨析了该领域的研究范畴、应用场景、技术流派等相关概念及其联系;解构了机器学习欺诈识别的一般性研究架构,从特征工程、模型算法、评价指标三个环节归纳总结了领域内研究的最新进展;从数据集是否具备标签角度,着重列举了面向欺诈识别的有监督的、无监督和半监督三类主流机器学习模型,讨论了这些模型的出发点、核心思想、求解方法以及优缺点;还分析了强化学习模型模拟欺诈者与机构之间的动态博弈过程;探讨了机器学习面临的海量数据、样本偏斜和概念漂移三大难点问题,并汇集整理了缓解这些问题的最新进展;总结了面向欺诈检测的机器学习研究目前存在的局限、争议和挑战,并为未来的研究方向提供趋势分析与建议。 展开更多
关键词 信用卡欺诈识别 机器学习 数据挖掘 样本偏斜 概念漂移
下载PDF
情境流驱动的大规模在线学习动态分组方法
16
作者 廖宏建 曲哲 +1 位作者 赵文静 陈俊城 《现代教育技术》 2023年第3期118-126,共9页
在大规模在线学习社区中,学习者的行为特征可能会随时间发生变化,如何根据个体和群体的动态演化特征实现学习小组的自适应动态划分,是有效开展协作学习的关键。为此,文章提出一种情境流驱动的大规模在线学习动态分组方法:首先,构建基于... 在大规模在线学习社区中,学习者的行为特征可能会随时间发生变化,如何根据个体和群体的动态演化特征实现学习小组的自适应动态划分,是有效开展协作学习的关键。为此,文章提出一种情境流驱动的大规模在线学习动态分组方法:首先,构建基于活动理论的学习者情境模型,将反映情境指标的多模态数据转化为情境流;然后,扩展模糊C均值聚类算法,使用增量式流处理和动态滑动窗口技术检测概念漂移,实现基于某一情境维度的学习群体自适应动态聚类;最后,对不同情境维度的同质聚类结果进行差异化组合,得到异质学习小组。实验证明,动态分组在合作倾向、互惠性、群体互动一致性等方面比静态分组更具优势。文章的研究可为在线学习平台智能分组提供方法指引,并为实现有效的在线协作学习提供支撑。 展开更多
关键词 情境感知 概念漂移 情境流 大规模在线学习 动态分组
下载PDF
动态数据流集成分类算法综述
17
作者 刘允峰 佟季萱 叶应图 《渤海大学学报(自然科学版)》 CAS 2023年第1期79-91,共13页
数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类... 数据流分为静态数据流和动态数据流,但因数据的情况越来越复杂,动态数据流已经遍布我们的生活.针对动态数据流中的不平衡数据流、概念漂移数据流及噪声数据流的基本概念、算法特点、相关工作及优缺点等方面进行了分析和阐述,同时对三类动态数据流的传输特点、适用方法及集成分类算法展开了介绍与对比,并对突变、增量、重复及渐变的概念漂移类型展开了研究,以及集成分类中常用的Boosting和Bagging方法进行了深度研究,指出了现阶段动态数据流集成分类算法所需要解决的主要问题,此外,针对多种类概念漂移、复合动态数据流及集成基分类器的动态加权等提供了多个可扩展性研究方向,并进行了分析和展望. 展开更多
关键词 不平衡 概念漂移 噪声 集成分类 综述
下载PDF
结合微聚类和主动学习的流分类方法
18
作者 尹春勇 陈双双 《计算机工程与应用》 CSCD 北大核心 2023年第20期254-265,共12页
数据流分类是数据挖掘中重要的研究内容,但是数据流中的概念漂移和标记成本昂贵的问题给分类带来了巨大的挑战。现有的研究工作大多采用基于主动学习的在线分类技术,一定程度上缓解了概念漂移和有限标签的问题,但是这些方法的分类效率较... 数据流分类是数据挖掘中重要的研究内容,但是数据流中的概念漂移和标记成本昂贵的问题给分类带来了巨大的挑战。现有的研究工作大多采用基于主动学习的在线分类技术,一定程度上缓解了概念漂移和有限标签的问题,但是这些方法的分类效率较低,并且忽略了内存开销的问题。针对这些问题提出了一种结合微聚类和主动学习的流分类方法(a data stream classification method combining micro-clustering and active learning,CALC)。提出一种新的主动学习混合查询策略,将其与基于错误的表示学习相结合,从而在维护过程中衡量每个微聚类的重要性,通过动态维护一组微聚类以适应数据流中产生的概念漂移。采用基于微聚类的惰性学习方法,实现对数据流的分类,并完成对缓存微聚类的在线更新。使用三个真实数据集和三个人工合成数据集进行实验,结果显示CALC在分类准确率和内存开销方面优于现有的数据流分类算法。与基准模型(online reliable semi-supervised learning on evolving data streams,ORSL)相比,CALC的分类准确率有一定的提升,在六个数据集上的平均准确率分别提高了5.07、2.41、1.04、1.03、3.47、0.64个百分点。 展开更多
关键词 主动学习 数据流分类 微聚类 概念漂移
下载PDF
基于McDiarmid边界的自适应加权概念漂移检测方法 被引量:2
19
作者 胡阳 孙自强 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期419-428,共10页
针对概念漂移主动检测方法检测延迟高,易出现漏检、误报的问题,提出了一种基于McDiarmid边界的自适应加权概念漂移检测方法。引入衰减函数对分类结果加权,赋予旧数据更低权值,提升新数据的影响力。利用McDiarmid不等式得到加权分类正确... 针对概念漂移主动检测方法检测延迟高,易出现漏检、误报的问题,提出了一种基于McDiarmid边界的自适应加权概念漂移检测方法。引入衰减函数对分类结果加权,赋予旧数据更低权值,提升新数据的影响力。利用McDiarmid不等式得到加权分类正确率的置信边界,在检测到分类正确率下降超过置信边界时调节衰减因子时,实现权值的动态改变。实验主要与DDM(Drift Detection Method)、RDDM(Reactive Drift Detection Method)、HDDM(Drift Detection Method based on the Hoeffding's inequality)、FHDDM(Fast Hoeffding Drift Detection Method)和窗口(ADWIN)算法对比,结果表明,该算法具有最低的误报率和漏检率,且平均检测延迟和正确率在6种算法中排前2。 展开更多
关键词 概念漂移 主动检测方法 数据流分类 McDiarmid边界 衰减算法
下载PDF
基于时空局部学习的集成自适应软测量方法 被引量:1
20
作者 黄成 金怀平 +2 位作者 王彬 钱斌 杨彪 《仪器仪表学报》 EI CAS CSCD 北大核心 2023年第1期231-241,共11页
集成软测量方法已被广泛应用于流程工业关键质量参数实时估计。但是,常规集成建模方法在基模型构建过程中往往局限于挖掘样本之间的空间关系,忽略了样本间的时序关系,从而导致过程局部状态挖掘不充分、基模型间多样性不足等问题。其次,... 集成软测量方法已被广泛应用于流程工业关键质量参数实时估计。但是,常规集成建模方法在基模型构建过程中往往局限于挖掘样本之间的空间关系,忽略了样本间的时序关系,从而导致过程局部状态挖掘不充分、基模型间多样性不足等问题。其次,传统软测量方法由于缺乏自适应机制而无法有效处理过程时变特征,从而导致模型性能发生退化。为此,提出一种基于时空局部学习(STLL)的集成自适应软测量方法。该方法首先通过移动窗口、即时学习技术分别挖掘样本间的时序关系和空间关系,并采用统计假设检验实现冗余状态剔除,进而构建多样性的时空局部高斯混合回归(GMR)模型。然后,基于在线选择性集成策略实现局部预测结果的自适应融合。此外,引入双重自适应机制以缓解模型性能退化问题。实验结果显示,相较于非自适应全局GMR模型、时间局部学习集成GMR模型、空间局部学习集成GMR模型,所提方法在金霉素发酵过程中的预测精度分别提升了70.3%,14.9%,27.8%;在脱丁烷塔过程中,分别提升了31.9%,21.2%,19.3%。 展开更多
关键词 软测量 集成学习 自适应机制 概念漂移 局部状态辨识 高斯混合回归
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部